Fa pocs mesos, OpenAI va llançar ChatGPT al públic en general, situant al chatbot en el centre de la conversa mundial i impulsant discussions sobre com aquesta tecnologia pot transformar els negocis, l'educació, el treball i altres qüestions.

Poc després, els gegants d'Internet, Google i Microsoft, a més d'altres empreses xineses, van presentar els seus propis chatbots per demostrar al món que la Intel·ligència generativa (tecnologia capaç de crear text conversacional) ja estava preparada per al seu ús general, però recentment ha estat Amazon qui ha presentat el seu nou model de llenguatge amb l'objectiu de superar a GPT3.5.

La intel·ligència d'Amazon està preparat per a destacar, ja que supera a GPT-3.5 (una versió més recent a ChatGPT) superant-ho en un 16% (75,17%) en el benchmark ScienceQA.

Dit benchmark consisteix en unes proves basades en preguntes científiques multimodals, incloent més de 21.000 preguntes d'opció múltiple multimodals (MCQ). Els models de llenguatge grans (LLM) poden resoldre tasques que requereixen raonament complex gràcies als recents avanços tecnològics.

Encara que les entrades provinguin de múltiples modalitats com el llenguatge i el visual, Multimodal-Cot divideix els problemes amb més d'un pas en processos de pensament intermedis que condueixen a la resposta final. Abans de demanar als LLM que realitzin Cot, un dels mètodes més populars per a realitzar Multimodal-Cot és afegir dades de diverses modalitats en una sola modalitat.

No obstant això, aquest enfocament té alguns desavantatges, com la pèrdua d'informació en convertir dades entre formats. Els models de llenguatge petits que han estat ajustats poden realitzar el raonament Cot en la multimodalitat fusionant diverses parts del llenguatge i el visual. No obstant això, el problema fonamental amb aquesta estratègia és que aquests models de llenguatge tenen la predisposició a generar patrons de raonament erroneos que afecten significativament la inferència de la resposta.

Per mitigar aquests errors, els investigadors d'Amazon van desenvolupar Multimodal-Cot, que incorpora característiques visuals en un marc d'entrenament diferent. Aquest estudi sobre com difereix el pensament Cot d'altres tipus de raonament és el primer del seu tipus.

Segons els investigadors d'Amazon, el mètode té un impressionant rendiment en el benchmark ScienceQA, superant la precisió de GPT-3.5 en un 16% i superant és clar, el rendiment humà. De moment no se sap quan llançarà Amazon el seu IA al públic, però esperem que sigui aviat perquè realment puguem veure els avantatges del seu nou model respecte al popular ChatGPT que avui ja gairebé tots hem provat en algun moment.