GAIA : le révélateur des faiblesses des IA

GAIA, le test ultime pour les IA génératives, met en lumière les défis rencontrés par GPT-4... encore bien loin de l'intelligence humaine !

En Bref. GAIA est un outil de benchmarking innovant, développé par des chercheurs de Meta-FAIR, Meta-GenAI, HuggingFace, et AutoGPT, pour évaluer les performances des intelligences artificielles génératives.

Le Score. GAIA comprend une série de 466 questions de différents niveaux de difficulté. Lors des tests, GPT-4 a réussi seulement 30% des questions de niveau 1 et a échoué à toutes les questions les plus difficiles. En comparaison, un humain réussit 92% des questions posées par GAIA.

Les Entraves. L'article souligne les difficultés des IA en matière de comparaison de plusieurs sources d'information. De plus, GAIA, qui est limité à l'anglais, ne prend pas en compte la méthode utilisée par les IA pour arriver à leurs réponses, ce qui pourrait affecter la comparaison de plusieurs sources d'information.

Source : Numerama