2025-03-19 21:00:00
Le développement des chatbots alimentés par l’intelligence artificielle (IA) soulève des préoccupations majeures concernant leur précision. Ces systèmes, bien qu’impressionnants, sont souvent sujets à des “hallucinations” – des erreurs où ils peuvent générer de fausses informations. Alors que la société américaine OpenAI affirme que sa dernière version, le modèle GPT-4.5, hallucine moins, l’efficacité de sa méthode d’évaluation est mise à l’épreuve par des experts.
### Évaluation de l’accuracité des modèles par OpenAI
OpenAI a mis en place un outil d’évaluation appelé SimpleQA, introduit en novembre 2024. Ce benchmark consiste en une série de questions à choix unique, totalisant 4 326 questions, dont chacune devrait avoir une réponse précise. Bien que les réponses puissent être vérifiées en ligne, elles ne relèvent pas de la connaissance générale.
Le questionnaire aborde des sujets variés et complexes, comme :
– L’attribution du Frank Rosenblatt Award en 2010 à Michio Sugeno.
– La date de la deuxième session du quatrième Parlement de Singapour, commencée le 26 décembre 1978.
– Le club de football qui a remporté la première Hessenpokal, à savoir l’Eintracht Frankfurt.
Les chercheurs d’OpenAI, dans une étude préliminaire, ont souligné que SimpleQA avait été conçu pour être exigeant, mais des critiques ont émergé quant à son efficacité pour évaluer l’accuracité des modèles d’IA.
### Les résultats préoccupants des tests
En soumettant GPT-4.5 au questionnaire, OpenAI a observé que le modèle avait halluciné dans 37 % des cas. Bien que cela soit une amélioration par rapport aux versions précédentes – où GPT-4o avait un taux d’hallucination de 62 % – des experts comme Daswin de Silva, chercheur à l’Université de La Trobe, estiment que cette approche d’évaluation est intrinsèquement défaillante.
Il souligne que ce type de test se concentre sur de courtes questions factuelles, négligeant la capacité des chatbots à fournir des réponses plus longues et nuancées, qui sont souvent leur principale utilisation. OpenAI reconnaît cette limitation et admet qu’il reste à déterminer si l’exactitude des réponses courtes se traduit par une précision comparable dans des réponses plus élaborées.
### Les défis des méthodes d’évaluation
La méthode SimpleQA n’est pas la seule à essayer d’évaluer l’accuracité des intelligences artificielles. D’autres benchmarks, tels que SelfCheckGPT et DeepEval, existent, mais partagent une faiblesse commune : ils peuvent devenir des cibles que les IA tenteront de contourner pour obtenir de meilleurs résultats.
Geoff Webb, chercheur en IA à l’Université de Monash, souligne qu’une fois qu’un benchmark est établi, les modèles peuvent être entraînés spécifiquement pour l’atteindre, ce qui n’implique pas nécessairement une amélioration des capacités générales de l’IA.
Niusha Shafiabady, chercheuse à l’Université catholique australienne, suggère que l’intervention humaine pourrait améliorer l’évaluation, avec des contrôles aléatoires pour maintenir la qualité. D’autres chercheurs affirment que le véritable succès d’un modèle d’IA pourrait se mesurer à son adoption et à son utilisation, plutôt qu’à des résultats de tests spécifiques.
### Les limites de l’amélioration des modèles
OpenAI est timide quant aux détails de ce qui a été fait pour améliorer l’exactitude de GPT. Les experts en IA s’interrogent sur la viabilité de l’approche actuelle, qui repose sur l’augmentation des données et des capacités de calcul. Ils soulignent que cette stratégie pourrait éventuellement rencontrer des limites, en raison de la fin des données utiles disponibles pour l’entraînement.
Il existe des préoccupations quant à la qualité des données elles-mêmes, qui ne sont pas toujours fiables. À l’heure actuelle, les biais présents dans les systèmes d’IA sont souvent ancrés dans des contextes culturels spécifiques, notamment nord-américains, ce qui complique la tâche d’éliminer ces préjugés sans générer d’autres biais.
### La réalité des hallucinations
Malgré les attentes d’exactitude, les systèmes d’IA comme GPT ne seront jamais totalement exempts d’hallucinations. Selon les experts, même avec des améliorations, ces modèles sont incapables de déterminer la vérité absolue dans de nombreux cas. Certains utilisateurs peuvent même préférer que les modèles “hallucinent”, comme dans le cas de la création de contenu original. Ces générateurs d’IA ont la nécessité de proposer des idées novatrices et créatives, ce qui implique parfois de s’écarter des faits connus.
En somme, les défis posés par les hallucinations dans l’IA continuent d’être un sujet de préoccupation. Des recherches plus poussées et des innovations dans les méthodologies d’apprentissage sont nécessaires pour traiter ces limitations et améliorer l’efficacité des modèles d’IA.
