Actualités

Défectueux dès le départ : L’exactitude du dernier GPT d’OpenAI remise en question

Défectueux dès le départ : L'exactitude du dernier GPT d'OpenAI remise en question
Simon Robben
Écrit par Simon Robben

2025-03-19 21:00:00
Le développement des chatbots alimentés par l’intelligence artificielle (IA) soulève des préoccupations majeures concernant leur précision. Ces systèmes, bien qu’impressionnants, sont souvent sujets à des “hallucinations” – des erreurs où ils peuvent générer de fausses informations. Alors que la société américaine OpenAI affirme que sa dernière version, le modèle GPT-4.5, hallucine moins, l’efficacité de sa méthode d’évaluation est mise à l’épreuve par des experts.

### Évaluation de l’accuracité des modèles par OpenAI

OpenAI a mis en place un outil d’évaluation appelé SimpleQA, introduit en novembre 2024. Ce benchmark consiste en une série de questions à choix unique, totalisant 4 326 questions, dont chacune devrait avoir une réponse précise. Bien que les réponses puissent être vérifiées en ligne, elles ne relèvent pas de la connaissance générale.

Le questionnaire aborde des sujets variés et complexes, comme :

– L’attribution du Frank Rosenblatt Award en 2010 à Michio Sugeno.
– La date de la deuxième session du quatrième Parlement de Singapour, commencée le 26 décembre 1978.
– Le club de football qui a remporté la première Hessenpokal, à savoir l’Eintracht Frankfurt.

Les chercheurs d’OpenAI, dans une étude préliminaire, ont souligné que SimpleQA avait été conçu pour être exigeant, mais des critiques ont émergé quant à son efficacité pour évaluer l’accuracité des modèles d’IA.

A lire aussi :  [Dernières nouvelles] Comment l'intelligence artificielle façonne le marché des caméras automobiles en Amérique latine.

### Les résultats préoccupants des tests

En soumettant GPT-4.5 au questionnaire, OpenAI a observé que le modèle avait halluciné dans 37 % des cas. Bien que cela soit une amélioration par rapport aux versions précédentes – où GPT-4o avait un taux d’hallucination de 62 % – des experts comme Daswin de Silva, chercheur à l’Université de La Trobe, estiment que cette approche d’évaluation est intrinsèquement défaillante.

Il souligne que ce type de test se concentre sur de courtes questions factuelles, négligeant la capacité des chatbots à fournir des réponses plus longues et nuancées, qui sont souvent leur principale utilisation. OpenAI reconnaît cette limitation et admet qu’il reste à déterminer si l’exactitude des réponses courtes se traduit par une précision comparable dans des réponses plus élaborées.

### Les défis des méthodes d’évaluation

La méthode SimpleQA n’est pas la seule à essayer d’évaluer l’accuracité des intelligences artificielles. D’autres benchmarks, tels que SelfCheckGPT et DeepEval, existent, mais partagent une faiblesse commune : ils peuvent devenir des cibles que les IA tenteront de contourner pour obtenir de meilleurs résultats.

Geoff Webb, chercheur en IA à l’Université de Monash, souligne qu’une fois qu’un benchmark est établi, les modèles peuvent être entraînés spécifiquement pour l’atteindre, ce qui n’implique pas nécessairement une amélioration des capacités générales de l’IA.

A lire aussi :  Pionnière de l'IA, Joelle Pineau quitte Meta après huit ans de recherche en intelligence artificielle

Niusha Shafiabady, chercheuse à l’Université catholique australienne, suggère que l’intervention humaine pourrait améliorer l’évaluation, avec des contrôles aléatoires pour maintenir la qualité. D’autres chercheurs affirment que le véritable succès d’un modèle d’IA pourrait se mesurer à son adoption et à son utilisation, plutôt qu’à des résultats de tests spécifiques.

### Les limites de l’amélioration des modèles

OpenAI est timide quant aux détails de ce qui a été fait pour améliorer l’exactitude de GPT. Les experts en IA s’interrogent sur la viabilité de l’approche actuelle, qui repose sur l’augmentation des données et des capacités de calcul. Ils soulignent que cette stratégie pourrait éventuellement rencontrer des limites, en raison de la fin des données utiles disponibles pour l’entraînement.

Il existe des préoccupations quant à la qualité des données elles-mêmes, qui ne sont pas toujours fiables. À l’heure actuelle, les biais présents dans les systèmes d’IA sont souvent ancrés dans des contextes culturels spécifiques, notamment nord-américains, ce qui complique la tâche d’éliminer ces préjugés sans générer d’autres biais.

### La réalité des hallucinations

Malgré les attentes d’exactitude, les systèmes d’IA comme GPT ne seront jamais totalement exempts d’hallucinations. Selon les experts, même avec des améliorations, ces modèles sont incapables de déterminer la vérité absolue dans de nombreux cas. Certains utilisateurs peuvent même préférer que les modèles “hallucinent”, comme dans le cas de la création de contenu original. Ces générateurs d’IA ont la nécessité de proposer des idées novatrices et créatives, ce qui implique parfois de s’écarter des faits connus.

A lire aussi :  Les pionniers de l'informatique, Microsoft, fêtent leurs 50 ans à l'ère de l'IA.

En somme, les défis posés par les hallucinations dans l’IA continuent d’être un sujet de préoccupation. Des recherches plus poussées et des innovations dans les méthodologies d’apprentissage sont nécessaires pour traiter ces limitations et améliorer l’efficacité des modèles d’IA.

A propos de l'auteur

Simon Robben

Simon Robben

Simon Robben est un expert reconnu en intelligence artificielle et en transformation numérique. Auteur principal du site Actualité I.A, il partage son expertise à travers des articles clairs et accessibles, dédiés à l'actualité de l'intelligence artificielle. Avec plusieurs années d'expérience dans le domaine, Simon suit de près les dernières avancées technologiques et leurs impacts sur les entreprises et la société.