Un nouveau rapport du AI Disclosures Project soulève d’importantes interrogations sur l’intégrité des données utilisées par OpenAI pour l’entraînement de ses modèles de langage, notamment le modèle GPT-4o. Ce document, fruit du travail collectif du technologue Tim O’Reilly et de l’économiste Ilan Strauss, met en évidence une « forte reconnaissance » des données protégées par des droits d’auteur, notamment celles tirées des ouvrages de la maison O’Reilly Media.
Transparence et responsabilité dans le secteur de l’IA
Le AI Disclosures Project s’attache à éclaircir les possibles impacts sociétaux de la commercialisation de l’intelligence artificielle. En son cœur, il plaide pour une transparence accrue tant au niveau des entreprises que des technologies. À travers leur rapport, les auteurs comparent les standards de divulgation en matière d’IA à ceux requis dans le secteur financier, insistant sur leur rôle crucial pour la santé des marchés de valeurs industrielles.
Une analyse basée sur des ouvrages protégés
L’étude a examiné un ensemble légalement acquis de 34 livres protégés d’O’Reilly Media, afin de déterminer si les modèles d’OpenAI avaient été entraînés avec des données soumises à des droits d’auteur sans autorisation appropriée. Pour cela, les chercheurs ont employé la méthode d’attaque par inférence DE-COP, permettant de distinguer les textes rédigés par des humains des versions paraphrasées générées par les modèles.
Conclusions clés de l’étude
Les résultats mettent en avant plusieurs points significatifs :
-
Reconnaissance de contenu payant : Le modèle GPT-4o affiche une reconnaissance notable de contenus issus d’ouvrages O’Reilly protégés, atteignant un score AUROC de 82 %. À titre de comparaison, l’ancien modèle GPT-3.5 Turbo marque un score légèrement supérieur à 50 %.
-
Différenciation des types de contenus : GPT-4o présente une reconnaissance supérieure des contenus non publics d’O’Reilly par rapport aux échantillons accessibles au public, avec des scores respectifs de 82 % contre 64 %.
- Modèle plus léger : Le modèle GPT-4o Mini, de taille réduite, n’a montré aucune connaissance des contenus d’O’Reilly, qu’ils soient publics ou non, présentant un score AUROC proche de 50 %.
Accès aux données et violations potentielles
Les chercheurs suggèrent que des violations d’accès pourraient être survenues via la base de données LibGen, qui hébergeait les ouvrages testés. Ils notent également que les nouveaux modèles de langage améliorent leur capacité à distinguer le texte humain du texte machine, sans pour autant altérer la classification des données.
Les implications d’une utilisation non compensée
Le rapport positionne cette situation comme révélatrice d’un problème systémique lié à l’utilisation de données protégées. Une utilisation non rémunérée des données d’entraînement risque de nuire à la qualité et à la diversité des contenus disponibles sur Internet, en érodant les revenus des créateurs de contenus professionnels.
Appel à des normes de responsabilité accrues
Le AI Disclosures Project souligne l’urgence d’établir des mécanismes de responsabilité pour les processus de pré-entraînement des modèles d’IA. Il appelle à l’introduction de clauses de responsabilité incitant à une meilleure transparence corporative sur les origines des données utilisées. La mise en œuvre des exigences de divulgation de l’Acte sur l’IA de l’UE pourrait catalyser une dynamique positive de partage d’informations si elle est appliquée correctement.
Un marché émergent pour l’acquisition de données
Malgré les dangers apparents d’une acquisition illégale des données, un marché se développe où les développeurs de modèles d’IA achètent des contenus via des contrats de licence. Des entreprises, telles que Defined.ai, facilitent l’achat de données d’entraînement, en s’assurant de la conformité auprès des fournisseurs de données.
Conclusion
En utilisant un échantillon de 34 livres d’O’Reilly Media, cette étude fournit des preuves empiriques que le modèle GPT-4o d’OpenAI a probablement été entraîné sur des données non publiques protégées par des droits d’auteur, soulevant ainsi des questions cruciales sur la légalité et l’éthique dans le développement des technologies d’IA.
