Le récent lancement du modèle d’intelligence artificielle QwQ-32B par l’équipe Qwen d’Alibaba marque une avancée significative dans le domaine de l’apprentissage par renforcement (RL). Avec ses 32 milliards de paramètres, ce modèle se distingue par des performances comparables à celles de modèles beaucoup plus volumineux, comme le DeepSeek-R1, qui possède 671 milliards de paramètres. Une telle performance atteste du potentiel du RL lorsqu’il est implanté sur des modèles de base robustes intégrant une riche connaissance du monde.
Intégration des capacités d’agents pour un raisonnement avancé
L’une des innovations majeures du QwQ-32B est son intégration d’agents capables de réflexion critique, d’utilisation d’outils et d’adaptation du raisonnement en fonction des retours environnementaux. Cela met en lumière une transformation dans la façon dont les modèles peuvent interagir et apprendre à partir de leur environnement, améliorant ainsi leurs capacités de raisonnement.
La promesse du renforcement à grande échelle
L’équipe a expliqué que l’augmentation de l’apprentissage par renforcement pourrait dépasser les méthodes de pré-entraînement et de post-entraînement traditionnelles. Des études récentes montrent que le RL peut jouer un rôle essentiel dans l’amélioration des capacités de raisonnement des modèles, indiquant une voie prometteuse pour les futures évolutions technologiques.
Évaluation croisée des performances
Le QwQ-32B a été testé sur divers bancs d’essai tels que AIME24, LiveCodeBench, LiveBench, IFEval et BFCL, qui se concentrent sur des critères comme le raisonnement mathématique, la maîtrise de la programmation et les compétences générales en résolution de problèmes. Les résultats obtenus démontrent une compétitivité importante par rapport aux modèles phares dans le domaine.
Résultats des benchmarks
- AIME24 : QwQ-32B a obtenu un score de 79,5, légèrement inférieur à celui de DeepSeek-R1, qui est de 79,8, mais bien au-dessus de OpenAI-o1-mini (63,6) ainsi que des modèles distillés.
- LiveCodeBench : Avec un score de 63,4, QwQ-32B s’est approché de DeepSeek-R1, qui a atteint 65,9, tout en surpassant les modèles distillés et OpenAI-o1-mini (53,8).
- LiveBench : QwQ-32B a reçu une note de 73,1, en se distinguant de DeepSeek-R1 (71,6) et en prenant une avance sur les modèles distillés et OpenAI-o1-mini (57,5).
- IFEval : Le modèle a atteint un score de 83,9, très proche de celui de DeepSeek-R1 (83,3), devançant les modèles distillés ainsi que OpenAI-o1-mini (59,1).
- BFCL : Avec un score de 66,4, QwQ-32B a surpassé DeepSeek-R1 (62,8) et les autres modèles, qui ont obtenu des scores plus bas.
Processus d’apprentissage par renforcement en plusieurs étapes
L’approche adoptée par l’équipe Qwen a impliqué un point de départ à froid et un processus de RL en plusieurs étapes, axé sur des récompenses basées sur les résultats. La première étape a été consacrée à l’optimisation du RL pour des tâches mathématiques et de programmation, en s’appuyant sur des vérificateurs de précision et des serveurs d’exécution de code. La phase suivante a élargi le champ d’application aux capacités générales, en intégrant des récompenses issues de modèles de récompense généralistes et de vérificateurs basés sur des règles.
Pérenniser l’amélioration des capacités générales
Les résultats expérimentaux révèlent qu’un nombre restreint de pas dans la formation par renforcement peut stimuler les performances dans d’autres domaines, tels que le suivi d’instructions, l’alignement avec les préférences humaines et la performance d’agents, sans impact significatif sur les performances en mathématiques et en programmation. Cela ouvre la voie à une meilleure intégration des capacités d’agent avec le RL.
Accessibilité et avenir du modèle QwQ-32B
Le modèle QwQ-32B est disponible en open-source sur Hugging Face et ModelScope, sous la licence Apache 2.0. Il peut également être utilisé via Qwen Chat. L’équipe Qwen considère cela comme un premier pas vers l’amélioration des capacités de raisonnement par le biais du RL et prévoit de continuer à explorer l’intégration d’agents avec le RL pour des raisonnements sur le long terme.
Vers une intelligence artificielle générale
Alors que l’équipe continue de développer la prochaine génération de Qwen, elle exprime sa confiance dans le fait que la combinaison de modèles de base plus puissants avec un RL optimisé, soutenu par des ressources informatiques accrues, les rapprochera de l’atteinte de l’intelligence artificielle générale (AGI).
À propos des événements sur l’IA et les données massives
Pour ceux qui s’intéressent au monde de l’IA et aux développements dans le domaine des grandes données, plusieurs événements se tiendront à Amsterdam, en Californie et à Londres, abordant des thèmes pertinents et rassemblant des leaders de l’industrie.