Actualités

Bibliothèque open-source NVIDIA Dynamo : Accélère et met à l’échelle les modèles de raisonnement en IA.

Bibliothèque open-source NVIDIA Dynamo : Accélère et met à l'échelle les modèles de raisonnement en IA.
Simon Robben
Écrit par Simon Robben

2025-03-18 18:18:00

NVIDIA, lors du GTC, a annoncé le lancement de Dynamo, une nouvelle bibliothèque d’inférence open source dédiée à l’accélération et à l’optimisation des modèles de raisonnement en intelligence artificielle. Ce logiciel veille à ce que les opérations réalisées dans les usines d’IA soient non seulement efficaces mais également économiques.

Dans le contexte actuel des technologies IA, orchestrer et coordonner les demandes d’inférence sur un vaste parc de GPU est une nécessité afin de garantir une rentabilité maximale et une réduction des coûts d’exploitation. Chaque modèle d’IA génère une multitude de “tokens” pour traiter les instructions, et optimiser les performances d’inférence tout en abaissant les frais encourus constitue un enjeu crucial qui peut stimuler la croissance et les opportunités de revenus pour les fournisseurs de services.

Dynamo remplace l’ancien serveur d’inférence Nvidia Triton, et est conçu spécifiquement pour maximiser la génération de revenus par token. Il permet de gérer et d’accélérer les communications d’inférence à travers de milliers de GPU, tout en mettant en œuvre un service désagrégé. Cette approche sépare les phases de traitement et de génération des modèles de langage, permettant une optimisation spécifique à chaque phase et garantissant une exploitation optimale des ressources GPU.

« Les industries adoptent des modèles d’IA qui évoluent et se perfectionnent en permanence », a déclaré Jensen Huang, fondateur et PDG de NVIDIA. « Pour faciliter l’avenir des modèles de raisonnement personnalisés, NVIDIA Dynamo est conçu pour servir ces modèles à grande échelle, générant ainsi des économies et des gains d’efficacité dans les usines d’IA. »

A lire aussi :  Le partenaire de l'initiative Pioneer AI Foundry, Cykel AI, lance Samson, un agent d'IA et analyste numérique révolutionnant le processus d'acquisition de talents.

Dynamo se distingue par sa capacité à doubler la performance et les revenus des usines d’IA qui utilisent des modèles tels que les Llama sur la plateforme NVIDIA Hopper. L’optimisation intelligente des inférences permet au dynamique système de générer plus de trente fois le nombre de tokens par GPU, notamment lors de l’exécution du modèle DeepSeek-R1 sur des clusters importants.

De plus, Dynamo introduit des fonctionnalités avancées qui augmentent le débit et diminuent les coûts. Il offre la possibilité d’ajuster dynamiquement le nombre de GPU en fonction des variations de volume et de nature des requêtes. En identifiant les GPU spécifiques dans des clusters volumineux, il optimise la computation des réponses. L’architecture permet également de réduire les coûts d’inférence en déchargeant les données vers des dispositifs mémoire et de stockage moins coûteux.

La plateforme est ouverte et totalement adaptable, prenant en charge PyTorch, SGLang, NVIDIA TensorRT-LLM, et vLLM. Cela permet aux entreprises, aux startups et aux chercheurs de développer et d’optimiser des solutions d’inférence dissociées. De plus, des acteurs stratégiques comme AWS, Google Cloud et Microsoft Azure pourront intégrer Dynamo pour améliorer l’adoption de l’inférence IA.

Ressources D’inférence Améliorées
NVIDIA Dynamo exploite efficacement la mémoire des systèmes d’inférence qui conserve les données des requêtes antérieures, appelées KV cache, sur des milliers de GPU. Le système redirige de nouvelles requêtes vers les GPU les plus appropriés, évitant ainsi des recomputations coûteuses et libérant les ressources pour répondre à de nouvelles demandes.

A lire aussi :  OpenAI ajoute de nouvelles capacités de génération d'images à GPT-4o | PYMNTS.com

« Pour gérer des centaines de millions de requêtes mensuelles, nous nous appuyons sur les GPU et le logiciel d’inférence de NVIDIA pour obtenir la performance et la fiabilité qui répondent aux exigences de notre activité », a fait savoir Denis Yarats, CTO de Perplexity AI, tout en se tournant vers l’avenir avec Dynamo, qui promet des gains d’efficacité.

Capacités d’IA Agentique
L’entreprise Cohere envisage d’utiliser NVIDIA Dynamo pour doter sa gamme de modèles Command de capacités d’IA agentique. Saurabh Baji, VP senior d’ingénierie chez Cohere, a déclaré que « l’évolutivité des modèles d’IA avancés nécessite des systèmes sophistiqués de planification multi-GPU et une communication à faible latence ». Il est donc prévu que Dynamo améliore l’expérience client.

Servir de Manière Désagrégée
La plateforme d’inférence NVIDIA Dynamo facilite également le service désagrégé, qui répartit les différentes phases computationnelles des LLM sur plusieurs GPU. Cette méthode s’avère particulièrement bénéfique pour des modèles complexes tels que la nouvelle famille de modèles NVIDIA Llama Nemotron, exploitant des techniques d’inférence avancées pour améliorer la compréhension contextuelle et la génération de réponses. Grâce à cette architecture, chaque phase d’un modèle peut être ajustée de manière indépendante, accroissant le débit et accélérant les réponses.

Together AI, acteur clé dans le domaine du cloud d’accélération de l’IA, rêve d’intégrer son Together Inference Engine avec NVIDIA Dynamo pour optimiser les charges de travail d’inférence à travers différents nœuds GPU. Ce processus permettra de répondre efficacement aux goulets d’étranglement qui pourraient survenir au sein du pipeline de modèle.

A lire aussi :  À l'intérieur du pari ambitieux de Goldman Sachs sur l'IA à grande échelle | PYMNTS.com

« Pour augmenter de manière économique le fonctionnement des modèles de raisonnement, il est nécessaire d’appliquer des techniques d’inférence avancées comme le service désagrégé », a indiqué Ce Zhang, CTO de Together AI. La modulaire et ouverte architecture de Dynamo permettra de s’intégrer sans heurts au moteur d’inférence de Together AI.

NVIDIA Dynamo en Détail
La bibliothèque NVIDIA Dynamo se compose de quatre innovations majeures qui contribuent à réduire les coûts liés à l’inférence et à améliorer l’expérience utilisateur :

  • **Planificateur de GPU** : Moteur de planification capable de modifier dynamiquement le nombre de GPU selon la demande.
  • **Routeur Intelligent** : Un routeur conscient des LLM qui dirige les requêtes pour éviter les recomputations inutiles.
  • **Bibliothèque de Communication à Faible Latence** : Outil optimisé pour améliorer la communication entre GPU, simplifiant l’échange de données.
  • **Gestionnaire de Mémoire** : Moteur intelligent qui gère efficacement le transfert de données entre différentes mémoires, garantissant une expérience utilisateur fluide.

Dynamo sera bientôt intégré dans les microservices NVIDIA NIM et sera pris en charge dans une future mise à jour de la plateforme de logiciels d’entreprise d’IA de NVIDIA, assurant ainsi sécurité, support et stabilité pour les utilisateurs.

Pour en savoir plus, consultez la keynote du GTC de NVIDIA ou explorez leur blog dédié à Dynamo. Les exposants et les leaders de l’industrie continuent d’analyser les opportunités qu’offre cette technologie jusqu’au 21 mars.

A propos de l'auteur

Simon Robben

Simon Robben

Simon Robben est un expert reconnu en intelligence artificielle et en transformation numérique. Auteur principal du site Actualité I.A, il partage son expertise à travers des articles clairs et accessibles, dédiés à l'actualité de l'intelligence artificielle. Avec plusieurs années d'expérience dans le domaine, Simon suit de près les dernières avancées technologiques et leurs impacts sur les entreprises et la société.