Technologie
Intelligence artificielle: Que vaut Grok-3, le dernier modèle annoncé par Elon Musk?
20/02/2025 - 13:39
Mohammed Fizazi
Elon Musk a une nouvelle fois fait parler de lui avec le lancement de Grok-3, le dernier modèle d’intelligence artificielle développé par sa société xAI. Présenté comme un concurrent sérieux aux géants de l’IA comme OpenAI, Gemini et DeepSeek, que vaut ce nouveau modèle?
Lors de sa présentation, xAI a mis en avant les performances de Grok-3 sur des benchmarks prestigieux, notamment en devenant le premier modèle de langage à dépasser les 1400 points ELO sur l’Arena LLM, un classement basé sur les préférences des utilisateurs. Elon Musk, connu pour ses ambitions démesurées, n’a pas hésité à affirmer que Grok-3 est désormais le meilleur modèle de langage disponible. Mais est-ce vraiment le cas ?
Pour le vérifier, Grok-3 a été soumis, par le blog spécialisé "Emerge", à une série de tests comparatifs face à ses principaux concurrents : ChatGPT, Gemini, DeepSeek et Claude. Les domaines testés incluent l’écriture créative, le codage, la synthèse de documents, le raisonnement mathématique, la logique, les sujets sensibles, la génération d’images et la recherche approfondie. Les résultats sont impressionnants, mais pas sans nuances.
Dans le domaine de l’écriture créative, Grok-3 a brillé en surpassant Claude 3.5 Sonnet, jusqu’alors considéré comme la référence. Lors d’un test consistant à écrire une histoire complexe sur un voyageur temporel pris dans un paradoxe, Grok-3 a démontré une meilleure construction des personnages et une progression narrative plus fluide. Cependant, certains points de l’intrigue ont semblé forcés, révélant que le modèle n’est pas encore parfait.
Grok-3 a également été testé sur sa capacité à résumer des documents longs, comme un rapport du FMI de 47 pages. Bien qu’il ne puisse pas lire directement des documents (une lacune surprenante), il a réussi à fournir un résumé précis sans halluciner, contrairement à Claude. Comparé à GPT-4, Grok-3 offre un style plus convivial, tandis que GPT-4 reste plus analytique. Le choix entre les deux dépendra donc des préférences de l’utilisateur.
Grok-3 se distingue par son approche moins restrictive sur les sujets sensibles. Contrairement à ses concurrents, il n’évite pas les discussions sur des thèmes comme la race ou le sexe, tout en essayant de rester mesuré. Par exemple, il peut engager une conversation sur un biais raciste tout en pointant du doigt le problème sous-jacent. Cette approche plus ouverte pourrait séduire ceux qui trouvent les autres modèles trop prudents.
Contrairement aux craintes que Grok-3 ne reflète les opinions politiques d’Elon Musk, le modèle a démontré une neutralité sur des sujets controversés comme le conflit israélo-palestinien ou la question de Taïwan. Il présente les différents points de vue sans prendre parti, une approche qui contraste avec les biais détectés chez ChatGPT ou Gemini.
En matière de codage, Grok-3 a impressionné par sa capacité à produire du code fonctionnel et bien structuré. Lors d’un test consistant à créer un jeu de réaction en HTML5, Grok-3 a surpassé ses concurrents en proposant une interface propre et sans bugs, avec des éléments de design réactifs qui améliorent l’expérience utilisateur.
Malgré ses prouesses, Grok-3 a échoué à résoudre un problème complexe de mathématiques issu du benchmark FrontierMath, là où DeepSeek et OpenAI ont réussi. Cela montre que Grok-3, bien que performant, n’est pas encore imbattable dans tous les domaines.
Grok-3 utilise Aurora, son propre générateur d’images. Bien que compétent, il ne rivalise pas encore avec les leaders du marché comme MidJourney ou Stable Diffusion. Cependant, il est moins censuré que Dall-e 3, ce qui pourrait plaire à certains utilisateurs.
Le nouveau modèle propose un agent de recherche rapide et efficace, mais les rapports générés sont moins détaillés que ceux de Gemini ou OpenAI. Cependant, il offre une neutralité politique appréciable et une vitesse supérieure, ce qui en fait un outil pratique pour des recherches rapides.
Ainsi, Grok-3 marque une avancée significative pour xAI, mais il ne convaincra pas tout le monde. Il excelle en codage et en écriture créative, et son approche ouverte sur les sujets sensibles est un atout. Cependant, pour ceux qui recherchent un modèle plus personnalisé ou spécialisé dans des domaines comme les mathématiques, ChatGPT ou DeepSeek restent des options solides, d'après le verdict des testeurs.
Articles en relations
Technologie
Technologie
Technologie
Technologie