Leïla Marchand
Capable de générer du texte, des images, du son et de la vidéo, ce nouveau modèle doit permettre d'améliorer le chatbot Bard.
La liste des alternatives à OpenAI vient encore de s'allonger. Mais pas avec n'importe quel challenger. Le géant Google a présenté mercredi Gemini, son nouveau modèle d'IA. « C'est notre modèle d'IA le plus conséquent, le plus doué et aussi le plus général », a assuré Eli Collins, vice-président de Google DeepMind, le laboratoire de recherche en IA du groupe californien, lors d'une présentation à la presse.
La firme de Mountain View tente de rattraper son retard face au créateur de ChatGPT, qui connaît un succès mondial et s'est rendu quasiment incontournable dans les entreprises grâce au soutien de son grand partenaire, Microsoft, qui a intégré sa technologie dans toute sa gamme de produit, de Windows à Teams en passant par la suite Office et ses services cloud.
Pris de court face au « phénomène ChatGPT » lancé il y a un an, Google avait présenté en juillet son propre chatbot, baptisé « Bard », mais resté méconnu face à son rival. Son nouveau modèle Gemini n'est pas destiné à remplacer Bard, mais au contraire à l'améliorer. Car il s'agit d'un nouveau modèle de fondation. Jusqu'ici, Bard était sous-tendu par l'architecture LaMDA, un modèle open source développé par Meta.
Réorganisation d'ampleur
« Pour s'assurer de rebondir, Google y a mis les moyens, a mis en oeuvre une réorganisation d'ampleur de sa R&D, en fusionnant DeepMind et Google Brain, et a fortement réorienté l'ensemble des efforts de ses chercheurs sur les modèles d'IA génératives - ce qui est inédit car les chercheurs de DeepMind à Paris avaient historiquement une forte liberté de choix de leurs sujets », note Aimé Lachapelle, managing partner au sein du cabinet de conseil Emerton Data.
Ainsi, dans une présentation à la presse, Gemini a fait la démonstration de ses capacités de raisonnement sophistiquées. Dans une vidéo, on voit un utilisateur lui montrer des objets, des dessins et des vidéos. Le système d'IA commente à l'oral ce qu'il « voit », identifie les objets, joue de la musique et répond à des questions requérant un certain degré d'analyse, en se justifiant.
Par exemple, face à l'image d'un canard en plastique, Gemini est capable d'en déduire la matière et donc qu'il flotterait si on le mettait dans l'eau. Avec très peu de contexte, le modèle d'IA peut également reconnaître des références, comme lorsqu'on lui montre une vidéo d'une personne semblant éviter des balles au ralenti et qu'il déduit qu'il s'agit d'une référence au film « Matrix ».
Pour prouver ces capacités de raisonnement, Gemini a passé des tests et aurait ainsi surpassé des experts humains à un test standard dans l'industrie, le « MMLU ». Ce test sert à évaluer les capacités de ces programmes informatiques à raisonner dans différents domaines, des mathématiques à l'histoire et au droit.
Mais son autre atout clé est d'être « nativement multimodal », donc à même d'analyser et générer du texte, du code, de l'audio et de la vidéo. « Pouvoir dialoguer via des robots conversationnels avec tous types de documents est une nécessité. Aujourd'hui nous travaillons avec une bonne partie des groupes du CAC 40, et une grande partie des cas d'usage d'IA générative qu'ils nous remontent impliquent des données de natures différentes : textes, vidéos, images, données tabulaires, graphiques, voix… » note Aimé Lachapelle.
Intégré aux téléphones Pixel
« Gemini dépasse les performances de GPT-4 dans ce domaine, en attendant GPT-5 annoncé pour 2024 », abonde Frédéric Brajon, directeur général du cabinet de conseil Saegus. Mais selon lui, la réelle nouveauté est la version « nano » de Gemini, qui « peut être exécutée en local, sans accès Internet ni appel à des serveurs de donnée sur le cloud ».
Dès cette semaine, Gemini doit venir alimenter Bard, d'abord seulement en anglais, puis « dans les prochains mois » dans de nouvelles zones géographiques, précise le communiqué. Mais ce n'est pas tout : Gemini sera également intégré aux derniers téléphones Pixel de Google. A partir de l'année prochaine, le Pixel 8 Pro sera ainsi doté de nouvelles fonctions, comme celle de « résumer » un contenu dans l'application « Enregistreur » ou la génération de réponses automatiques dans les applications de messagerie.
Dans les prochains mois, le recours à Gemini devrait être étendu dans d'autres services clé de Google tels que son moteur de recherche, son navigateur Chrome et son service de publicité Google Ads. Mais la firme dirigée par Sundar Pichai ne compte pas laisser son grand ennemi Microsoft et la start-up OpenAI s'approprier le reste du marché de l'IA générative. Alors que plus de 2 millions de développeurs utilisent déjà les API d'OpenAI - d'après les déclarations du dirigeant, Sam Altman -, Google annonce également qu'à compter du 13 décembre, les développeurs et les entreprises pourront accéder à Gemini Pro par le biais de l'API Gemini et ainsi s'en saisir pour développer leurs propres services.
Comments