Hortense Goulard Correspondante à San Francisco
Un nouveau modèle d'IA, élaboré par FAIR, un laboratoire qui appartient à Meta, peut traduire instantanément des paroles.
Imaginez qu'il soit possible de partir en vacances dans un endroit dont vous ne parlez pas la langue, et de comprendre tout ce qu'on vous dit, à l'aide d'un casque de réalité virtuelle ou de lunettes connectées. Cet avenir se rapproche à grands pas.
En août dernier, FAIR, un groupe de recherche en intelligence artificielle financé par Meta, a publié un nouveau modèle de langage, baptisé « SeamlessM4T ». Le nom vient de « Massively Multilingual and Multimodal Machine Translation » - soit une machine qui permet de faire des traductions d'une multitude de langues, de façon multimodale.
Cette machine permet de comprendre près de 100 langues de l'oral vers l'écrit, ou encore d'un texte à un autre. En revanche, pour ce qui est de transformer du langage parlé, ou de transformer un texte écrit en discours parlé, le modèle fonctionne à partir de 100 langues, mais vers 35 langues seulement. « Nous avons misé sur une approche tout-en-un », souligne Juan Pino, l'un des chercheurs derrière cette invention. « C'est un modèle qui peut effectuer de nombreuses tâches, un peu comme un Couteau Suisse. » Par ailleurs, il est disponible en open source, ce qui permet à des start-up de s'en servir pour bâtir leurs propres outils.
Des sous-titres flottants
Lors d'un événement à San Francisco fin novembre, l'équipe derrière cette avancée en a fait la démonstration. Des journalistes ont été invités à se coiffer d'un casque de réalité virtuelle et augmentée, de la marque Quest, qui appartient à Meta - la maison mère de Facebook. Les chercheurs ont ensuite, à tour de rôle, parlé en espagnol, en français et en mandarin.
Le casque de réalité augmentée traduit au fur et à mesure vers l'anglais. Les journalistes entendent donc la version anglophone de tous ces discours dans leurs oreillettes, tandis que des sous-titres s'affichent aussi en anglais sur l'écran. Ce qui donne l'impression que les traductions flottent devant les chercheurs.
Traduction rapide
Le résultat est bluffant. Le modèle est aussi rapide que la traduction simultanée dans les institutions internationales, comme à l'ONU ou au Parlement européen. Bien qu'il n'ait pas été entraîné spécifiquement sur ces discours, assurent les chercheurs, il ne fait que très peu d'erreurs.
Plus étonnant encore, il est possible de reproduire le timbre de la voix de la personne qui parle, pour que le rendu soit plus naturel. Pour l'instant, le casque est un peu encombrant - on est content de l'enlever, même après une démonstration de vingt minutes seulement. Mais si ce modèle est un jour disponible sur lunettes connectées, son utilisation pourrait devenir beaucoup plus courante.
Il s'agit pour l'instant d'un projet de recherche, et non d'un produit fini. Et cela ne permet pas de traduire la parole de la personne qui porte le casque. Cela signifie donc qu'il faut que les deux interlocuteurs soient munis de cet appareil pour pouvoir avoir une vraie conversation. Cependant, le modèle déjà est capable de reconnaître la langue, même si la personne qui parle mélange différentes langues. Il arrive à traduire au fur et à mesure, sans attendre la fin de la phrase, ce qui présente de multiples défis, selon les chercheurs de FAIR. « Cela signifie que le modèle doit opérer avec des informations limitées », explique Juan Pino. « Un autre défi est que les langues présentent des ordres de mots différents. » Comme en allemand, où le verbe est souvent à la fin. Ou en coréen, où l'ordre des mots est parfois à l'opposé complet d'une phrase anglaise.
Comentarios