Fl. D. et C. Pe.
Arthur Mensch, cofondateur de Mistral AI, explique sa position dans le débat brûlant sur la régulation du secteur, quelques jours après un premier compromis sur le sujet à Bruxelles.
Pour beaucoup, l'intelligence artificielle est porteuse de risques. Qu'en pensez-vous ?
Avec Timothée Lacroix et Guillaume Lample, nous avons créé Mistral AI parce que deux choses nous tenaient à coeur : faire émerger un champion européen et promouvoir une approche ouverte de la technologie. Il nous semblait impératif que des outils aussi structurants que les modèles de langage pour nos économies et nos démocraties ne soient pas contrôlés uniquement par un très petit nombre d'entreprises - par ailleurs toutes américaines ou chinoises.
La particularité des modèles ouverts de Mistral, c'est qu'ils sont à l'état de l'art, mais surtout que leur fonctionnement est transparent - à la différence de la plupart de nos concurrents. Cela veut dire que les utilisateurs ou les institutions qui les utilisent peuvent les évaluer, les contrôler et surtout les modifier comme ils l'entendent. Chaque développeur peut librement façonner nos modèles en fonction de ses cas d'usage, qu'il s'agisse de concevoir un chatbot fortement modéré destiné aux enfants ou de générer des contenus adaptés aux spécificités culturelles de chaque pays - ou à l'environnement de chaque entreprise.
Vous avez exprimé vos craintes que la régulation européenne freine les ambitions des start-up du secteur. Que pensez-vous du compromis trouvé à Bruxelles ?
Nous n'avons pas encore eu accès au texte définitif, et je comprends qu'il reste des questions très importantes à préciser au niveau technique. Quoi qu'il en soit, la seule chose que nous demandons depuis le début de cette discussion, c'est que les entreprises européennes puissent se battre à armes égales avec leurs concurrents américains. Le monde entier s'accorde à dire que l'IA générative est l'une des technologies les plus structurantes pour la compétitivité, la croissance et la création d'emploi des années à venir. Grâce à la qualité de sa recherche et au renouveau de son secteur technologique depuis quelques années, l'Europe peut être à la pointe de cette révolution. Elle doit oser s'en donner les moyens.
Comme vos concurrents, vous plaidez pour que la régulation s'applique sur les produits de vos clients plutôt que sur les vôtres. Dans d'autres secteurs comme l'aéronautique, le fabricant du moteur est autant surveillé que le fabricant de l'avion. Quelle est la différence ?
L'analogie a ses limites car les modèles d'intelligence artificielle ont un champ d'application extrêmement large. Leur risque dépend largement de leur cas d'usage : il n'y a pas de raison d'imposer les mêmes exigences à un logiciel d'aide au diagnostic médical qu'à un générateur d'image de chats. C'est pourquoi nous pensons que la régulation ne devrait pas s'appliquer à la technologie sous-jacente, mais à ses applications, avec des contraintes adaptées à leur destination.
Compte tenu de la très forte intensité compétitive entre fournisseurs de modèle, mettre une régulation forte sur les produits permettrait d'instaurer une compétition entre les modèles d'IA, sur leur qualité et leur contrôlabilité, ainsi que sur les outils d'évaluation qui les accompagnent. Laissons faire le marché ! A l'inverse, contraindre fortement les modèles eux-mêmes aura tendance à avantager les grands acteurs, capables d'encaisser des charges de conformité beaucoup plus fortes que nous le pouvons. Tenir à jour des milliers de pages de documentation, c'est plus simple pour les milliers d'employés des départements juridiques des Big Tech que pour les 22 employés de Mistral…
Comment garantir à vos clients qu'ils sauront évaluer la sûreté de ces modèles complexes ?
Dans le numérique, c'est un fait acquis que la transparence du code est la meilleure garantie de sécurité, car il permet aux développeurs du monde entier de le tester, d'en découvrir les failles et de les signaler - donc au développeur du modèle de les corriger dans les itérations suivantes. Il en va de même de la transparence sur les paramètres des modèles, c'est-à-dire sur la fonction mathématique statistique qui détermine ce que va générer l'IA à partir d'une requête. Connaître ces paramètres, c'est finalement tout savoir du modèle, qui peut être examiné sous toutes les coutures. L'open source est un très grand allié du régulateur.
Vous parlez de transparence mais Mistral AI n'entend pas révéler sur quelles données ses modèles sont entraînés. Pourquoi ?
Le but des modèles de langage n'est pas de mémoriser ni de plagier du contenu, mais de construire une représentation du monde. Pour cela, la « recette » consiste en une sélection méticuleuse des pages Web qui nous intéressent : 95 % du savoir-faire technologique de Mistral, c'est la composition de sa base de données. C'est ce qui fait notre différence dans la compétition mondiale qui se joue. Nous ne gardons ainsi que près de 1 % de l'ensemble du Web ouvert, c'est-à-dire publiquement disponible. Nous comprenons la problématique des ayants droit et nous n'avons aucun problème à certifier que nous appliquons la législation européenne relative au droit d'auteur. Mais accéder à une transparence complète des données d'entraînement, notamment des URL, reviendrait à signer la mort de l'entreprise.
La réglementation actuelle sur le droit d'auteur vous convient-elle ?
Elle me semble adaptée. L'« opt-out » permet aux ayants droit d'exclure leur contenu des bases de données que nous utilisons. Nous avons par ailleurs ouvert des discussions avec un certain nombre d'éditeurs pour signer des partenariats commerciaux : ils détiennent énormément de données non disponibles sur le Web qui nous permettraient d'améliorer grandement nos modèles.
Comments