-

Comment entraîner des modèles d’IA sans utiliser de matériel sous copyright

Le monde de l’intelligence artificielle est en ébullition : une nouvelle approche éthique de l’apprentissage automatique vient de voir le jour. Les entreprises d’IA ont longtemps soutenu que leurs outils ne pouvaient exister sans s’entraîner sur des matériaux protégés par des droits d’auteur. Il s’avère qu’ils le pourraient – c’est juste vraiment difficile. Pour le prouver, des chercheurs en IA ont formé un nouveau modèle qui est moins puissant mais beaucoup plus éthique. En effet, l’ensemble de données du LLM n’utilise que du matériel du domaine public et sous licence ouverte.

Une collaboration multi-institutionnelle pour une IA éthique

Ce projet éthique, rapporté par le Washington Post, est le fruit d’une collaboration entre 14 institutions différentes. Parmi les auteurs figurent des universités de renom comme le MIT, Carnegie Mellon et l’Université de Toronto. Des organisations à but non lucratif comme le Vector Institute et l’Allen Institute for AI ont également contribué à cette initiative.

Le groupe a construit un ensemble de données éthiquement sourcées de 8 To. Parmi les données se trouvait un ensemble de 130 000 livres de la Bibliothèque du Congrès. Après avoir entré le matériel, ils ont formé un grand modèle de langage (LLM) de sept milliards de paramètres sur ces données. Le résultat ? Il a fonctionné aussi bien que le Llama 2-7B de Meta de taille similaire, datant de 2023. L’équipe n’a pas publié de benchmarks comparant ses résultats aux modèles les plus performants d’aujourd’hui.

Les défis d’une IA éthique

Obtenir des performances comparables à celles d’un modèle vieux de deux ans n’était pas le seul inconvénient. Le processus de mise en place a également été laborieux. Une grande partie des données ne pouvait pas être lue par des machines, donc les humains ont dû les examiner. “Nous utilisons des outils automatisés, mais tout notre matériel a été annoté manuellement à la fin de la journée et vérifié par des personnes“, a déclaré Stella Biderman, co-auteure de l’étude, au Washington Post. “Et c’est vraiment difficile“. Résoudre les détails juridiques a également compliqué le processus. L’équipe a dû déterminer quelle licence s’appliquait à chaque site web qu’ils ont analysé.

Alors, que faire d’un LLM moins puissant qui est beaucoup plus difficile à former ? Si rien d’autre, il peut servir de contrepoint. En 2024, OpenAI a déclaré à un comité parlementaire britannique qu’un tel modèle ne pourrait pratiquement pas exister. La société a affirmé qu’il serait “impossible de former les modèles d’IA leaders d’aujourd’hui sans utiliser de matériel protégé par des droits d’auteur“. L’année dernière, un expert d’Anthropic a ajouté : “Les LLM n’existeraient probablement pas si les entreprises d’IA étaient tenues d’acquérir les licences des œuvres dans leurs ensembles de données d’apprentissage“.

Le futur de l’IA éthique

Bien sûr, cette étude ne changera pas la trajectoire des entreprises d’IA. Après tout, faire plus de travail pour créer des outils moins puissants ne correspond pas à leurs intérêts. Mais au moins, elle remet en question l’un des arguments couramment avancés par l’industrie. Ne soyez pas surpris si vous entendez parler de cette étude à nouveau dans des affaires juridiques et des débats sur la réglementation.

En fin de compte, cette nouvelle approche de l’IA souligne l’importance d’une éthique dans le domaine de l’intelligence artificielle. Si les défis sont considérables, les enjeux le sont tout autant. La question de l’entraînement des modèles d’IA sur des matériaux protégés par des droits d’auteur est loin d’être résolue, et cette étude ouvre la voie à de nouvelles réflexions et à de nouvelles pratiques. Reste à voir si l’industrie suivra cette voie.

Stéphane
Stéphanehttps://thunderbot.fr
Stéphane, plongé dans l'écriture depuis plusieurs années, se consacre à décrypter des thèmes variés allant des technologies numériques de pointe aux répercussions environnementales des industries, en passant par les avancées scientifiques récentes. Il s'efforce de rendre l'information transparente et abordable, dans le but d'éclairer ses lecteurs sur les complexités et les merveilles du monde qui nous entoure.

Partager cet article

Publiées récemment

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici