La chasse aux données massives d’entrainement se poursuit
Si c’est gratuit, vous êtes le produit
Nous avons publié un billet de veille en avril 2024 ayant pour titre Reddit, le réseau social qui intéresse de plus en plus les universitaires : Une mine d’or pour la recherche scientifique. Il va de soi que cette mine d’or, bénéfique pour un grand modèle de langage (MLL), intéresse au plus haut point les grands développeurs privés de systèmes d’intelligence artificielle. En février 2024, Reddit avait déjà octroyé à Google un « accès privilégié » à son API afin de perfectionner ses modèles de langage, tels que Gemini, moyennant une compensation annuelle de 60 millions de dollars. Voilà qu’OpenAI annonce un partenariat à peine 3 mois plus tard. Le montant de la transaction n’a pas été dévoilé.
Reddit et OpenAI établissent un partenariat
“We are thrilled to partner with Reddit to enhance ChatGPT with uniquely timely and relevant information, and to explore the possibilities to enrich the Reddit experience with AI-powered features.”
Brad Lightcap, OpenAI COO
Reddit et OpenAI ont donc annoncé, en mai 2024, un partenariat qui semble des plus bénéfiques pour les deux parties. Un contrat assurément lucratif et inédit qui permet l’accès aux données libres de plus de 73 millions d’utilisateurs actifs chaque jour. Il s’agit de l’une des plus grandes archives ouvertes d’Internet.
En conséquence :
- OpenAI alimente et entraine ChatGPT (et autres nouveaux produits) avec du contenu Reddit.
- OpenAI accède maintenant à l’API de données de Reddit, qui représente un énorme contenu « vivant » et structuré sur des sujets récents et en temps réel.
- Le partenariat permet à Reddit d’offrir de nouvelles fonctionnalités basées sur l’IA aux « redditeurs » et aux « mods » de communautés.
- OpenAI devient un nouveau partenaire publicitaire de Reddit, qui a notamment fait son entrée à la bourse de Wall Street en mars. Le cours de l’action de Reddit, lors de sa première journée, a porté sa valorisation à 9,5 milliards de dollars. Cette nouvelle annonce a fait progresser le cours de l’action.
- Reddit, une entreprise qui ne gagnait pas d’argent au départ, monétise maintenant le contenu généré par ses utilisateurs.
“Reddit has become one of the internet’s largest open archives of authentic, relevant, and always up to date human conversations about anything and everything. Including it in ChatGPT upholds our belief in a connected internet, helps people find more of what they’re looking for, and helps new audiences find community on Reddit.”
Steve Huffman, Reddit Co-Founder and CEO
Selon le communiqué officiel : « L’accès à l’API reste gratuit pour un usage non commercial dans le cadre de notre seuil publié. Ce partenariat est cohérent avec d’autres accords sur le contenu et ne modifie pas les conditions de l’API de données de Reddit ou les conditions des développeurs, qui stipulent que le contenu accessible via l’API de données de Reddit ne peut pas être utilisé à des fins commerciales sans l’approbation de Reddit. »
Jusqu’ici, les « communautés » d’intérêt, appelées subreddits, n’étaient pas régies par un algorithme, mais par un système de vote d’approbation pour évaluer les sujets traités. Reddit offre désormais aux « redditeurs » et aux « mods » de nouvelles fonctionnalités basées sur l’IA. Reste à voir si les modérateurs de communautés apprécieront.
Rien n’empêche que ce trésor de données librement accessibles et gratuites, tout comme celui de Wikipédia, profite beaucoup aux grands développeurs de l’IA. La précision des systèmes d’IA en sera-t-elle améliorée ? Il demeure que nous devons rester critiques et toujours évaluer la pertinence et la justesse des résultats… pour le meilleur et le pire.