High Tech

Apple et autres géants critiqués pour l’utilisation non consentie de données YouTube

L’utilisation de vidéos YouTube pour entraîner l’intelligence artificielle a récemment mis Apple et d’autres grandes entreprises sous les feux des critiques. Un rapport récent de Proof News révèle qu’Apple a utilisé un ensemble de données comprenant les sous-titres de plus de 173 000 vidéos YouTube sans obtenir le consentement préalable des créateurs. Cette pratique n’est pas unique à Apple, car d’autres poids lourds de l’IA comme Anthropic, Nvidia et Salesforce ont également été accusés de recourir à ces données, malgré les règles strictes de YouTube contre leur exploitation non autorisée.

Le jeu de données en question, connu sous le nom de « YouTube Subtitles », couvre une vaste gamme de contenus provenant de plus de 48 000 chaînes YouTube. Il inclut des vidéos éducatives de grandes institutions comme Khan Academy, MIT et Harvard, ainsi que des reportages de médias renommés tels que The Wall Street Journal, NPR et la BBC. Même les transcriptions de talk-shows populaires comme « The Late Show With Stephen Colbert » et « Last Week Tonight with John Oliver » ont été incluses, sans permission préalable des producteurs de ces contenus.

EleutherAI, la startup responsable de la compilation du jeu de données, assure que celui-ci ne contient pas de fichiers vidéo, mais seulement des transcriptions, parfois traduites dans plusieurs langues. Les données ont été collectées à partir d’un ensemble plus large appelé Pile, qui agrège des informations non seulement de YouTube, mais aussi des archives du Parlement européen et de Wikipedia. Cette méthode d’extraction de données soulève des questions sur la transparence et l’éthique dans le domaine de l’IA.

L’utilisation de ces données par des entreprises comme Bloomberg, Anthropic et Databricks pour former leurs modèles IA a également suscité des débats juridiques et éthiques. Des poursuites sont en cours contre plusieurs de ces entreprises, accusées d’avoir violé les droits d’auteur en utilisant des œuvres protégées sans consentement. Cette controverse met en lumière les défis persistants auxquels est confrontée l’industrie de l’IA en matière de respect des droits d’auteur et de gestion des données sensibles issues du web ouvert.

En réponse aux critiques, les défenseurs de l’IA comme Microsoft AI ont invoqué un « contrat social » tacite, affirmant que le contenu disponible publiquement sur le web peut être utilisé librement. Cette position soulève des questions sur les limites de l’accès et de l’utilisation des données numériques, ainsi que sur les obligations éthiques des entreprises technologiques vis-à-vis des créateurs de contenu.

Cette affaire révèle les tensions croissantes entre l’innovation technologique et la protection des droits d’auteur dans un monde numérique en évolution rapide. Alors que l’IA promet des avancées significatives dans de nombreux domaines, elle doit également naviguer avec prudence dans le respect des normes éthiques et légales pour assurer un développement durable et équitable.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *