Según un informe de Proof News, Apple utilizó datos de YouTube para entrenar su IA, lo que plantea un desafío a los términos del servicio de la plataforma. Las reglas de YouTube no permiten la extracción de fragmentos de vídeo ni transcripciones.
Subtítulos de YouTube para entrenar modelos de IA
Proof News indica que EleutherAI, una organización sin fines de lucro, recopiló subtítulos de 173.536 vídeos de YouTube de más de 48.000 canales. Estos datos, que no incluían imágenes de vídeo sino texto en diferentes idiomas, se utilizaron para crear un conjunto de datos titulado «YouTube Subtitles». Este conjunto incluye material de creadores como MrBeast y Marques Brownlee, así como contenido educativo de Khan Academy, MIT y Harvard. «YouTube Subtitles» es parte de «Pile», un set de entrenamiento que incluye otros 21 conjuntos de datos, como material del Parlamento Europeo y Wikipedia en inglés.
Uso de «Pile» por empresas tecnológicas
El conjunto de datos «Pile» está disponible públicamente, lo que ha permitido a muchos académicos y empresas, incluidas Apple, Anthropic, Nvidia y Salesforce, utilizarlo para entrenar sus modelos de IA. Estas empresas no obtuvieron los datos directamente de YouTube, sino que utilizaron el trabajo realizado por EleutherAI.
Los términos de servicio de YouTube
El CEO de YouTube, Neal Mohan, aclaró que aunque ciertos datos de YouTube pueden ser raspados para aparecer en motores de búsqueda, la descarga de vídeos o transcripciones infringe los términos de servicio de la plataforma. Las transcripciones, que son la base de los subtítulos, contienen el texto de los vídeos, por lo que su descarga está prohibida.
La cuestión de la responsabilidad
Aunque Apple, Anthropic, Nvidia y Salesforce utilizaron subtítulos de YouTube, no fueron ellas quienes recopilaron los datos directamente, sino EleutherAI. Esto plantea la pregunta de quién es responsable de la infracción. Si se determina que hay una violación de los términos de servicio, ¿la responsabilidad recae en EleutherAI por recopilar los datos o en las empresas tecnológicas por utilizarlos?
Reflexión
El uso de datos de YouTube para entrenar IA sin cumplir con los términos de servicio de la plataforma es un tema complejo que necesita aclararse. Las empresas tecnológicas deben ser transparentes sobre sus fuentes de datos y asegurar que están cumpliendo con todas las normativas y acuerdos vigentes.