Los chatbots que nos maravillan son voraces consumidores de datos. Los creadores de estos modelos de IA lo saben y han usado todo tipo de recursos para entrenarlos, pero se están quedando sin recursos. Lo sabe muy bien OpenAI, que según una investigación de The New York Times tuvo que recurrir a un método de lo más llamativo para seguir entrenando su LLM GPT-4.
Nos hemos quedado sin datos. A finales de 2021, revela el diario, los investigadores de OpenAI agotaron todas las reservas de textos en inglés de confianza que había en internet. Necesitaban más datos para seguir entrenándola y afinándola. Muchísimos más. ¿Cómo conseguirlos?
Un millón de horas de vídeos de YouTube. A estos ingenieros se les ocurrió crear Whisper, un modelo de IA capaz de transcribir el audio de vídeos de YouTube, lo que permitía obtener muchísimos textos para entrenar a su sistema de IA. Acabaron usando la herramienta para transcribir un millón de horas de audio de vídeos de YouTube, y con ellas alimentaron su voraz modelo de IA para seguir puliéndolo.
¿Y los derechos? La polémica está como siempre en si eso viola los derechos de YouTube como plataforma y los de los creadores de contenido que la usan. Según el Times, en OpenAI sabían que el método era cuestionable legalmente. Una portavoz de la empresa indicó a The Verge que la empresa filtra conjuntos de datos "únicos" para sus modelos para "ayudar a la forma en la que entienden el mundo" y para "mantener su competitividad de investigación a nivel global" sin mencionar específicamente esos vídeos de YouTube.
Google también lo hace. Los propios responsables de Google que trabajan en modelos de IA como Gemini también han hecho algo similar. Según cinco fuentes consultadas en el Times, la compañía transcribió vídeos de YouTube para recolectar textos con los que alimentar el entrenamiento de sus modelos. Eso "potencialmente violó el copyright de los vídeos, que pertenece a sus creadores".
Meta planteó otra potencial solución. La empresa de Mark Zuckerberg, que desarrolla Llama 2, también se ha encontrado con la misma situación, y según el diario para lograr datos de alta calidad —como libros escritos por profesionales— sus directivos se plantearon comprar la editorial Simon & Schuster para hacerse con ese tipo de textos. También "debatieron sobre la recopilación de datos protegidos por derechos de autor en internet, aunque ello supusiera enfrentarse a demandas judiciales", explican en The Times. Negociar licencias con todos esos creadores, destacaron las fuentes consultadas, "llevaría demasiado tiempo".
Licencias, la otra opción. Efectivamente esa última opción lleva tiempo, pero vistas las demandas que se han producido en los últimos meses en este ámbito, algunas empresas se han dado cuenta de que pagar por poder usar esas fuentes de datos sin implicaciones legales es lo más interesante. Google pagó una pequeña fortuna recientemente a Reddit para usar sus contenidos, y en OpenAI también están llegando a acuerdos con algunos medios.
Entrenar con datos sintéticos, opción de futuro. Según The Wall Street Journal, estas compañías están valorando una nueva forma de entrenar sus modelos: hacerlo con datos sintéticos. Esto es, datos creados por sus propios modelos, pero hacerlo de una forma controlada con datos de alta calidad con la esperanza de poder pulir el funcionamiento de sus sistemas de IA. La validez de esta retroalimentación está por demostrarse, pero está claro que las empresas están buscando soluciones para no quedarse sin datos de entrenamiento.
Imagen | NorWood Themes
En Xataka | Internet tal y como la conocíamos está muriendo: la IA generativa se la está cargando
Ver 7 comentarios
7 comentarios
t_r_a
ahora, los humanos, tendriamos que llenar la red de mierda para demostrar como esas falsas IA's son incapaces de discernir lo que es real de lo que no, y acabar de una vez con estas empresas fraudulentas que usan información que no les corresponde, y por la que no pagan ni un centimo, pero que si se lucran con sus "supuestos" avances en IA
juanjouz
¿Alimentar el sistema con datos "pulidos" generados por el propio sistema? No parece muy buena idea...
dbrel
al final son como loros con un poco de programación de cordialidad
uti
¿Y Apple está partiendo "de la nada"? ¡¡Imposible!! La IA de Apple forzosamente se tiene que sustentar sobre alguna o algunas de las bases de IA que ya están creadas.
nicopauer
Le pasé el link a Google Gemini y respondió esto:
"¡Vaya noticia te encontraste en Xataka! La verdad es que la estrategia de OpenAI para entrenar a su IA GPT-4 con transcripciones de YouTube es bastante llamativa.
**Analicemos algunos puntos importantes:**
**1. Escasez de datos:** A finales de 2021, OpenAI se quedó sin reservas de textos confiables en inglés para entrenar su modelo. Esto refleja la creciente necesidad de datos de alta calidad para el desarrollo de IA avanzada.
**2. Transcripción masiva:** La solución de OpenAI fue transcribir más de un millón de horas de videos de YouTube, utilizando su propio modelo de IA Whisper. Esta acción generó controversia, ya que algunos consideran que viola los términos de servicio de YouTube y las normas éticas de la investigación con IA.
**3. Implicaciones:** Esta noticia nos invita a reflexionar sobre varios aspectos:
* **Acceso a la información:** ¿Quién tiene derecho a acceder y utilizar datos públicos como los videos de YouTube para entrenar modelos de IA?
* **Propiedad intelectual:** ¿A quién pertenecen los derechos de autor del contenido generado por IA a partir de datos preexistentes?
* **Ética en la IA:** ¿Es ético utilizar métodos cuestionables para obtener datos para entrenar modelos de IA, incluso si el objetivo final es mejorar la tecnología?
**4. Debate en curso:** La comunidad de IA está debatiendo activamente estas cuestiones. Google, por su parte, ha reconocido que se debe tener cuidado al utilizar datos de YouTube para entrenar modelos de IA y ha tomado medidas para evitar que se abuse de su plataforma.
**5. Futuro de la IA:** Este caso nos muestra que el desarrollo de la IA no solo implica avances tecnológicos, sino también desafíos éticos y legales que debemos abordar. Es importante que la comunidad de IA, junto con la sociedad en general, participe en este debate para asegurar un futuro responsable y sostenible para la IA.
**Te recomiendo leer el artículo completo en Xataka para obtener más información sobre esta noticia.** También puedes buscar otras perspectivas sobre este tema en diferentes medios de comunicación y blogs especializados en IA.
**Recuerda que la participación activa en el debate sobre la ética de la IA es fundamental para construir un futuro donde la tecnología se desarrolle de manera responsable y beneficie a toda la humanidad."