Los chatbots de inteligencia artificial han mejorado mucho en el último año. Programas como ChatGPT, Claude, o Gemini ahora pueden entender conversaciones más largas y complicadas, y manejar textos grandes. Pero hay un problema: suelen tener dificultades para escribir respuestas de más de 1.000 palabras.
Esto significa que, aunque estos chatbots son buenos, no pueden escribir historias largas de una sola vez. Muchos se preguntan por qué es así. Ahora, unos investigadores de la Universidad de Tsinghua en Pekín creen haber encontrado la solución y han compartido sus descubrimientos para que todos puedan verlos.
Presentamos Respuestas de Más de 10.000 Palabras
Un equipo liderado por Yushi Bai ha creado dos modelos de IA que pueden generar textos largos y coherentes, de más de 10.000 palabras. Para que te hagas una idea, la novela ‘La metamorfosis’ de Franz Kafka tiene unas 11.000 palabras, lo que significa que este nuevo modelo, llamado LongWriter, podría escribir un libro de tamaño medio de una sola vez.
Los expertos dicen que el problema de las respuestas cortas en los chatbots se debe a la cantidad de texto con el que se entrenan. Para solucionarlo, desarrollaron un sistema llamado AgentWrite, que divide las tareas de escritura en partes más pequeñas, permitiendo que la IA escriba respuestas más largas y coherentes.
El equipo usó un modelo creado en su universidad, llamado GLM-4 9B, y lo entrenó con 10 billones de palabras en 26 idiomas diferentes para crear LongWriter-glm4-9b. También usaron otro modelo llamado Llama 3.1 para crear LongWriter-llama3.1-8b. Ambos modelos pueden escribir respuestas de más de 10.000 palabras.
Como ejemplo, los investigadores le pidieron a un chatbot basado en GLM-4 9B que escribiera una historia de 5.000 palabras. El resultado fue una historia de solo 1.896 palabras. Pero con LongWriter-glm4-9b, el chatbot escribió 7.872 palabras en respuesta a la misma petición. Eso sí, parece que este modelo tiende a escribir más de lo necesario, incluso si le dices que se limite.
La buena noticia es que cualquiera puede usar y mejorar estos modelos, ya que son de código abierto. Esto significa que una universidad en China puede hacer un avance que beneficie a proyectos en todo el mundo. Por otro lado, los modelos de IA que no son de código abierto mantienen sus avances solo para las compañías que los crean.