Mejora de la capacidad de texto largo de los grandes modelos: de LLM a la era de Long LLM
La tecnología de modelos grandes está desarrollándose a una velocidad asombrosa, con una capacidad de procesamiento de texto que ha saltado de 4000 token a 400000 token. La capacidad para textos largos parece convertirse en un nuevo estándar para los proveedores de modelos grandes.
En el extranjero, OpenAI ha mejorado la longitud del contexto de GPT-4 a 32,000 tokens a través de múltiples actualizaciones. Anthropic ha aumentado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha ampliado la longitud del contexto a 256,000 tokens o incluso más.
En el ámbito nacional, un producto de asistente inteligente lanzado por una startup de modelos grandes puede soportar la entrada de 200,000 caracteres chinos, equivalente a aproximadamente 400,000 tokens. Un equipo de investigación de la Universidad China de Hong Kong ha desarrollado la tecnología LongLoRA, que puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, un grupo de compañías de modelos de vanguardia a nivel nacional e internacional ha centrado sus esfuerzos en ampliar la longitud del contexto como una prioridad en sus actualizaciones. La mayoría de estas empresas han atraído el interés del mercado de capitales, con un tamaño de financiamiento y una valoración bastante considerables.
¿Qué significa que las empresas de modelos grandes se comprometan a romper la tecnología de texto largo y expandir la longitud del contexto 100 veces?
A simple vista, parece ser una mejora en la longitud del texto de entrada y en la capacidad de lectura. Desde poder leer solo un breve texto al principio, hasta ahora poder leer toda una larga obra maestra.
En un nivel más profundo, la tecnología de texto largo también está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son la base de la modernización inteligente en estos campos.
Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que no se puede equiparar directamente el soporte del modelo para entradas de contexto más largas con una mejora en los resultados. Lo más importante es cómo el modelo utiliza el contenido del contexto.
Sin embargo, la exploración de la longitud del texto en el país y en el extranjero aún no ha alcanzado su límite. Las empresas de modelos grandes siguen rompiendo barreras, y 400,000 tokens pueden ser solo un comienzo.
¿Por qué "enrollar" textos largos?
El fundador de una empresa de grandes modelos declaró que la limitación en la longitud de entrada ha causado las dificultades en la implementación de muchas aplicaciones de grandes modelos. Esta es también la razón por la que muchas empresas se están enfocando actualmente en la tecnología de texto largo.
Por ejemplo, en escenarios como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, una longitud de entrada insuficiente puede causar varios problemas. Y en las futuras aplicaciones nativas de Agent y AI, el texto largo también desempeña un papel importante.
La tecnología de texto largo puede resolver algunos de los problemas criticados de los grandes modelos en sus primeras etapas, mejorar ciertas funcionalidades, y también es una tecnología clave para avanzar en la implementación de la industria y las aplicaciones. Esto también indica que los grandes modelos generales han entrado en una nueva fase de LLM a Long LLM.
A través del nuevo chatbot lanzado por cierta empresa, podemos vislumbrar las funciones de actualización del gran modelo en la fase Long LLM:
Extracción, resumen y análisis de información de texto extremadamente largo
Texto convertido directamente en código
Interpretación de roles en conversaciones largas
Estos ejemplos muestran que los chatbots están avanzando hacia una dirección de especialización, personalización y profundización, lo que podría ser una nueva palanca para impulsar la implementación en la industria.
El fundador de una empresa cree que el mercado nacional de grandes modelos se dividirá en dos campos: toB y toC, y que en el ámbito toC aparecerán superaplicaciones basadas en modelos desarrollados internamente.
Sin embargo, actualmente hay espacio para optimizar las conversaciones de texto largo, como la conexión a internet, la pausa para modificar y la reducción de errores.
La "tríada imposible" del texto largo
La tecnología de texto largo enfrenta la "triángulo imposible" de la longitud del texto, la atención y la capacidad de cálculo:
Cuanto más largo es el texto, más difícil es mantener la atención.
La atención es limitada, y los textos cortos dificultan la interpretación completa de información compleja.
Procesar textos largos requiere una gran cantidad de potencia de cálculo, lo que aumenta los costos.
Esto se debe principalmente a que la mayoría de los modelos se basan en la estructura Transformer. En este caso, la carga computacional del mecanismo de autoatención crece de manera cuadrática con la longitud del contexto.
Esto constituye una contradicción entre la longitud del texto y la atención. Al mismo tiempo, para superar textos más largos se necesita más potencia de cálculo, lo que genera una contradicción entre la longitud del texto y la potencia de cálculo.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos
Optimización del cálculo del mecanismo de autoatención
Métodos generales para la optimización de modelos
El dilema del "triángulo imposible" en textos largos permanece sin solución por el momento, pero se ha aclarado el camino de exploración: buscar un equilibrio entre los tres, de modo que se pueda manejar suficiente información y al mismo tiempo tener en cuenta el cálculo de atención y el costo computacional.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
25 me gusta
Recompensa
25
10
Republicar
Compartir
Comentar
0/400
SerumSquirrel
· 07-25 12:12
No hay suficiente memoria, incluso si hay más.
Ver originalesResponder0
Ser_Liquidated
· 07-25 12:10
Es una relación de compromiso difícil de manejar.
Ver originalesResponder0
BackrowObserver
· 07-25 09:42
Correr diez mil tokens se ha quedado atascado, ¿y aún tienes cara para presumir?
Ver originalesResponder0
StableGeniusDegen
· 07-23 23:41
Minería quema tarjetas gráficas, ¿verdad?
Ver originalesResponder0
consensus_whisperer
· 07-22 12:57
¿400,000 tokens? ¿De nuevo gastando dinero?
Ver originalesResponder0
RugResistant
· 07-22 12:57
El pez que no se integra
Idioma del contenido: chino
A continuación se presentan los comentarios sobre el artículo:
No se puede culpar a nadie, solo se puede dificultar a la tarjeta gráfica~
Ver originalesResponder0
SilentAlpha
· 07-22 12:49
Zas, cada vez se inflan más los grandes inversores en el hierro.
Ver originalesResponder0
gas_guzzler
· 07-22 12:39
¿Quieres procesar tanto con esta potencia computacional? ¿Estás bromeando?
Superación de la capacidad de texto largo del modelo grande: un salto de 4000 tokens a 400,000 tokens
Mejora de la capacidad de texto largo de los grandes modelos: de LLM a la era de Long LLM
La tecnología de modelos grandes está desarrollándose a una velocidad asombrosa, con una capacidad de procesamiento de texto que ha saltado de 4000 token a 400000 token. La capacidad para textos largos parece convertirse en un nuevo estándar para los proveedores de modelos grandes.
En el extranjero, OpenAI ha mejorado la longitud del contexto de GPT-4 a 32,000 tokens a través de múltiples actualizaciones. Anthropic ha aumentado la longitud del contexto de su modelo Claude a 100,000 tokens. LongLLaMA ha ampliado la longitud del contexto a 256,000 tokens o incluso más.
En el ámbito nacional, un producto de asistente inteligente lanzado por una startup de modelos grandes puede soportar la entrada de 200,000 caracteres chinos, equivalente a aproximadamente 400,000 tokens. Un equipo de investigación de la Universidad China de Hong Kong ha desarrollado la tecnología LongLoRA, que puede extender la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.
Actualmente, un grupo de compañías de modelos de vanguardia a nivel nacional e internacional ha centrado sus esfuerzos en ampliar la longitud del contexto como una prioridad en sus actualizaciones. La mayoría de estas empresas han atraído el interés del mercado de capitales, con un tamaño de financiamiento y una valoración bastante considerables.
¿Qué significa que las empresas de modelos grandes se comprometan a romper la tecnología de texto largo y expandir la longitud del contexto 100 veces?
A simple vista, parece ser una mejora en la longitud del texto de entrada y en la capacidad de lectura. Desde poder leer solo un breve texto al principio, hasta ahora poder leer toda una larga obra maestra.
En un nivel más profundo, la tecnología de texto largo también está impulsando la implementación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son la base de la modernización inteligente en estos campos.
Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que no se puede equiparar directamente el soporte del modelo para entradas de contexto más largas con una mejora en los resultados. Lo más importante es cómo el modelo utiliza el contenido del contexto.
Sin embargo, la exploración de la longitud del texto en el país y en el extranjero aún no ha alcanzado su límite. Las empresas de modelos grandes siguen rompiendo barreras, y 400,000 tokens pueden ser solo un comienzo.
¿Por qué "enrollar" textos largos?
El fundador de una empresa de grandes modelos declaró que la limitación en la longitud de entrada ha causado las dificultades en la implementación de muchas aplicaciones de grandes modelos. Esta es también la razón por la que muchas empresas se están enfocando actualmente en la tecnología de texto largo.
Por ejemplo, en escenarios como personajes virtuales, desarrollo de juegos, análisis en campos profesionales, una longitud de entrada insuficiente puede causar varios problemas. Y en las futuras aplicaciones nativas de Agent y AI, el texto largo también desempeña un papel importante.
La tecnología de texto largo puede resolver algunos de los problemas criticados de los grandes modelos en sus primeras etapas, mejorar ciertas funcionalidades, y también es una tecnología clave para avanzar en la implementación de la industria y las aplicaciones. Esto también indica que los grandes modelos generales han entrado en una nueva fase de LLM a Long LLM.
A través del nuevo chatbot lanzado por cierta empresa, podemos vislumbrar las funciones de actualización del gran modelo en la fase Long LLM:
Estos ejemplos muestran que los chatbots están avanzando hacia una dirección de especialización, personalización y profundización, lo que podría ser una nueva palanca para impulsar la implementación en la industria.
El fundador de una empresa cree que el mercado nacional de grandes modelos se dividirá en dos campos: toB y toC, y que en el ámbito toC aparecerán superaplicaciones basadas en modelos desarrollados internamente.
Sin embargo, actualmente hay espacio para optimizar las conversaciones de texto largo, como la conexión a internet, la pausa para modificar y la reducción de errores.
La "tríada imposible" del texto largo
La tecnología de texto largo enfrenta la "triángulo imposible" de la longitud del texto, la atención y la capacidad de cálculo:
Esto se debe principalmente a que la mayoría de los modelos se basan en la estructura Transformer. En este caso, la carga computacional del mecanismo de autoatención crece de manera cuadrática con la longitud del contexto.
Esto constituye una contradicción entre la longitud del texto y la atención. Al mismo tiempo, para superar textos más largos se necesita más potencia de cálculo, lo que genera una contradicción entre la longitud del texto y la potencia de cálculo.
Actualmente hay tres soluciones principales:
El dilema del "triángulo imposible" en textos largos permanece sin solución por el momento, pero se ha aclarado el camino de exploración: buscar un equilibrio entre los tres, de modo que se pueda manejar suficiente información y al mismo tiempo tener en cuenta el cálculo de atención y el costo computacional.
Idioma del contenido: chino
A continuación se presentan los comentarios sobre el artículo:
No se puede culpar a nadie, solo se puede dificultar a la tarjeta gráfica~