Amélioration des capacités des grands modèles pour les longs textes : de LLM à l'ère du Long LLM
La technologie des grands modèles se développe à une vitesse incroyable, la capacité de traitement de texte passant de 4000 tokens à 400 000 tokens. La capacité de traiter de longs textes semble devenir la nouvelle norme pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a augmenté la longueur de contexte de GPT-4 à 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a étendu la longueur de contexte à 256 000 tokens, voire plus.
Sur le plan national, un produit d'assistant intelligent lancé par une startup de modèle à grande échelle peut supporter l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. Une équipe de recherche de l'Université Chinoise de Hong Kong a développé la technologie LongLoRA qui peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens et celle d'un modèle de 70B à 32 000 tokens.
Actuellement, un certain nombre de grandes entreprises de modèles, tant nationales qu'internationales, se concentrent sur l'extension de la longueur du contexte comme point clé de leur mise à jour. La plupart de ces entreprises ont attiré l'attention des marchés financiers, avec des montants de financement et des évaluations très significatifs.
Qu'est-ce que cela signifie pour une entreprise de modèle de grande taille de s'engager à faire progresser la technologie des longs textes en multipliant par 100 la longueur du contexte ?
En surface, il semble qu'il s'agisse d'une amélioration de la longueur du texte d'entrée et de la capacité de lecture. Au départ, je ne pouvais lire qu'un court article, mais maintenant je peux lire un livre entier.
D'un point de vue plus profond, la technologie des longs textes promeut également l'application des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses constituent la base de la montée en intelligence de ces domaines.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des études montrent que le soutien des modèles à des entrées contextuelles plus longues ne correspond pas nécessairement à une amélioration des performances. Ce qui est plus important, c'est l'utilisation que le modèle fait du contenu contextuel.
Cependant, actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint ses limites. Les entreprises de grands modèles continuent de faire des percées, 400 000 tokens ne sont peut-être qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une grande entreprise de modèles a déclaré que c'est en raison de la limitation de la longueur d'entrée que de nombreuses applications de grands modèles rencontrent des difficultés à se concrétiser. C'est aussi la raison pour laquelle de nombreuses entreprises se concentrent actuellement sur les technologies de texte long.
Par exemple, dans des scénarios tels que les personnages virtuels, le développement de jeux, et l'analyse dans des domaines professionnels, une longueur d'entrée insuffisante peut entraîner divers problèmes. Dans les futures applications natives d'Agent et d'IA, les longs textes joueront également un rôle important.
La technologie des longs textes peut à la fois résoudre certains des problèmes qui ont été critiqués au début des grands modèles, renforcer certaines fonctionnalités et constitue également une technologie clé pour faire progresser l'industrialisation et l'application. Cela indique également que les grands modèles généraux sont entrés dans une nouvelle phase, passant de LLM à Long LLM.
Grâce au nouveau robot conversationnel publié par une certaine entreprise, nous pouvons entrevoir les fonctionnalités de mise à niveau du modèle à grande échelle Long LLM.
Extraction, résumé et analyse d'informations texte très longues
Le texte se transforme directement en code
Rôle dans un long dialogue
Ces exemples montrent que les robots de dialogue évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un nouvel levier pour concrétiser l'industrie.
Le fondateur d'une certaine entreprise pense que le marché des grands modèles en Chine se divisera en deux camps : le toB et le toC, et qu'il y aura des applications super basées sur des modèles développés en interne dans le domaine du toC.
Cependant, il y a encore de la place pour l'optimisation dans les scénarios de dialogue de long texte, tels que la connexion, la pause des modifications, la réduction des erreurs, etc.
Le dilemme du "triangle impossible" des longs textes
La technologie des longs textes est confrontée au dilemme du "triangle impossible" de la longueur du texte, de l'attention et de la puissance de calcul :
Plus le texte est long, plus il est difficile de se concentrer.
Attention limitée, difficile de comprendre des informations complexes à partir de courts textes
Le traitement de longs textes nécessite une grande puissance de calcul, augmentant les coûts.
Cela provient principalement du fait que la plupart des modèles sont basés sur la structure Transformer. Dans ce cas, la quantité de calcul du mécanisme d'auto-attention augmente de manière quadratique avec la longueur du contexte.
Cela constitue une contradiction entre la longueur du texte et l'attention. En même temps, pour traiter des textes plus longs, il faut également plus de puissance de calcul, créant ainsi une contradiction entre la longueur du texte et la puissance de calcul.
Actuellement, il existe principalement trois solutions :
Utiliser des outils externes pour traiter de longs textes.
Optimisation du calcul des mécanismes d'attention auto
Méthodes générales d'optimisation des modèles
Le dilemme du "triangle impossible" pour les longs textes reste sans solution temporaire, mais a clarifié le chemin d'exploration : chercher un équilibre entre les trois, afin de traiter suffisamment d'informations tout en tenant compte du calcul de l'attention et du coût de la puissance de calcul.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
25 J'aime
Récompense
25
10
Reposter
Partager
Commentaire
0/400
SerumSquirrel
· 07-25 12:12
Même avec plus de mémoire, ce n'est pas suffisant.
Voir l'originalRépondre0
Ser_Liquidated
· 07-25 12:10
Une relation de compromis difficile à gérer.
Voir l'originalRépondre0
BackrowObserver
· 07-25 09:42
J'ai bloqué en courant dix mille tokens, et j'ai encore le culot de me vanter.
Voir l'originalRépondre0
StableGeniusDegen
· 07-23 23:41
Mining brûle les cartes graphiques, cette chose.
Voir l'originalRépondre0
consensus_whisperer
· 07-22 12:57
400 000 tokens ? Encore de l'argent brûlé.
Voir l'originalRépondre0
RugResistant
· 07-22 12:57
Le poisson qui ne peut pas s'intégrer
Langue du contenu : chinois
Voici les commentaires sur l'article :
On ne peut blâmer personne, c'est juste difficile pour la carte graphique~
Voir l'originalRépondre0
SilentAlpha
· 07-22 12:49
Tss tss, ça devient de plus en plus gonflé, grands investisseurs de la ferraille.
Voir l'originalRépondre0
gas_guzzler
· 07-22 12:39
Cette puissance de calcul veut traiter une si longue durée ? On rigole ?
Capacités des grands modèles en matière de texte long : un bond de 4000 tokens à 400 000 tokens.
Amélioration des capacités des grands modèles pour les longs textes : de LLM à l'ère du Long LLM
La technologie des grands modèles se développe à une vitesse incroyable, la capacité de traitement de texte passant de 4000 tokens à 400 000 tokens. La capacité de traiter de longs textes semble devenir la nouvelle norme pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a augmenté la longueur de contexte de GPT-4 à 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a étendu la longueur de contexte à 256 000 tokens, voire plus.
Sur le plan national, un produit d'assistant intelligent lancé par une startup de modèle à grande échelle peut supporter l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. Une équipe de recherche de l'Université Chinoise de Hong Kong a développé la technologie LongLoRA qui peut étendre la longueur de texte d'un modèle de 7B à 100 000 tokens et celle d'un modèle de 70B à 32 000 tokens.
Actuellement, un certain nombre de grandes entreprises de modèles, tant nationales qu'internationales, se concentrent sur l'extension de la longueur du contexte comme point clé de leur mise à jour. La plupart de ces entreprises ont attiré l'attention des marchés financiers, avec des montants de financement et des évaluations très significatifs.
Qu'est-ce que cela signifie pour une entreprise de modèle de grande taille de s'engager à faire progresser la technologie des longs textes en multipliant par 100 la longueur du contexte ?
En surface, il semble qu'il s'agisse d'une amélioration de la longueur du texte d'entrée et de la capacité de lecture. Au départ, je ne pouvais lire qu'un court article, mais maintenant je peux lire un livre entier.
D'un point de vue plus profond, la technologie des longs textes promeut également l'application des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses constituent la base de la montée en intelligence de ces domaines.
Cependant, la longueur du texte n'est pas toujours synonyme de qualité. Des études montrent que le soutien des modèles à des entrées contextuelles plus longues ne correspond pas nécessairement à une amélioration des performances. Ce qui est plus important, c'est l'utilisation que le modèle fait du contenu contextuel.
Cependant, actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint ses limites. Les entreprises de grands modèles continuent de faire des percées, 400 000 tokens ne sont peut-être qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une grande entreprise de modèles a déclaré que c'est en raison de la limitation de la longueur d'entrée que de nombreuses applications de grands modèles rencontrent des difficultés à se concrétiser. C'est aussi la raison pour laquelle de nombreuses entreprises se concentrent actuellement sur les technologies de texte long.
Par exemple, dans des scénarios tels que les personnages virtuels, le développement de jeux, et l'analyse dans des domaines professionnels, une longueur d'entrée insuffisante peut entraîner divers problèmes. Dans les futures applications natives d'Agent et d'IA, les longs textes joueront également un rôle important.
La technologie des longs textes peut à la fois résoudre certains des problèmes qui ont été critiqués au début des grands modèles, renforcer certaines fonctionnalités et constitue également une technologie clé pour faire progresser l'industrialisation et l'application. Cela indique également que les grands modèles généraux sont entrés dans une nouvelle phase, passant de LLM à Long LLM.
Grâce au nouveau robot conversationnel publié par une certaine entreprise, nous pouvons entrevoir les fonctionnalités de mise à niveau du modèle à grande échelle Long LLM.
Ces exemples montrent que les robots de dialogue évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un nouvel levier pour concrétiser l'industrie.
Le fondateur d'une certaine entreprise pense que le marché des grands modèles en Chine se divisera en deux camps : le toB et le toC, et qu'il y aura des applications super basées sur des modèles développés en interne dans le domaine du toC.
Cependant, il y a encore de la place pour l'optimisation dans les scénarios de dialogue de long texte, tels que la connexion, la pause des modifications, la réduction des erreurs, etc.
Le dilemme du "triangle impossible" des longs textes
La technologie des longs textes est confrontée au dilemme du "triangle impossible" de la longueur du texte, de l'attention et de la puissance de calcul :
Cela provient principalement du fait que la plupart des modèles sont basés sur la structure Transformer. Dans ce cas, la quantité de calcul du mécanisme d'auto-attention augmente de manière quadratique avec la longueur du contexte.
Cela constitue une contradiction entre la longueur du texte et l'attention. En même temps, pour traiter des textes plus longs, il faut également plus de puissance de calcul, créant ainsi une contradiction entre la longueur du texte et la puissance de calcul.
Actuellement, il existe principalement trois solutions :
Le dilemme du "triangle impossible" pour les longs textes reste sans solution temporaire, mais a clarifié le chemin d'exploration : chercher un équilibre entre les trois, afin de traiter suffisamment d'informations tout en tenant compte du calcul de l'attention et du coût de la puissance de calcul.
Langue du contenu : chinois
Voici les commentaires sur l'article :
On ne peut blâmer personne, c'est juste difficile pour la carte graphique~