Büyük model uzun metin yetenekleri atılımı: 4000 token'dan 400.000 token'a sıçrama

robot
Abstract generation in progress

Büyük Model Uzun Metin Yeteneğinin Gelişimi: LLM'den Long LLM Çağına

Büyük model teknolojisi, metin işleme yeteneklerini 4000 token'dan 400.000 token'a çıkararak şaşırtıcı bir hızla gelişiyor. Uzun metin yetenekleri, büyük model üreticilerinin yeni standart donanımı haline geliyor.

Yurt dışında, OpenAI birçok güncelleme ile GPT-4'ün bağlam uzunluğunu 32.000 token'a yükseltti. Anthropic ise modelinin Claude'un bağlam uzunluğunu bir kerede 100.000 token'a çıkardı. LongLLaMA ise bağlam uzunluğunu 256.000 token'a hatta daha fazlasına genişletti.

Yerli alanda, bir büyük model girişimi tarafından piyasaya sürülen akıllı asistan ürünü 200.000 Çince karakter girişi destekleyebilir, bu da yaklaşık 400.000 token'e karşılık gelir. Hong Kong Çincisi Üniversitesi'nden bir araştırma ekibi tarafından geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'e, 70B modelini ise 32.000 token'e uzatabiliyor.

Şu anda, hem yurtiçinde hem de yurtdışında, bir dizi üst düzey büyük model şirketi, bağlam uzunluğunu genişletmeyi güncelleme ve yükseltme odaklarından biri olarak belirlemiştir. Bu şirketler genellikle sermaye piyasalarının ilgisini çekmiş olup, finansman ölçekleri ve değerlemeleri oldukça dikkat çekicidir.

Büyük model şirketleri, uzun metin teknolojisini aşmaya çalışıyor. Bağlam uzunluğunu 100 kat artırmanın anlamı nedir?

Yüzeysel olarak, metin uzunluğunun ve okuma yeteneğinin artışı olarak görülüyor. İlk başta sadece kısa bir makaleyi okuyabilen biri, şimdi bir bütün romanı okuyabiliyor.

Daha derin bir bakış açısıyla, uzun metin teknolojisi aynı zamanda büyük modellerin finans, yargı, araştırma gibi uzmanlık alanlarında uygulanmasını da teşvik ediyor. Uzun belge özetleme, okuduğunu anlama, soru-cevap gibi yetenekler, bu alanların akıllı hale gelmesinin temelini oluşturuyor.

Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin daha uzun bağlam girişi desteklemesi ile performans artışı arasında doğrudan bir eşitlik olmadığına işaret ediyor. Daha önemlisi, modelin bağlam içeriğini kullanma şeklidir.

Ancak, şu anda yurt içi ve yurt dışındaki metin uzunluğu araştırmaları henüz sınırlarına ulaşmadı. Büyük model şirketleri sürekli olarak yeni sınırlar aşıyor, 400.000 token belki de sadece bir başlangıçtır.

Neden uzun metinleri "sarmalamalıyız"?

Bir büyük model şirketinin kurucusu, giriş uzunluğunun sınırlı olmasının birçok büyük model uygulamasının hayata geçmesindeki zorlukların nedeni olduğunu belirtti. Bu, birçok şirketin şu anda uzun metin teknolojilerine odaklanmasının da bir sebebidir.

Örneğin sanal karakterler, oyun geliştirme, uzmanlık alanı analizi gibi senaryolarda, giriş uzunluğunun yetersiz olması çeşitli sorunlara yol açabilir. Gelecekteki Agent ve AI yerel uygulamalarında, uzun metinler de önemli bir rol oynamaktadır.

Uzun metin teknolojisi, büyük modellerin erken dönemlerde eleştirilen bazı sorunlarını çözebilir, belirli işlevleri artırabilir ve aynı zamanda sanayi ve uygulamaların hayata geçirilmesini ileriye taşıyan anahtar bir teknolojidir. Bu, genel büyük modellerin LLM'den Long LLM'ye geçiş aşamasına girdiğini de göstermektedir.

Yeni bir şirketin yayınladığı sohbet robotu sayesinde, Long LLM aşamasındaki büyük modelin yükseltme özelliklerine bir göz atabiliriz:

  • Uzun metin bilgisi çıkarımı, özetleme ve analiz
  • Metin doğrudan koda dönüştürülür
  • Uzun diyaloglardaki rol yapma

Bu örnekler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir; bu, belki de endüstrinin uygulanmasını sağlayacak yeni bir araçtır.

Bir şirketin kurucusu, yerel büyük model pazarının B2B ve B2C olmak üzere iki kampa ayrılacağını düşünüyor ve B2C alanında kendi geliştirdikleri modellere dayanan süper uygulamaların ortaya çıkacağını belirtiyor.

Ancak, şu anda uzun metinli diyalog senaryolarında hala optimize edilecek alanlar var, örneğin bağlantı, duraklatma, düzenleme ve hata azaltma gibi.

Uzun Metinlerin "İmkansız Üçgen" Dileması

Uzun metin teknolojisi, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgen" zorluğuyla karşı karşıya:

  • Metin ne kadar uzunsa, dikkat çekmek o kadar zor.
  • Dikkat sınırlıdır, kısa metinler karmaşık bilgileri tam olarak çözmeyi zorlaştırır
  • Uzun metin işlemek büyük miktarda hesaplama gücü gerektirir, maliyetleri artırır.

Bu, çoğu modelin Transformer yapısına dayanmasından kaynaklanmaktadır. Burada, kendi kendine dikkat mekanizmasının hesaplama miktarı bağlam uzunluğu ile kare oranında artmaktadır.

Bu, metin uzunluğu ile dikkat arasındaki çelişkiyi oluşturuyor. Aynı zamanda, daha uzun metinleri aşmak için daha fazla hesaplama gücü gerekmektedir, bu da metin uzunluğu ile hesaplama gücü arasındaki çelişkiyi oluşturuyor.

Şu anda üç ana çözüm bulunmaktadır:

  1. Uzun metinleri işlemek için dış araçlardan yararlanma
  2. Kendine dikkat mekanizması hesaplamasını optimize et
  3. Model optimizasyonunun genel yöntemleri

Uzun metinlerin "imkânsız üçgen" çıkmazı geçici olarak çözümsüzdür, ancak keşif yolları netleştirildi: üçü arasında denge aramak, yeterli bilgi işlemek, dikkat hesaplaması ve hesaplama maliyetini göz önünde bulundurmak.

TOKEN-6.6%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 10
  • Repost
  • Share
Comment
0/400
SerumSquirrelvip
· 07-25 12:12
Daha fazla bellek de yeterli olmayacak.
View OriginalReply0
Ser_Liquidatedvip
· 07-25 12:10
Zor bir bağımlılık uzlaşması.
View OriginalReply0
BackrowObservervip
· 07-25 09:42
On bin bir token koştu ama hepsi takıldı, hala övünmeye yüzleri var.
View OriginalReply0
StableGeniusDegenvip
· 07-23 23:41
Mining ekran kartı yakıyor, bu şey
View OriginalReply0
consensus_whisperervip
· 07-22 12:57
400 bin token? Yine para mı harcadı?
View OriginalReply0
RugResistantvip
· 07-22 12:57
İçine giremeyen balık

İçerik dili: Çince

Aşağıda makale hakkında yorumlar yer alıyor:

Kimseyi suçlayamayız, sadece ekran kartını zorlayabiliriz~
View OriginalReply0
SilentAlphavip
· 07-22 12:49
Tsk tsk, iş büyüdükçe büyüyor, demir para harcayan Büyük Yatırımcılar.
View OriginalReply0
gas_guzzlervip
· 07-22 12:39
Bu kadar bilgi işlem gücüyle bu kadar uzun bir şeyi mi işlemeye çalışıyorsun? Şaka mı yapıyorsun?
View OriginalReply0
ImpermanentLossFanvip
· 07-22 12:37
Yavaş yavaş uzanıp uzun metinleri okumak.
View OriginalReply0
View More
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)