Підвищення здатності великих моделей до обробки довгих текстів: від LLM до епохи Long LLM
Технології великих моделей розвиваються з приголомшливою швидкістю, здатність обробки тексту зросла з 4000 токенів до 400000 токенів. Здається, що здатність до обробки довгих текстів стає новим стандартом для виробників великих моделей.
З-за кордону OpenAI під час кількох оновлень підвищила довжину контексту GPT-4 до 32 000 токенів. Anthropic навіть підвищив довжину контексту своєї моделі Claude до 100 000 токенів. LongLLaMA навіть розширив довжину контексту до 256 000 токенів і навіть більше.
Внутрішньо, один стартап, що працює над великими моделями, випустив продукт інтелектуального асистента, який може підтримувати введення 200 тисяч китайських символів, що приблизно дорівнює 400 тисячам токенів. Дослідна команда з Гонконгського китайського університету розробила технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі до 32 тисяч токенів.
Наразі в Україні та за кордоном є кілька провідних компаній з великими моделями, які розширення контекстної довжини вважають ключовим напрямком оновлення. Більшість з цих компаній здобули прихильність капітальних ринків, їхні обсяги фінансування та оцінки є досить значними.
Компанії великих моделей прагнуть подолати технології довгих текстів, що означає розширення довжини контексту в 100 разів?
На перший погляд, це покращення довжини вхідного тексту та здібностей до читання. Від спочатку здатності прочитати лише одну коротку статтю до теперішнього часу, коли можна читати цілі довгі твори.
З більш глибокої точки зору, технологія довгих текстів також сприяє впровадженню великих моделей у професійних сферах, таких як фінанси, юстиція, наукові дослідження тощо. Здатності до підсумовування довгих документів, розуміння прочитаного, відповідей на запитання є основою для інтелектуалізації цих сфер.
Однак, довжина тексту не завжди є кращою. Дослідження показують, що підтримка моделлю довшого контекстного вводу не означає безпосереднє покращення результатів. Більш важливим є використання моделі контекстного вмісту.
Проте наразі дослідження довжини тексту в країні та за кордоном ще далеко не досягли межі. Компанії з великими моделями продовжують прориватися, 400 тисяч токенів можуть бути лише початком.
Чому потрібно "скручувати" довгі тексти?
Засновник однієї великої компанії з моделей зазначив, що саме через обмежену довжину введення виникають труднощі впровадження багатьох великих моделей. Це також причина, чому багато компаній зараз зосереджуються на технологіях довгих текстів.
Наприклад, у сценах, таких як віртуальні персонажі, розробка ігор, аналіз у професійних сферах, недостатня довжина введення може призвести до різних проблем. А в майбутніх застосунках Agent та AI нативного типу довгий текст також відіграватиме важливу роль.
Технологія довгих текстів може вирішити деякі проблеми, які раніше критикували великі моделі, посилити певні функції, а також є ключовою технологією для подальшого просування промисловості та застосування. Це також свідчить про те, що загальні великі моделі увійшли в нову стадію від LLM до Long LLM.
За допомогою нового чат-бота, випущеного певною компанією, ми можемо зазирнути в оновлені функції великої моделі на етапі Long LLM:
Витягування, підсумовування та аналіз наддовгих текстових повідомлень
Текст безпосередньо перетворюється на код
Ролеві ігри в довгих діалогах
Ці приклади показують, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, стане новим важелем для впровадження в промисловість.
Засновник певної компанії вважає, що внутрішній ринок великих моделей розділиться на два табори: toB та toC. У сфері toC з'являться супердодатки на основі моделей, розроблених власноруч.
Проте, наразі в довгих текстових діалогах все ще є можливості для оптимізації, такі як з'єднання, пауза для редагування, зменшення помилок тощо.
Дилема "неможливого трикутника" для довгих текстів
Довгі текстові технології стикаються з "трикутником неможливого": довжина тексту, увага та обчислювальна потужність.
Чим довший текст, тим важче зосередитися.
Обмежена увага, короткі тексти важко повністю зрозуміти складну інформацію
Обробка довгих текстів вимагає великої обчислювальної потужності, підвищуючи витрати
Це в основному пов'язано з тим, що більшість моделей побудовані на структурі Transformer. При цьому обсяг обчислень механізму самостійної уваги зростає в квадраті зі збільшенням довжини контексту.
Це створює суперечність між довжиною тексту та увагою. Одночасно, щоб подолати довші тексти, потрібно більше обчислювальної потужності, що формує суперечність між довжиною тексту та обчислювальною потужністю.
Наразі існує три основні рішення:
Використання зовнішніх інструментів для обробки довгих текстів
Оптимізація обчислення механізму самоуваги
Загальні методи оптимізації моделей
Довгий текст "неможливого трикутника" тимчасово без рішення, але визначено шлях для дослідження: шукати баланс між трьома сторонами, щоб обробляти достатню кількість інформації, а також враховувати обчислення уваги та вартість обчислювальної потужності.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
25 лайків
Нагородити
25
10
Репост
Поділіться
Прокоментувати
0/400
SerumSquirrel
· 07-25 12:12
Навіть більше пам'яті не вистачить.
Переглянути оригіналвідповісти на0
Ser_Liquidated
· 07-25 12:10
Складні компромісні стосунки з залежностями.
Переглянути оригіналвідповісти на0
BackrowObserver
· 07-25 09:42
Пробіг тисячу токенів, і все зависло, а ще смієш хвалитися.
Переглянути оригіналвідповісти на0
StableGeniusDegen
· 07-23 23:41
Майнінг спалює відеокарти, ага, ця річ.
Переглянути оригіналвідповісти на0
consensus_whisperer
· 07-22 12:57
400 тис. токенів? Знову витрачають гроші.
Переглянути оригіналвідповісти на0
RugResistant
· 07-22 12:57
Риба, яка не може вписатися
Мова вмісту: китайська
Ось коментар до статті:
Не можна звинувачувати нікого, тільки відеокарту можна пожаліти~
Переглянути оригіналвідповісти на0
SilentAlpha
· 07-22 12:49
Цокання, все більше роздувається, великі інвестори, які витрачають гроші на залізо.
Переглянути оригіналвідповісти на0
gas_guzzler
· 07-22 12:39
Ця обчислювальна потужність хоче обробити таку довгу? Жартуєте?
Прорив можливостей великих моделей для роботи з довгими текстами: стрибок від 4000 токенів до 400000 токенів
Підвищення здатності великих моделей до обробки довгих текстів: від LLM до епохи Long LLM
Технології великих моделей розвиваються з приголомшливою швидкістю, здатність обробки тексту зросла з 4000 токенів до 400000 токенів. Здається, що здатність до обробки довгих текстів стає новим стандартом для виробників великих моделей.
З-за кордону OpenAI під час кількох оновлень підвищила довжину контексту GPT-4 до 32 000 токенів. Anthropic навіть підвищив довжину контексту своєї моделі Claude до 100 000 токенів. LongLLaMA навіть розширив довжину контексту до 256 000 токенів і навіть більше.
Внутрішньо, один стартап, що працює над великими моделями, випустив продукт інтелектуального асистента, який може підтримувати введення 200 тисяч китайських символів, що приблизно дорівнює 400 тисячам токенів. Дослідна команда з Гонконгського китайського університету розробила технологію LongLoRA, яка може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі до 32 тисяч токенів.
Наразі в Україні та за кордоном є кілька провідних компаній з великими моделями, які розширення контекстної довжини вважають ключовим напрямком оновлення. Більшість з цих компаній здобули прихильність капітальних ринків, їхні обсяги фінансування та оцінки є досить значними.
Компанії великих моделей прагнуть подолати технології довгих текстів, що означає розширення довжини контексту в 100 разів?
На перший погляд, це покращення довжини вхідного тексту та здібностей до читання. Від спочатку здатності прочитати лише одну коротку статтю до теперішнього часу, коли можна читати цілі довгі твори.
З більш глибокої точки зору, технологія довгих текстів також сприяє впровадженню великих моделей у професійних сферах, таких як фінанси, юстиція, наукові дослідження тощо. Здатності до підсумовування довгих документів, розуміння прочитаного, відповідей на запитання є основою для інтелектуалізації цих сфер.
Однак, довжина тексту не завжди є кращою. Дослідження показують, що підтримка моделлю довшого контекстного вводу не означає безпосереднє покращення результатів. Більш важливим є використання моделі контекстного вмісту.
Проте наразі дослідження довжини тексту в країні та за кордоном ще далеко не досягли межі. Компанії з великими моделями продовжують прориватися, 400 тисяч токенів можуть бути лише початком.
Чому потрібно "скручувати" довгі тексти?
Засновник однієї великої компанії з моделей зазначив, що саме через обмежену довжину введення виникають труднощі впровадження багатьох великих моделей. Це також причина, чому багато компаній зараз зосереджуються на технологіях довгих текстів.
Наприклад, у сценах, таких як віртуальні персонажі, розробка ігор, аналіз у професійних сферах, недостатня довжина введення може призвести до різних проблем. А в майбутніх застосунках Agent та AI нативного типу довгий текст також відіграватиме важливу роль.
Технологія довгих текстів може вирішити деякі проблеми, які раніше критикували великі моделі, посилити певні функції, а також є ключовою технологією для подальшого просування промисловості та застосування. Це також свідчить про те, що загальні великі моделі увійшли в нову стадію від LLM до Long LLM.
За допомогою нового чат-бота, випущеного певною компанією, ми можемо зазирнути в оновлені функції великої моделі на етапі Long LLM:
Ці приклади показують, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, стане новим важелем для впровадження в промисловість.
Засновник певної компанії вважає, що внутрішній ринок великих моделей розділиться на два табори: toB та toC. У сфері toC з'являться супердодатки на основі моделей, розроблених власноруч.
Проте, наразі в довгих текстових діалогах все ще є можливості для оптимізації, такі як з'єднання, пауза для редагування, зменшення помилок тощо.
Дилема "неможливого трикутника" для довгих текстів
Довгі текстові технології стикаються з "трикутником неможливого": довжина тексту, увага та обчислювальна потужність.
Це в основному пов'язано з тим, що більшість моделей побудовані на структурі Transformer. При цьому обсяг обчислень механізму самостійної уваги зростає в квадраті зі збільшенням довжини контексту.
Це створює суперечність між довжиною тексту та увагою. Одночасно, щоб подолати довші тексти, потрібно більше обчислювальної потужності, що формує суперечність між довжиною тексту та обчислювальною потужністю.
Наразі існує три основні рішення:
Довгий текст "неможливого трикутника" тимчасово без рішення, але визначено шлях для дослідження: шукати баланс між трьома сторонами, щоб обробляти достатню кількість інформації, а також враховувати обчислення уваги та вартість обчислювальної потужності.
Мова вмісту: китайська
Ось коментар до статті:
Не можна звинувачувати нікого, тільки відеокарту можна пожаліти~