✈️ Gate 广场【Gate Travel 旅行分享官召集令】
广场家人们注意啦!Gate Travel 已经上线~ 机票+酒店一站式预订,还能用加密货币直接付款 💸
所以说,你的钱包和你的旅行梦终于可以谈恋爱了 😎 💕
现在广场开启 #GateTravel旅行分享官# 活动,邀你来秀旅行灵感 & 使用体验!💡
🌴 参与方式:
1️⃣ 在【广场】带话题 #Gate Travel 旅行分享官# 发帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小岛 or 网红打卡点都行)
讲讲用 Gate Travel 订票/订酒店的奇妙体验
放放省钱/使用攻略,让大家省到笑出声
或者直接写一篇轻松的 Gate Travel 旅行小故事
📦 奖励安排,走起:
🏆 优秀分享官(1 名):Gate 旅行露营套装
🎖️ 热门分享官(3 名):Gate 旅行速干套装
🎉 幸运参与奖(5 名):Gate 国际米兰旅行小夜灯
*海外用户 旅行露营套装 以 $100 合约体验券,旅行速干套装 以 $50 合约体验券折算,国际米兰旅行小夜灯以 $30合约体验券折算。
📌 优质内容将有机会得到官方账号转发翻牌提升社区曝光!
📌 帖文将综合互动量、内容丰富度和创意评分。禁止小号刷贴,原创分享更容易脱颖而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
大模型长文本能力突破:从4000 token到40万 token的飞跃
大模型长文本能力提升:从LLM到Long LLM时代
大模型技术正在以惊人的速度发展,文本处理能力从4000 token跃升至40万token。长文本能力似乎成为大模型厂商的新标配。
国外方面,OpenAI通过多次升级将GPT-4的上下文长度提升至3.2万token。Anthropic更是将其模型Claude的上下文长度一举提升至10万token。LongLLaMA更是将上下文长度扩展到25.6万token甚至更多。
国内方面,某大模型初创公司推出的智能助手产品可支持输入20万汉字,约合40万token。港中文一个研究团队开发的LongLoRA技术可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。
目前,国内外已有一批顶级大模型公司将拓展上下文长度作为更新升级的重点。这些公司大多获得了资本市场的青睐,融资规模和估值都十分可观。
大模型公司致力于突破长文本技术,将上下文长度扩大100倍意味着什么?
表面上看是输入文本长度和阅读能力的提升。从最初只能读完一篇短文,到现在可以阅读整本长篇巨著。
更深层次来看,长文本技术也在推动大模型在金融、司法、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力是这些领域智能化升级的基础。
然而,文本长度并不是越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接划等号。更重要的是模型对上下文内容的使用。
不过,目前国内外对文本长度的探索还远未达到极限。大模型公司仍在不断突破,40万token可能只是一个开始。
为什么要"卷"长文本?
某大模型公司创始人表示,正是由于输入长度受限,造成了许多大模型应用落地的困境。这也是众多公司当前聚焦长文本技术的原因。
例如在虚拟角色、游戏开发、专业领域分析等场景中,输入长度不足会导致各种问题。而在未来的Agent和AI原生应用中,长文本同样扮演着重要角色。
长文本技术既可以解决大模型早期被诟病的一些问题,增强某些功能,同时也是进一步推进产业和应用落地的关键技术。这也表明通用大模型已进入从LLM到Long LLM的新阶段。
通过某公司新发布的对话机器人,我们可以窥见Long LLM阶段大模型的升级功能:
这些例子说明,对话机器人正朝着专业化、个性化、深度化方向发展,这或许是撬动产业落地的新抓手。
某公司创始人认为,国内大模型市场会分为toB和toC两个阵营,在toC领域会出现基于自研模型的超级应用。
不过,目前长文本对话场景仍有优化空间,如联网、暂停修改、减少错误等方面。
长文本的"不可能三角"困境
长文本技术面临文本长短、注意力和算力的"不可能三角"困境:
这主要源于大多数模型基于Transformer结构。其中自注意力机制的计算量随上下文长度呈平方增长。
这构成了文本长短与注意力的矛盾。同时,要突破更长文本又需要更多算力,形成了文本长短与算力的矛盾。
目前主要有三种解决方案:
长文本的"不可能三角"困境暂时无解,但明确了探索路径:在三者间寻求平衡,既能处理足够信息,又能兼顾注意力计算与算力成本。
内容语言:中文
以下是对文章的评论:
怪不了谁,只能难为显卡了~