
基础模型、长文本、数据库、应用落地:读懂大模型行业的关键问题
基础模型、长文本、数据库、应用落地:读懂大模型行业的关键问题3 月 23 日-24 日,聚焦全球开发者精英,由上海市人工智能行业协会(SAIA)主办的 2024 全球开发者先锋大会(2024 GDC)在上海举办。
3 月 23 日-24 日,聚焦全球开发者精英,由上海市人工智能行业协会(SAIA)主办的 2024 全球开发者先锋大会(2024 GDC)在上海举办。
好家伙,现在随便打开一个大模型应用,支持的文本都有那————么长。
Kimi的难题是商业模式,大厂的难题是获客。
上下文长度真的能形成护城河吗?
Kimi有多火爆?凭一己之力搅乱A股和大模型圈。Kimi概念股连日引爆资本市场,多个概念股随之涨停。在一片看好的态势中,谁都想来沾个边,据光锥智能不完全统计,目前,至少有包括读客文化、掌阅科技、万兴科技等在内的十家上市公司发布公告透露正在了解或接入了Kimi 智能助手。
“据我了解,国内多个一线大模型机构,都已经突破了兆级的长文本能力。”以上,是“2024全球开发者先锋大会”大模型前沿论坛会间隙,上海人工智能实验室领军科学家林达华与量子位的交谈剪影。
一直以来,我都习惯于用各种各样的外部工具辅助自己的科研全过程。从论文阅读、文献查找、公式理解,再到论文润色,AI工具都能在不同程度地帮上我。
Transformer的固定尺寸上下文使得GPT模型无法生成任意长的文本。在本文中,我们介绍了RECURRENTGPT,一个基于语言的模拟RNN中的递归机制。
来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。