AI资讯新闻榜单内容搜索-Transforme

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Transforme
一个「always」站在大模型技术C位的传奇男子

一个「always」站在大模型技术C位的传奇男子

一个「always」站在大模型技术C位的传奇男子

怎么老是你???(How old are you)尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后,有网友发现,其中提到的3-token因果卷积相关内容,沙哥等又早在三年前就有相关研究。这是最近网友不断对着Transformer八子之一的Noam Shazeer(为方便阅读,我们称他为沙哥)发出的灵魂疑问。

来自主题: AI资讯
8925 点击    2025-05-11 15:02
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025

上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025

上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025

在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。

来自主题: AI技术研报
7849 点击    2025-04-30 08:32
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5487 点击    2025-04-28 14:09
树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平

树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平

树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平

他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行,首批搭载Yan架构大模型的具身智能机器人也已经面世。当下AI算力竞赛愈演愈烈之际,他们的“低算力”“群体智能”之路正在获得更多关注。本期「大模型创新架构」主题访谈,量子位邀请到RockAI CEO刘凡平,聊聊他们选择非Transformer架构路线背后的故事,以及通过架构及算法创新实现AGI的技术愿景。

来自主题: AI资讯
7930 点击    2025-04-27 10:14
喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

AI虚拟人模型架构从CNN、GANs演进至Transformer+扩散模型,实现从单一面部驱动到半身/全身动态生成的跨越,口型同步与多模态协同表现显著提升。

来自主题: AI资讯
6980 点击    2025-04-23 15:17
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用

Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用

Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用

Transformer作者Ashish Vaswani团队重磅LLM研究!简单指令:「Wait,」就能有效激发LLM显式反思,表现堪比直接告知模型存在错误。

来自主题: AI技术研报
6928 点击    2025-04-23 10:47
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

来自主题: AI技术研报
7849 点击    2025-04-20 22:19