AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍

新年伊始,MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L. Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language Models》的论文,提出了所谓“递归语言模型”(Recursive Language Models,简称 RLM)的推理策略。

来自主题: AI技术研报
6470 点击    2026-01-04 14:51
继2025推理模型之后,2026「递归模型」RLM要火了。

继2025推理模型之后,2026「递归模型」RLM要火了。

继2025推理模型之后,2026「递归模型」RLM要火了。

2025年的最后一天, MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口(Context Window),试图将窗口拉长到100万甚至1000万token时,这篇论文却冷静地指出了一个被忽视的真相:这就好比试图通过背诵整本百科全书来回答一个复杂问题,既昂贵又低效。

来自主题: AI技术研报
5869 点击    2026-01-04 11:43
ControlNet作者张吕敏最新论文:长视频也能实现超短上下文

ControlNet作者张吕敏最新论文:长视频也能实现超短上下文

ControlNet作者张吕敏最新论文:长视频也能实现超短上下文

大部分的高质量视频生成模型,都只能生成上限约15秒的视频。清晰度提高之后,生成的视频时长还会再一次缩短。

来自主题: AI技术研报
9169 点击    2026-01-04 11:38
信息论证明,小模型跑在本地才是Agent的终极解法|斯坦福重磅

信息论证明,小模型跑在本地才是Agent的终极解法|斯坦福重磅

信息论证明,小模型跑在本地才是Agent的终极解法|斯坦福重磅

在近一年里,Agentic System(代理系统/智能体系统)正变得无处不在。从Open AI的Deep Research到Claude Code,我们看到越来越多的系统不再依赖单一模型,而是通过多模型协作来完成复杂的长窗口任务。

来自主题: AI技术研报
8568 点击    2026-01-04 10:20
比 JSON 省一半钱的格式,为什么大厂不敢用?

比 JSON 省一半钱的格式,为什么大厂不敢用?

比 JSON 省一半钱的格式,为什么大厂不敢用?

最近在研究 RAG 系统优化的时候,发现了一个有意思的格式叫 TOON。全称是 Token-Oriented Object Notation,翻译过来就是面向 Token 的对象表示法。

来自主题: AI技术研报
8643 点击    2026-01-03 14:02
LeCun在Meta还有论文:JEPA物理规划的「终极指南」

LeCun在Meta还有论文:JEPA物理规划的「终极指南」

LeCun在Meta还有论文:JEPA物理规划的「终极指南」

真正的挑战在于,如何在错综复杂的原始视觉输入中提取抽象精髓。这便引出了本研究的主角:JEPA-WM(联合嵌入预测世界模型)。从名字也能看出来,这个模型与 Yann LeCun 的 JEPA(联合嵌入预测架构)紧密相关。事实上也确实如此,并且 Yann LeCun 本人也是该论文的作者之一。

来自主题: AI技术研报
5500 点击    2026-01-03 14:00
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

近日,腾讯微信 AI 团队提出了 WeDLM(WeChat Diffusion Language Model),这是首个在工业级推理引擎(vLLM)优化条件下,推理速度超越同等 AR 模型的扩散语言模型。

来自主题: AI技术研报
9486 点击    2026-01-03 13:56
系统学习Deep Research,这一篇综述就够了

系统学习Deep Research,这一篇综述就够了

系统学习Deep Research,这一篇综述就够了

近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的 “一次检索 + 一次生成” 范式,难以支撑多步推理与长期

来自主题: AI技术研报
7294 点击    2026-01-02 15:01