AI资讯新闻榜单内容搜索-模型

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

开源推理大模型新架构来了，采用与Deepseek-R1/OpenAI o1截然不同的路线：抛弃长思维链和人类的语言，直接在连续的高维潜空间用隐藏状态推理，可自适应地花费更多计算来思考更长时间。

来自主题: AI技术研报

7711 点击 2025-02-12 16:42

抛砖引玉 | 为什么DeepSeek-R1是推理模型？（万字长文）

这一篇文章来源于我自己的困惑而进行的探索和思考，再进行多次讨论后总觉隔靴搔痒，理解不透彻。而在我自己整理后，发现已经有小伙伴点明了他们的区别。但是因为了解深度的不够，即使告诉了答案，我也无法理解，总有隔靴搔痒之感。

来自主题: AI技术研报

10274 点击 2025-02-12 16:26

AI已学会自我复制！复旦新研究：开源LLM克隆成功率最高90%

复旦新研究揭示了AI系统自我复制的突破性进展，表明当前的LLM已具备在没有人类干预的情况下自我克隆的能力。这不仅是AI超越人类的一大步，也为「流氓AI」埋下了隐患，带来前所未有的安全风险。

来自主题: AI技术研报

7304 点击 2025-02-12 12:05

全球首个「视频教学」基准！南洋理工、CMU发布Video-MMMU

人类通过课堂学习知识，并在实践中不断应用与创新。那么，多模态大模型（LMMs）能通过观看视频实现「课堂学习」吗？新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集，为AI迈向更高效的知识获取与应用开辟了新路径。

来自主题: AI技术研报

7601 点击 2025-02-12 12:01

爆火的DeepSeek，能否破解中国AI的「旧烦恼」

DeepSeek的爆火，让AI大模型在新一年的开年，又一次引起了全球的关注。然而，时至今日全球AI领域还没有完全消化DeepSeek带来的实质影响——这样的模式将给全球、给中国AI领域带来什么样的变局？

来自主题: AI资讯

7048 点击 2025-02-12 11:47

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

字节出了个全新架构，把推理成本给狠狠地打了下去！推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

来自主题: AI技术研报

8042 点击 2025-02-12 11:37

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。

来自主题: AI技术研报

7376 点击 2025-02-12 11:33