AI资讯新闻榜单内容搜索-训练

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

仅需简单提示，满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。

来自主题: AI技术研报

5847 点击 2025-02-20 14:25

本周二，美国特拉华州地方法院对“汤森路透”诉法律AI公司Ross Intelligence版权侵权诉讼作出部分简易判决”，汤森路透赢得美国首例AI训练版权诉讼，本案主要情况如下：

来自主题: AI资讯

7193 点击 2025-02-20 14:00

Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。

来自主题: AI技术研报

3917 点击 2025-02-20 10:29

在马斯克发布了他用20万张卡训出的Grok3的同一天，两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。在这两篇论文的作者名目里，各自有一个大家熟悉的名字：梁文锋，杨植麟。

来自主题: AI资讯

8052 点击 2025-02-19 22:23

DeepSeek热潮将在预训练、后训练（二次训练）和推理三大细分市场都带来巨大改变。

来自主题: AI资讯

6898 点击 2025-02-19 14:50

DeepSeek新注意力机制论文一出，再次引爆讨论热度。

来自主题: AI技术研报

6116 点击 2025-02-19 14:38

过去一年，3D 生成技术迎来爆发式增长。在大场景生成领域，涌现出一批 “静态大场景生成” 工作，如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。

来自主题: AI技术研报

5071 点击 2025-02-19 14:23

“凡我无法创造的，我就无法真正理解。” -- 费曼

来自主题: AI技术研报

6397 点击 2025-02-19 14:14

离开OpenAI后，他们俩把ChatGPT后训练方法做成了PPT，还公开了～

来自主题: AI资讯

2762 点击 2025-02-19 11:06

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

7347 点击 2025-02-19 10:02