
简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理
简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。
仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。
本周二,美国特拉华州地方法院对“汤森路透”诉法律AI公司Ross Intelligence版权侵权诉讼作出部分简易判决”,汤森路透赢得美国首例AI训练版权诉讼,本案主要情况如下:
Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。
在马斯克发布了他用20万张卡训出的Grok3的同一天,两篇与马氏大力出奇迹“相反”路线的论文也发表在了技术社区。在这两篇论文的作者名目里,各自有一个大家熟悉的名字:梁文锋,杨植麟。
DeepSeek热潮将在预训练、后训练(二次训练)和推理三大细分市场都带来巨大改变。
DeepSeek新注意力机制论文一出,再次引爆讨论热度。
过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。
“凡我无法创造的,我就无法真正理解。” -- 费曼
离开OpenAI后,他们俩把ChatGPT后训练方法做成了PPT,还公开了~
Transformer 架构在过去几年中通过注意力机制在多个领域(如计算机视觉、自然语言处理和长序列任务)中取得了非凡的成就。然而,其核心组件「自注意力机制」 的计算复杂度随输入 token 数量呈二次方增长,导致资源消耗巨大,难以扩展到更长的序列或更大的模型。