AI技术研报-这里有最前沿的人工智能技术解读

AI太强，验证码全失效？新南威尔士全新设计：GPT傻傻认不出，人类一致好评

新型验证码IllusionCAPTCHA，利用视觉错觉和诱导性提示，使AI难以识别，而人类用户能轻松通过。实验表明，该验证码能有效防御大模型攻击，同时提升用户体验，为验证码技术提供了新思路。

来自主题: AI技术研报

7585 点击 2025-02-13 15:45

DeepSeek R1不编程就能生成GPU内核，比熟练工程师好，惊到了英伟达

这项尝试只用到了 R1 模型和基本验证器，没有针对 R1 的工具，没有对专有的英伟达代码进行微调。其实根据 DeepSeek 介绍，R1 的编码能力不算顶尖。

来自主题: AI技术研报

8102 点击 2025-02-13 15:18

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

【新智元导读】仅凭测试时Scaling，1B模型竟完胜405B！多机构联手巧妙应用计算最优TTS策略，不仅0.5B模型在数学任务上碾压GPT-4o，7B模型更是力压o1、DeepSeek R1这样的顶尖选手。

来自主题: AI技术研报

8896 点击 2025-02-13 14:18

务实测试：DeepSeek 各家 API 真实速度（附：测试脚本）

我是先看到了一张极其意料之外的图。首先我要说除了DeepSeek 官方，其他家都很稳定（这里没有吐槽官方的意思，毕竟情况特殊）至少我没检测到超时或者断开。

来自主题: AI技术研报

11556 点击 2025-02-13 13:54

生成式AI管理者指南

在数字化浪潮中，生成式人工智能强势闯入管理领域。多数管理者期待它成为得力思维伙伴，却面临应用技能短板。如何跨越这道鸿沟，让AI为管理赋能？“协同思考”或许是解锁强大潜能的关键，带你一探究竟。

来自主题: AI技术研报

9644 点击 2025-02-13 13:43

o3拿下IOI 2024金牌！新论文公布RL秘诀：AI自己设计测试时推理策略，无需人类干预

IOI 2024金牌，OpenAI o3轻松高分拿下！

来自主题: AI技术研报

10076 点击 2025-02-13 10:11

小红书&上交多模态大模型新基准，Gemini 1.5 Pro准确率仅48%

多模态大模型理解真实世界的水平到底如何？

来自主题: AI技术研报

6364 点击 2025-02-13 09:49

小白就可以用deepseek-r1+dify结合联网搜索搭建AI产品

凌晨的时候，使用deepseek深度思考+联网搜索做了一个AI产品卡片，展示效果很惊艳，如下是做了几个关于AI教育智能硬件产品的特性图，放几个看看效果。我们需要深度思考+联网搜索的能力，需要根据关键词去检索到详细的信息源，因此联网搜索必不可少，然后根据如上搜索整合的信息让deepseek自适应地根据内容进行排版，选择不同地风格，呈现不同地样式。

来自主题: AI技术研报

13116 点击 2025-02-12 16:58

推理模型新路线开源！与DeepSeek截然不同，抛弃思维链不用人类语言思考

开源推理大模型新架构来了，采用与Deepseek-R1/OpenAI o1截然不同的路线：抛弃长思维链和人类的语言，直接在连续的高维潜空间用隐藏状态推理，可自适应地花费更多计算来思考更长时间。

来自主题: AI技术研报

7786 点击 2025-02-12 16:42

抛砖引玉 | 为什么DeepSeek-R1是推理模型？（万字长文）

这一篇文章来源于我自己的困惑而进行的探索和思考，再进行多次讨论后总觉隔靴搔痒，理解不透彻。而在我自己整理后，发现已经有小伙伴点明了他们的区别。但是因为了解深度的不够，即使告诉了答案，我也无法理解，总有隔靴搔痒之感。

来自主题: AI技术研报

10421 点击 2025-02-12 16:26

AI已学会自我复制！复旦新研究：开源LLM克隆成功率最高90%

复旦新研究揭示了AI系统自我复制的突破性进展，表明当前的LLM已具备在没有人类干预的情况下自我克隆的能力。这不仅是AI超越人类的一大步，也为「流氓AI」埋下了隐患，带来前所未有的安全风险。

来自主题: AI技术研报

7366 点击 2025-02-12 12:05

全球首个「视频教学」基准！南洋理工、CMU发布Video-MMMU

人类通过课堂学习知识，并在实践中不断应用与创新。那么，多模态大模型（LMMs）能通过观看视频实现「课堂学习」吗？新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集，为AI迈向更高效的知识获取与应用开辟了新路径。

来自主题: AI技术研报

7684 点击 2025-02-12 12:01

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

字节出了个全新架构，把推理成本给狠狠地打了下去！推理速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

来自主题: AI技术研报

8128 点击 2025-02-12 11:37

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。

来自主题: AI技术研报

7451 点击 2025-02-12 11:33

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

DeepSeek 在海内外搅起的惊涛巨浪，余波仍在汹涌。当中国大模型撕开硅谷的防线之后，在预设中总是落后半拍的中国 AI 军团，这次竟完成了一次反向技术输出，引发了全球范围内复现 DeepSeek 的热潮。

来自主题: AI技术研报

7797 点击 2025-02-11 14:52

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

近日，来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架，让大语言模型首次拥有了真正意义上的 ' 自卫能力 '，能够有效识别和抵御各类越狱攻击，同时保持极低的响应延迟。

来自主题: AI技术研报

6080 点击 2025-02-11 14:48

清华姚班校友等揭Transformer致命缺陷，OpenAI科学家紧急回应：学术界节奏太慢

一篇报道，在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板，却引来OpenAI研究科学家的紧急回应。谁能想到，一篇于2023年发表的LLM论文，竟然在一年半之后又「火」了。

来自主题: AI技术研报

7194 点击 2025-02-11 14:16

Meta新视频生成框架拿捏倒立杂技，双人舞也能完美同步！运动一致性暴增近20%，可无缝集成DiT模型

针对视频生成中的运动一致性难题，Meta GenAI团队提出了一个全新框架VideoJAM。VideoJAM基于主流的DiT路线，但和Sora等纯DiT模型相比，动态效果直接拉满：

来自主题: AI技术研报

10322 点击 2025-02-10 17:25

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

传统的偏好对⻬⽅法，如基于⼈类反馈的强化学习（RLHF）和直接偏好优化（DPO），依赖于训练过程中的模型参数更新，但在⾯对不断变化的数据和需求时，缺乏⾜够的灵活性来适应这些变化。

来自主题: AI技术研报

9057 点击 2025-02-10 17:19

人大刘勇团队「慢思考」机理分析：从雪球误差到正确推理概率

「慢思考」（Slow-Thinking），也被称为测试时扩展（Test-Time Scaling），成为提升 LLM 推理能力的新方向。近年来，OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等顶尖推理大模型的发布，进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。

来自主题: AI技术研报

6783 点击 2025-02-10 17:04

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报

9194 点击 2025-02-10 16:54

图像生成推理大模型，港中文北大等联手破解画质提升难题

图像生成模型，也用上思维链（CoT）了！此外，作者还提出了两种专门针对该任务的新型奖励模型——潜力评估奖励模型。（Potential Assessment Reward Model，PARM）及其增强版本PARM++。

来自主题: AI技术研报

7012 点击 2025-02-10 11:09

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

谷歌DeepMind最新数学AI，一举解决了2000-2024年IMO竞赛中84%的几何问题。AlphaGeometry2论文发布，在总共50道题中完成了42道，相比去年的一代多完成了15道。

来自主题: AI技术研报

8794 点击 2025-02-08 13:55

浙大&通义全面评测智能体复杂任务规划能力，18主流大模型全不及格｜ICLR2025

在处理这类复杂任务的过程中，大模型智能体将问题分解为可执行的工作流（Workflow）是关键的一步。然而，这一核心能力目前缺乏完善的评测基准。为解决上述问题，浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准，以及WorfEval——一套系统性评估协议，通过子序列和子图匹配算法精准量化大模型生成工作流的能力。

来自主题: AI技术研报

9162 点击 2025-02-08 13:19

DeepSeek R1 Zero中文复现教程来了！

各位同学好，我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论，我们（Datawhale X 似然实验室）使用 3 张 A800(80G) 计算卡，花了 20 小时训练时间，做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本，我们把它叫做 Datawhale-R1，用于 R1 Zero 复现教学。

来自主题: AI技术研报

10387 点击 2025-02-07 17:54

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

来自主题: AI技术研报

7937 点击 2025-02-07 16:53

将集体学习引入树搜索，新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型（MLLM）在简单任务上最近取得了显著进展，但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻：只有掌握推理过程的每一步，才能真正解决问题。然而，当前的 MLLM 更擅长直接生成简短的最终答案，缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM，以实现问题的深入理解与解决。

来自主题: AI技术研报

7634 点击 2025-02-07 16:16