AI资讯新闻榜单内容搜索-R1

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

7683 点击 2025-07-09 10:35

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

在互联网信息检索任务中，即使是很强的LLM，有时也会陷入“信息迷雾”之中：当问题简单、路径明确时，模型往往能利用记忆或一两次搜索就找到答案；但面对高度不确定、线索模糊的问题，模型就很难做对。

来自主题: AI技术研报

7825 点击 2025-07-08 11:05

OAI/谷歌/DeepSeek首次合体「AI梦之队」！战力飙升30%，碾压一切单模型

三个前沿AI能融合成AGI吗？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型，在推理过程中动态协作，通过试错优化生成过程，有效融合群体AI智慧。

来自主题: AI技术研报

8907 点击 2025-07-06 13:06

Jack Clark: 美国 AI 政策的隐形推手，时代的良心还是囚徒？

Jack Clark 是最关注和熟悉中国在芯片、计算和模型上进展的 AI Lab 领导人之一。他毫不吝啬对中国 AI 进展的认可，将 DeepSeek R1 视作“推理模型大范围扩散”的起点，近期又把 HyperHetero 使用的异构集群叫做通过“超级智能进行持续自我训练”的垫脚石。

来自主题: AI资讯

7846 点击 2025-07-05 19:50

新天终启，万象智生——万年奇点时刻，谁将引爆中国ASI？

2025年，AI界风云激荡，DeepSeek-R1横空出世、英伟达市值称霸全球、谷歌AlphaEvolve打破数学神话，中国Qwen3登顶开源王座……智能爆炸的奇点已悄然降临！新智元十周年之际，2025 AI Era & ASI创新大奖报名正式启动，致敬重塑世界的AI先锋！

来自主题: AI资讯

7694 点击 2025-07-05 13:20

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9151 点击 2025-07-04 22:18

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

8582 点击 2025-07-04 09:44