AI资讯新闻榜单内容搜索-R1

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

9406 点击 2025-07-17 11:24

DeepSeek-R1超级外挂！“人类最后的考试”首次突破30分，上海交大等开源方案碾压OpenAI、谷歌

“人类最后的考试”首次突破30分，还是咱国内团队干的！该测试集是出了名的超难，刚推出时无模型得分能超过10分。

来自主题: AI技术研报

10399 点击 2025-07-10 11:21

昆仑万维开源最强多模态推理模型！性能逼近人类专家，还超了OpenAI、Anthropic

今日，昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0，这是其迄今最强多模态推理模型，参数规模为38B，在多个多模态推理基准测试中取得了开源最佳（SOTA）性能。

来自主题: AI资讯

11898 点击 2025-07-09 21:42

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

8434 点击 2025-07-09 10:35

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

在互联网信息检索任务中，即使是很强的LLM，有时也会陷入“信息迷雾”之中：当问题简单、路径明确时，模型往往能利用记忆或一两次搜索就找到答案；但面对高度不确定、线索模糊的问题，模型就很难做对。

来自主题: AI技术研报

8612 点击 2025-07-08 11:05

OAI/谷歌/DeepSeek首次合体「AI梦之队」！战力飙升30%，碾压一切单模型

三个前沿AI能融合成AGI吗？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型，在推理过程中动态协作，通过试错优化生成过程，有效融合群体AI智慧。

来自主题: AI技术研报

9767 点击 2025-07-06 13:06

Jack Clark: 美国 AI 政策的隐形推手，时代的良心还是囚徒？

Jack Clark 是最关注和熟悉中国在芯片、计算和模型上进展的 AI Lab 领导人之一。他毫不吝啬对中国 AI 进展的认可，将 DeepSeek R1 视作“推理模型大范围扩散”的起点，近期又把 HyperHetero 使用的异构集群叫做通过“超级智能进行持续自我训练”的垫脚石。

来自主题: AI资讯

8559 点击 2025-07-05 19:50

新天终启，万象智生——万年奇点时刻，谁将引爆中国ASI？

2025年，AI界风云激荡，DeepSeek-R1横空出世、英伟达市值称霸全球、谷歌AlphaEvolve打破数学神话，中国Qwen3登顶开源王座……智能爆炸的奇点已悄然降临！新智元十周年之际，2025 AI Era & ASI创新大奖报名正式启动，致敬重塑世界的AI先锋！

来自主题: AI资讯

8543 点击 2025-07-05 13:20

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9951 点击 2025-07-04 22:18

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

9529 点击 2025-07-04 09:44