AI资讯新闻榜单内容搜索-模型

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA（问题增强）引入了一种方法，用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示，QuestA 实现两项重大成果

来自主题: AI技术研报

8844 点击 2025-10-06 13:54

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型，推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介，易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive（FutureSightDrive）提出 “时空视觉 CoT”（Spatio-Temporal Chain-of-Thought），让模型直接 “以图思考”，用统一的未来图像帧作为中间推理步骤，联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报

8406 点击 2025-10-06 13:42

Jina官方MCP三板斧：搜、读、筛

模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具，将他们串成一个完整的工作流，从而实现自主规划、推理与执行。上个月我们悄悄发布

来自主题: AI技术研报

10041 点击 2025-10-06 13:23

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

近年来，以强化学习为核心的训练方法显著提升了大语言模型（Large Language Models, LLMs）的推理能力与对齐性能，尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述，但其涵盖范围较为有限，未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报

7801 点击 2025-10-06 13:22

刚刚，全球AI生图新王诞生！腾讯混元图像3.0登顶了

全球文生图大模型王座，易主了。就在刚刚，LMArena竞技场发布了最新的文生图榜单，第一名来自中国，属于腾讯混元图像3.0！不仅超越了谷歌的Nano Banana，也超越了字节的Seedream和OpenAI的gpt-Image，在全球26个大模型中稳居第一。

来自主题: AI资讯

10187 点击 2025-10-05 21:36

你敢信？GPT-5的电脑操作水平只比人类低2%了

Agent（智能体）是最近一段时间的人工智能热点之一，将大语言模型的能力与工具调用、环境交互和自主规划结合起来，使其能够像虚拟助理一样完成复杂任务。其中「计算机使用智能

来自主题: AI技术研报

9463 点击 2025-10-05 21:34

华人主导谷歌SLED，论文登顶会！一键让模型学会自救

大模型最让人头疼的毛病，就是一本正经地「瞎编」。过去，只能靠检索补丁或额外训练来修。可在NeurIPS 2024 上，谷歌抛出的新方法SLED却告诉我们：模型其实知道，只是最后一步忘了。如果把每一层的「声音」都纳入考量，它就能从幻觉中被拉回到事实。

来自主题: AI技术研报

7721 点击 2025-10-03 15:43

NIPS 2025 Spotlight | 港大提出TreeSynth方法，一句话生成百万规模数据集

“TreeSynth” 就这样起源于作者们最初的构想：“如何通过一句任务描述生成海量数据，完成模型训练？” 同时，大规模 scalibility 对合成数据的多样性提出了新的要求。

来自主题: AI技术研报

8662 点击 2025-10-03 14:45

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

多模态大模型需要干的活，已经从最初的文生图，扩展到了像素级任务（图像分割）。

来自主题: AI技术研报

7927 点击 2025-10-03 14:40

100 页 Agentic RL 综述！牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校，伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者，共同撰写并发布了长达百页的综述：《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报

8945 点击 2025-10-03 14:15