AI资讯新闻榜单内容搜索-A

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。

来自主题: AI技术研报

11184 点击 2025-05-27 16:53

今年的4月26日，我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版，很多网友在线求苹果版链接。

来自主题: AI资讯

6458 点击 2025-05-27 16:48

自 2024 年 3 月 Devin 首次亮相以来，AI 编程世界的叙事就被彻底改写。这款由 Cognition 打造的“全自动 AI 软件工程师”，在短短数月内登上技术话题的C位：一段其独立修复开源 Bug 的演示视频在 X 平台播放量突破 3000 万，成为AI圈罕见的“破圈时刻”。

来自主题: AI资讯

11234 点击 2025-05-27 16:40

万万没想到，大厂程序员真要成流水线工人了。

来自主题: AI资讯

10199 点击 2025-05-27 16:26

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

11609 点击 2025-05-27 16:22

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

来自主题: AI技术研报

10620 点击 2025-05-27 16:13

作为首批入选印度“IndiaAI Mission”国家级项目、承担构建印度主权基础大模型任务的公司之一，Sarvam AI 近日发布了名为 Sarvam-M 的模型。这是一个基于 Mistral Small 构建的 240 亿参数、权重开放的混合语言模型。

来自主题: AI资讯

11851 点击 2025-05-27 14:44

刚刚，全新AI基准测试工具xbench诞生，通过双轨评估体系和长青评估机制，追踪模型能力与实际场景价值。

来自主题: AI技术研报

12062 点击 2025-05-27 14:04

“科技女皇”木头姐，再一次力挺AI医疗。

来自主题: AI资讯

9493 点击 2025-05-27 13:53

AI居然不听指令，阻止人类把自己给关机了？？？

来自主题: AI技术研报

10293 点击 2025-05-27 13:48