AI资讯新闻榜单内容搜索-端到端

MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070即可实时运行

你有没有想过，不用联网、仅用一张消费级显卡，就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手？这就是 MiniCPM-o 4.5 所能做到的。在技术创新下，它仅凭 9B 参数，实现了业界首个端到端全双工全模态大模型，让端侧 AI 普惠成为现实。其自 2026 年 2 月模型发布以来，在 Hugging Face 上的下载量已突破 25 万+。

来自主题: AI技术研报

7203 点击 2026-04-28 13:15

CVPR 2026 | 告别倾听「扑克脸」，UniLS框架来了，刷新数字人对话SOTA

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中，倾听时的 “扑克脸” 问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步，但倾听时却表情僵硬、毫无反应，严重影响对话的自然感和沉浸感。盛大 AI 研究院（东京）与东京大学联合提出 UniLS（Unified Listening and Speaking），首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。

来自主题: AI技术研报

9803 点击 2026-04-24 09:15

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

今天，来自ZJU-REAL的团队带来了ClawGUI，一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接，而是一条打通的流水线：用ClawGUI-RL训练，用ClawGUI-Eval评测，用OpenClaw-GUI部署，端到端验证。

来自主题: AI技术研报

8064 点击 2026-04-19 13:33

斯坦福MIT联合发布Meta-Harness，Agent端到端自己优化自己，Dspy一作Omar参与研究

去年讨论Agent落地时，重点往往是Context Engineering。大家都在琢磨怎么放 Few-shot，怎么优化 RAG 检索的文本片段。但随着 Agent 任务复杂度的上升，控制数据流向、工具调度和异常处理的底层脚手架代码，往往比单纯拼接文本对系统性能的影响更大。

来自主题: AI技术研报

8451 点击 2026-04-03 09:26

ICRA 2026 | NUS邵林团队提出Goal-VLA：生成式大模型化身「世界模型」，实现零样本机器人操作

在具身智能领域，机器人操作的泛化能力一直是一个核心挑战。当前，视觉 - 语言 - 动作（VLA）模型主要分为两大范式：端到端模型与分层模型。端到端 VLA 模型（如 RT-2 [1], OpenVLA [2]）严重依赖海量的 “指令 - 视觉 - 动作” 成对数据，获取成本极高，导致其在面对新任务或新场景时零样本泛化能力受限。

来自主题: AI技术研报

6390 点击 2026-03-30 15:00

龙虾也能养龙虾！UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI MLE-Bench测试中，AIBuildAI以63.1%的获奖率位居第一，性能媲美人类专家，推动AI开发迈向全自动化新时代。

来自主题: AI技术研报

7620 点击 2026-03-24 10:00

突破一亿Token极限：EverMind提出MSA架构，实现大模型高效端到端长时记忆

人的智能能力主要由推理能力和长期记忆能力构成。近年来，大模型的推理能力一直处于快速发展过程，但大模型的长期记忆能力一直受限于上下文长度，无法取得突破。在历史上，曾经有多种路线进行尝试，但都无法突破扩展性（Scalability）、精度（Precision）和效率（Efficiency）的不可能三角。

来自主题: AI技术研报

10074 点击 2026-03-19 17:02