AI资讯新闻榜单内容搜索-框架

二元成功率已经过时！PRM-as-a-Judge才是你需要的具身操作评测框架

随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务，传统以二元成功率为核心的评测方式开始暴露出明显局限。它能够回答 “任务是否完成”，却难以回答 “策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。

来自主题: AI技术研报

8922 点击 2026-04-14 14:57

模思智能完成亿元融资，上海国投、IDG、华为等联合投资

模思智能成立于2024年，位于上海徐汇区，由上海创智学院与复旦大学联合孵化，是国内少数完成“全模态基座模型能力闭环”的初创公司之一，致力于构建统一Token表达框架下的“情境智能”能力，推动Agent系统在真实世界中的自主交互与任务执行。

来自主题: AI资讯

10302 点击 2026-04-11 14:28

循环即实验室：八个AI自主研究系统横评

今天 Interesting Engineering++ 发了一篇长文，把这些系统放在同一个分析框架里做了横评，回答的就是这些问题。原文地址：interestingengineering.substack.com/p/the-loop-is-the-lab

来自主题: AI技术研报

9915 点击 2026-04-11 14:22

我，在支付宝“养龙虾”，看完账单破防了

近日，支付宝开始内测一款名为AClaw的“AI龙虾”小程序。如今，支付宝搜索“龙虾”，结果页除了满屏的外卖推荐，服务一栏里还会出现AClaw的身影。根据官方介绍，AClaw是一个基于当前热门AI Agent框架OpenClaw的Agent类应用。

来自主题: AI资讯

8044 点击 2026-04-11 09:31

SVG性能比肩GPT/Claude，腾讯开源3B模型HiVG，让Token「懂几何」

HiVG是一个面向SVG生成的层次化分词框架，在减少63.8% token数量的同时，以仅3B参数在多项指标上超越所有开源SVG模型和GPT-5.2等闭源模型。仅3B参数的HiVG，在SVG生成任务中多项指标超越了GPT-5.2、Claude-4.5-Sonnet等闭源模型。

来自主题: AI资讯

7751 点击 2026-04-10 16:04

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板！香港科技大学唐靖团队、香港科技大学（深圳分校）胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1，精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样（4 NFE），便将组合式生成指标 GenEval 从 61% 飙升至 92%，

来自主题: AI技术研报

9960 点击 2026-04-10 08:35

OpenClaw作者不想让你知道的3件事：Hermes Agent内置一键迁移命令，把35万Star对手的整套数据直接搬过来

我认真看 Hermes Agent，不是因为它2.9万Star，而是因为那条 hermes claw migrate。一个新框架敢把"把旧用户整套资产搬过来"做成默认入口，这事本身就很说明问题。

来自主题: AI技术研报

10377 点击 2026-04-09 10:18

小米AI语音新框架：人人都能当声音导演

语音合成大家都不陌生，这两年市面上各种AI配音也层出不穷。

来自主题: AI技术研报

10376 点击 2026-04-08 16:58

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR'26

生成式模型当检索器大材小用效果还不好？

来自主题: AI技术研报

9374 点击 2026-04-07 10:29

首个用户生活「长程模拟器」来了！LifeSim 重新定义大模型个性化评测

来自复旦大学、上海创智学院的研究人员提出 LifeSim，一个面向个性化助手评测的长程用户生活模拟框架。LifeSim 同时建模用户内部认知过程与外部物理环境，生成连贯的生活轨迹、事件序列与多轮交互行为；在此基础上，研究团队进一步构建了 LifeSim-Eval，用于系统评测模型在长期个性化交互中的能力边界。

来自主题: AI技术研报

7871 点击 2026-04-06 10:20