AI资讯新闻榜单内容搜索-eva

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板！香港科技大学唐靖团队、香港科技大学（深圳分校）胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1，精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样（4 NFE），便将组合式生成指标 GenEval 从 61% 飙升至 92%，

来自主题: AI技术研报

9706 点击 2026-04-10 08:35

首个用户生活「长程模拟器」来了！LifeSim 重新定义大模型个性化评测

来自复旦大学、上海创智学院的研究人员提出 LifeSim，一个面向个性化助手评测的长程用户生活模拟框架。LifeSim 同时建模用户内部认知过程与外部物理环境，生成连贯的生活轨迹、事件序列与多轮交互行为；在此基础上，研究团队进一步构建了 LifeSim-Eval，用于系统评测模型在长期个性化交互中的能力边界。

来自主题: AI技术研报

7607 点击 2026-04-06 10:20

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

智谱GLM-5.1，突然上线！别的没再多说，只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛，距全球最强编程模型Claude Opus 4.6，也就只有2.6分之差？？

来自主题: AI产品测评

8188 点击 2026-03-29 11:06

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报

8428 点击 2026-03-28 09:50

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

10014 点击 2026-02-22 11:17

能聊健康≠懂医疗：医疗AI助手爆火一年，“专业断层”比想象中大

基于真实居民健康档案构建的MedLLM-EHR-EVAL-V2评测集显示，星火医疗大模型在智能健康分析、报告解读、运动饮食建议、辅助诊疗、智能用药审核等关键任务上，得分均显著超越国内外主流大模型。

来自主题: AI资讯

9489 点击 2026-02-14 10:24

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

文本摘要作为自然语言处理（NLP）的核心任务，其质量评估通常需要兼顾一致性（Consistency）、连贯性（Coherence）、流畅性（Fluency）和相关性（Relevance）等多个维度。

来自主题: AI技术研报

9276 点击 2026-02-10 14:11

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

10852 点击 2026-02-05 13:50

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

来自主题: AI技术研报

8906 点击 2026-01-18 14:57

Anthropic发布万字长文：系统化评估 AI Agents 的工程方法

如果你在做 AI Agent 开发，大概率已经发现一件事： Agent 几乎是传统软件测试方法的反例。

来自主题: AI技术研报

10572 点击 2026-01-13 10:19

AI资讯新闻榜单内容搜索-eva

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

首个用户生活「长程模拟器」来了！LifeSim 重新定义大模型个性化评测

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

打破具身世界模型可执行性鸿沟 ！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

能聊健康≠懂医疗：医疗AI助手爆火一年，“专业断层”比想象中大

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

Anthropic发布万字长文：系统化评估 AI Agents 的工程方法

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来