AI资讯新闻榜单内容搜索-数据集

免剪辑直出！AI生成多角色同框对话视频，动态路由精准绑定音频

Bind-Your-Avatar是一个基于扩散Transformer（MM-DiT）的框架，通过细粒度嵌入路由将语音与角色绑定，实现精准的音画同步，并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试，实验表明其在身份保真和音画同步上优于现有方法。

来自主题: AI技术研报

8402 点击 2025-07-18 11:44

全球首个亚洲人脸超大规模数据集发布：让AI终于“认识”亚洲面孔

近日，ICCV 2025（国际计算机视觉大会）公布论文录用结果，理想汽车共有 8 篇论文入选，其中 3 篇来自基座模型团队。

来自主题: AI技术研报

10223 点击 2025-07-17 12:12

斯坦福Arc Tahoe-100M虚拟细胞团队专访：AI制药的壁垒不是"模型"？而是高质量、亿级规模的数据集

Vevo Therapeutics（现为Tahoe）与Arc研究所，两家分别在生物技术商业转化和非营利性基础研究领域领先的机构，于2025年2月联合发布了一项里程碑式的成果：全球最大的单细胞药物扰动数据集Tahoe-100M。

来自主题: AI资讯

9636 点击 2025-07-14 12:57

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校（UC Riverside）、密歇根大学（University of Michigan）、威斯康星大学麦迪逊分校（University of Wisconsin–Madison）、德州农工大学（Texas A&M University）的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。

来自主题: AI技术研报

9870 点击 2025-07-10 10:39

多模态模型学会“按需搜索”，少搜30%还更准！字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”！字节&NTU最新研究，优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制，首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报

8532 点击 2025-07-09 10:35

750城市+5000小时第一人称视频，上海AI Lab开源面向世界探索高质量视频数据集

现在，国内研究机构就从数据基石的角度出发，拿出了还原真实动态世界的新进展：上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构聚焦世界生成的第一步——世界探索，联合推出一个持续迭代的高质量视频数据集项目——Sekai（日语意为“世界”），服务于交互式视频生成、视觉导航、视频理解等任务，旨在利用图像、文本或视频构建一个动态且真实的世界，可供用户不受限制进行交互探索。

来自主题: AI技术研报

8647 点击 2025-07-07 11:22