AI资讯新闻榜单内容搜索-数据集

Z Tech｜ICLR 2026字节发布：从短句到篇章，DiscoX为长文翻译提供评测新范式

DiscoX构建了一套200题的长文翻译数据集，以平均长度1,712 tokens的长篇章做评测单元，要求整个长文文本作为一个整体来翻译，除翻译准确度外，重点考察跨段落的逻辑与风格一致性、上下文中的术语精确性、以及专业写作规范，贴合用户真实的使用场景。

来自主题: AI技术研报

10972 点击 2026-02-13 11:03

来自上海交通大学、清华大学、微软研究院、麻省理工学院（MIT）、上海 AI Lab、小红书、阿里巴巴、港科大（广州）等机构的研究团队，系统梳理了近年来大语言模型在数据准备流程中的角色变化，试图回答一个业界关心的问题：LLM 能否成为下一代数据管道的「智能语义中枢」，彻底重构数据准备的范式？

来自主题: AI技术研报

8858 点击 2026-02-09 11:12

机器人领域是我们长期关注的赛道，而 Generalist 是当前机器人领域中极少数具备长期竞争潜力的公司，核心优势集中在数据规模、团队能力与清晰的 scaling 路径上。

来自主题: AI资讯

8630 点击 2026-01-30 10:36

为什么让多模态大模型“一步一步思考”（”Let’s think step by step”）来回答视频问题，效果有时甚至还不如让它“直接回答”？

来自主题: AI技术研报

9528 点击 2026-01-30 09:56

视觉模型用于工业“缺陷检测”等领域已经相对成熟，但当前普遍使用的传统模型在训练时对数据要求较高，需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报

8939 点击 2026-01-19 15:13

Deepmind推出的SIMA 2，让智能体能在虚拟环境（商业游戏）中，边聊天边进行复杂的多模态推理。作为具身通用智能的原型，SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报

8433 点击 2026-01-12 10:00

想象一下，你正在训练一个未来的家庭机器人。你希望它能像人一样，轻松地叠好一件衬衫，整理杂乱的桌面，甚至系好一双鞋的鞋带。但最大的瓶颈是什么？不是算法，不是硬件，而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报

10855 点击 2026-01-07 10:16

近日，多模态视频理解领域迎来重磅更新！由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布，并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报

10323 点击 2025-12-29 09:07

科技赛道从不缺“造梦者”，但能精准击中行业痛点的“破局者”往往寥寥。

来自主题: AI技术研报

7471 点击 2025-12-18 16:24

作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M，共包含 3M 样本对，分为空间对齐和非空间对齐 2 大类别共 8 小类别。

来自主题: AI技术研报

7807 点击 2025-12-17 09:22