AI资讯新闻榜单内容搜索-数据集

真实场景文档理解：字节发布的WildDoc基准数据集向OCR提出了什么挑战？

最近，字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。

来自主题: AI资讯

10043 点击 2025-06-11 14:54

103K「硬核」题，让大模型突破数学推理瓶颈

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报

8300 点击 2025-06-11 14:50

8个数据集全面胜出！思维链推理刷新图学习表现上限

图神经网络还能更聪明？思维链提示学习来了！

来自主题: AI技术研报

5993 点击 2025-06-08 15:17

Perplexity AI 推出 SEC 数据集成，助力投资者轻松获取财务信息

AI 搜索引擎初创公司 Perplexity AI 本周四宣布推出 SEC（证券交易）文件访问功能，旨在使复杂的财务数据变得更易于理解，适合从学生到顾问、再到日间交易者等各类投资者。

来自主题: AI资讯

6569 点击 2025-06-07 15:13

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

在多智能体AI系统中，一旦任务失败，开发者常陷入「谁错了、错在哪」的谜团。PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」，发布Who&When数据集，探索三种归因方法，揭示该问题的复杂性与挑战性。

来自主题: AI技术研报

9088 点击 2025-06-03 10:25

360开源高质量图文对齐数据集！收纳1200万张图像+1000万组细粒度负样本，让模型告别“图文不符”

如何让CLIP模型更关注细粒度特征学习，避免“近视”？360人工智能研究团队提出了FG-CLIP，可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述，而不是更全局但是错误的描述。

来自主题: AI技术研报

7910 点击 2025-06-02 15:17

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

为提升大模型“推理+搜索”能力，阿里通义实验室出手了。

来自主题: AI技术研报

7265 点击 2025-05-31 16:19

Qwen3-0.6B 能击败 Bert 吗？

新增 Qwen3-0.6B 在 Ag_news 数据集 Zero-Shot 的效果。新增 Qwen3-0.6B 线性层分类方法的效果。

来自主题: AI技术研报

8171 点击 2025-05-26 10:14

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

理想中的多模态大模型应该是什么样？十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集，用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足，且多数通用模型未能超越专家模型，真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报

8161 点击 2025-05-19 17:08

谢赛宁等推出统一多模态模型！替代VAE实现图像理解/生成双SOTA，代码权重数据集全开源

统一图像理解和生成，还实现了新SOTA。

来自主题: AI技术研报

7927 点击 2025-05-17 16:35