AI资讯新闻榜单内容搜索-视觉基准

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

多模态大模型在代码能力上进步惊人，但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision，让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报

9927 点击 2026-03-16 14:25

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

6376 点击 2026-01-06 09:30

2025年了，AI还看不懂时钟！90%人都能答对，顶尖AI全军覆没

一般人准确率89.1%，AI最好只有13.3%。在新视觉基准ClockBench上，读模拟时钟这道「小学题」，把11个大模型难住了。为什么AI还是读不准表？是测试有问题还是AI真不行？

来自主题: AI资讯

8125 点击 2025-09-09 17:24