AI资讯新闻榜单内容搜索-OCR

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9633 点击 2025-11-01 09:23

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对于Mac用户来说，在许多新模型诞生的第一时间，往往只能望“模”兴叹。

来自主题: AI技术研报

9281 点击 2025-10-29 17:10

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

来自主题: AI技术研报

9543 点击 2025-10-28 14:28

死磕「文本智能」，多模态研究的下一个前沿

dots.ocr 支持多语言文档的解析，能够在单一模型中统一完成版面检测、文本识别、表格解析、公式提取等任务，并保持良好的阅读顺序。他们之所以在一个模型中完成这些任务，是因为他们相信这些任务之间可以相互促进，为彼此提供更多的 context，从而达到更高的性能上限。目前，该项目的 star 量已经超过了 5000。

来自主题: AI资讯

9251 点击 2025-10-25 10:41

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

来自主题: AI技术研报

8407 点击 2025-10-24 16:45

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型。

整个Hugging Face的趋势版里，前4有3个OCR，甚至Qwen3-VL-8B也能干OCR的活，说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里，有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比，也有很多人都在问，能不能再解读一下百度那个OCR模型（也就是PaddleOCR-VL）。

来自主题: AI资讯

11230 点击 2025-10-23 10:58