AI资讯新闻榜单内容搜索-OCR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OCR
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

太卷了,DeepSeek-OCR刚发布不到一天,智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒,那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下:

来自主题: AI技术研报
7854 点击    2025-10-22 23:58
文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

AI新突破!DeepSeek-OCR以像素处理文本,压缩率小于1/10,基准测试领跑。开源一夜4.4k星,Karpathy技痒难耐,展望视觉输入的通用性。

来自主题: AI技术研报
6623 点击    2025-10-21 16:48
DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

刚刚,DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。 该模型最大的突破在于极高的压缩效率: 20 个节点每天可处理 3300 万页数据,硬件要求仅为 A100-40G。

来自主题: AI资讯
11078 点击    2025-10-20 16:30
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

百度登顶全球第一!最新模型「PaddleOCR-VL」以0.9B参数量,在全球权威榜单OmniDocBench V1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。

来自主题: AI资讯
7964 点击    2025-10-17 21:46
拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资;Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元;Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元。

来自主题: AI资讯
10095 点击    2025-10-09 20:05
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报
8262 点击    2025-09-30 10:45
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
7628 点击    2025-09-24 10:52
刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。

来自主题: AI技术研报
8174 点击    2025-08-27 13:05
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
9646 点击    2025-08-26 23:30