AI资讯新闻榜单内容搜索-OCR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OCR
文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

AI新突破!DeepSeek-OCR以像素处理文本,压缩率小于1/10,基准测试领跑。开源一夜4.4k星,Karpathy技痒难耐,展望视觉输入的通用性。

来自主题: AI技术研报
7169 点击    2025-10-21 16:48
DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

DeepSeek 再开源:发布 3B MoE OCR 模型,视觉压缩高达20倍

刚刚,DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。 该模型最大的突破在于极高的压缩效率: 20 个节点每天可处理 3300 万页数据,硬件要求仅为 A100-40G。

来自主题: AI资讯
11748 点击    2025-10-20 16:30
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

百度登顶全球第一!最新模型「PaddleOCR-VL」以0.9B参数量,在全球权威榜单OmniDocBench V1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。

来自主题: AI资讯
8689 点击    2025-10-17 21:46
拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资;Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元;Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元。

来自主题: AI资讯
10896 点击    2025-10-09 20:05
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报
8921 点击    2025-09-30 10:45
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
8141 点击    2025-09-24 10:52
刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。

来自主题: AI技术研报
8694 点击    2025-08-27 13:05
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
10192 点击    2025-08-26 23:30
首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research智能体,超越多个闭源方案

首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决策,使模型在任务中能自主选择合适的工具组合和推理路径。

来自主题: AI资讯
7653 点击    2025-08-15 20:26
科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

来自主题: AI技术研报
7125 点击    2025-08-06 12:56