Mistral AI,这家来自法国的 AI 公司,他们曾经发布过首个开源 MoE 模型,成立于 2023 年 4 月,创始人曾经在 Google 和 Meta 任职。国内的用户不怎么关注 Mistral,但这家公司,绝对是世界大模型舞台上的有力竞争者。如果 DeepSeek 代表中国的创新,那 Mistral 则代表着欧洲。
今天,他们自称发布了世界上最好的 OCR API,它能够将复杂的 PDF 文件转换为文本文件,以便 AI 模型处理。现在,所有大模型的输入端格式都是文本,或者规整的、容易识别的文本文件,但这个世界上,还有很多文件是粗糙的,不规整的,难以识别的,它需要依赖强大的 OCR 功能才能转换为文本。
与大多数 OCR API 不同,Mistral OCR 是一种多模态 API,这意味着它可以检测文本块中是否混杂有插图和照片。该 OCR API 会在这些图形元素周围创建边界框,并将它们包含在输出中。先放一个官方的演示视频,Mistral OCR 能够把一个图文混排的 PDF 文件,输出为格式规则的 Markdown 文件。
为何要花如此多精力做 OCR?
Mistral 的解释是:纵观历史,信息的抽象与检索技术的进步推动着人类文明前行。从古埃及的象形文字到纸莎草纸,从古腾堡印刷机到当今的数字化浪潮,每一次跨越都让知识更具活力、更易获取,为人类的持续创新注入动力。
今天,我们正处于下一个重大飞跃的边缘,以解锁所有数字化信息的集体智慧。世界上大约 90% 的组织数据都以文档形式存储,为了充分利用这一潜力,所以他们推出了 Mistral OCR。
与其它模型不同,Mistral OCR 能够以前所未有的准确性和认知能力理解文档中的每一个元素——媒体、文本、表格、方程式。它以图像和 PDF 文件作为输入,并提取内容为有序的交错文本和图像。Mistral OCR 可以和 RAG 系统结合,RAG 系统基于 Mistral OCR 的能力,能把多模态文档(如幻灯片或复杂的 PDF)作为输入。
下图是官方的测评数据,对比 GPT、Google、Azure 的同类服务,Mistral OCR 都实现了碾压式超越。
这种优势是全方位的。它不仅仅可以识别文字、图片,而且还有复杂的数学公式,以及全世界不同的语言。下面是他们对多语言的测试。其中,中文的效果同样好于 Google 和 Azure。可惜的是,没有和国内的 API 做对比。
演示看起来很酷:
几十年来,OCR 技术在自动化数据提取和文档数字化方面发挥了重要作用。第一台商业 OCR 机器是由 David Shepard 和他的同事 Harvey 以及 William Lawless Jr.在 20 世纪 50 年代开发的,他们成立了智能机器研究公司(IMR)将这项技术推向市场。
1959 年,IBM 授权 IMR 的专利,并推出了自己的光学字符识别机,正式将术语 OCR 作为行业标准。近些年来,随着机器学习和深度学习的发展,OCR 技术的准确性得到了显著提高,也许 Mistral OCR 代表这一技术演变的下一步,利用 AI 来增强文档理解,而不仅仅是简单的文本识别。
Mistral OCR 功能现在已经可以在他们的应用 Le Chat 上免费试用。不过,有用户做了测评,表示存在不小的幻觉。我尝试给了一个中国的繁体字,内容画面不算清晰,它基本识别不出来。
希望 Mistral 开启的是新一轮 OCR 的迭代。好多老书老资料,甚至碑文图片,都需要更好的 OCR 能力。AI 在这方面,应该更擅长。
体验 Mistral OCRMistral OCR 的功能可以在https://chat.mistral.ai/chat上免费试用。
想要体验 API 的用户,可以访问http://console.mistral.ai/
参考:https://mistral.ai/news/mistral-ocr
文章来自微信公众号 “ AI产品阿颖 ”,作者 Jet
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI