
通用端到端OCR模型开源,拒绝多模态大模型降维打击
通用端到端OCR模型开源,拒绝多模态大模型降维打击在AI-2.0时代,OCR模型的研究难道到头了吗!?
在AI-2.0时代,OCR模型的研究难道到头了吗!?
本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。
视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。
在"无人泊车show挑战"环节,64辆小鹏汽车实现了车辆离人自动泊车;在"编队相互绕行挑战"中,6辆小鹏G9以8分57秒创造了AI智驾“语音操控6辆汽车轮流绕桩时间最快”吉尼斯世界纪录荣誉。
大力投入了,商业还在等待出奇迹。
端到端是不是被“神话”了。
7月27号,蔚来举办了一场技术发布会,有芯片亮相,也有整车操作系统发布,有Nio Phone的正式上市,也有智能驾驶世界模型NWM的展示。发布会后的第二天,虎嗅汽车来到蔚来位于上海漕河泾的办公室,和蔚来智能驾驶副总裁任少卿聊了两个小时。
在过去的六个月,LinkedIn 开发了基于自身业务的生成式AI应用。领英团队希望能重新设计求职流程,改变专业内容的浏览方式。
图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。
今年 3 月,「全球首位 AI 软件工程师」Devin 引爆了 AI 圈。与此前 AI 编程助手不同的是,Devin 并不只是辅助编程的角色,而是能够独立地、端到端地完成整个开发项目。