AI资讯新闻榜单内容搜索-OCR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: OCR
语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

近日,谷歌DeepMind的研究人员推出了苏格拉底式学习,在没有外部数据的情况下,让AI通过语言游戏不断变强。

来自主题: AI技术研报
6235 点击    2024-12-17 14:40
久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

久等了,DeepSeek开源视觉模型DeepSeek-VL2来了

阔别九月,大家期待的 DeepSeek-VL2 终于来了!DeepSeek-MoE 架构配合动态切图,视觉能力再升级。从视觉定位到梗图解析,从 OCR 到故事生成,从 3B、16B 再到 27B,DeepSeek-VL2 正式开源。

来自主题: AI技术研报
10090 点击    2024-12-14 10:17
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动

9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动

9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动

ScreenPipe!作为 Rewind.ai 的开源替代方案,它功能强大,使用灵活,支持中文 OCR,同时兼容 Ollama,让你轻松本地部署,一键回顾你的电脑世界。

来自主题: AI资讯
7242 点击    2024-11-28 20:37
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 2024。

来自主题: AI技术研报
3499 点击    2024-10-20 11:48
GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。

来自主题: AI技术研报
9596 点击    2024-08-03 14:38
使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

近年来,随着大语言模型 (LLM) 的发展,构建检索增强生成 (RAG) 解决方案成为了一个热门话题。RAG 将 LLM 的强大功能与检索模型结合,应用于专有知识数据库。然而,对于开发人员来说,一个主要挑战是将各种文档格式(如 PDF、HTML 等)转换为可供文本模型处理的格式。

来自主题: AI技术研报
8827 点击    2024-07-21 14:12
OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异,尤其在视频级跨域自适应方面,仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。

来自主题: AI技术研报
8454 点击    2024-05-28 13:53