AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
Google CEO:AI 比互联网还大,未来将是多终端并行

Google CEO:AI 比互联网还大,未来将是多终端并行

Google CEO:AI 比互联网还大,未来将是多终端并行

Google I/O 2025 结束后,Google CEO Sundar Pichai 接受了《The Verge》主编专访,这也是双方连续第三年于 I/O 后展开对谈,而今年的背景更为特殊:Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台,Google 展现出前所未有的产品化信心。

来自主题: AI资讯
7805 点击    2025-05-29 09:53
独家|优理奇机器人完成数亿元天使轮及天使+轮融资,软硬全栈团队加速具身智能普惠点到来

独家|优理奇机器人完成数亿元天使轮及天使+轮融资,软硬全栈团队加速具身智能普惠点到来

独家|优理奇机器人完成数亿元天使轮及天使+轮融资,软硬全栈团队加速具身智能普惠点到来

近期,具身智能公司「优理奇机器人 UniX AI」完成数亿元天使轮及天使+轮融资,中关村前沿基金,赛纳资本及长安私人资本参与本轮融资。本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,以及面向多个泛商业服务和C端场景落地与交付。

来自主题: AI资讯
6949 点击    2025-05-28 15:22
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
9089 点击    2025-05-27 16:53
这样更公平:用jina-reranker-m0为多模态文档打分重排

这样更公平:用jina-reranker-m0为多模态文档打分重排

这样更公平:用jina-reranker-m0为多模态文档打分重排

当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时,一篇新闻报道的文本部分和你的查询的相关性是 0.7,配图的相关性 0.5;另一篇则是文本相关性为 0.6,图片也是 0.6。那么,哪一篇报道才是你真正想要的呢?

来自主题: AI技术研报
6931 点击    2025-05-27 09:57
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。

来自主题: AI技术研报
6960 点击    2025-05-26 09:59
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板

让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板

在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。然而,现有的文档理解基准存在两大核心缺陷:

来自主题: AI技术研报
7756 点击    2025-05-25 11:44
谷歌推出开源医疗大模型 MedGemma

谷歌推出开源医疗大模型 MedGemma

谷歌推出开源医疗大模型 MedGemma

MedGemma是谷歌 “健康人工智能开发者基础”(Health AI Developer Foundations)计划的核心项目。基于 Gemma 3 架构, MedGemma提供多模态和纯文本两种模型变体,旨在降低医疗 AI 开发门槛。

来自主题: AI资讯
7981 点击    2025-05-24 22:46
字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报
8003 点击    2025-05-24 17:34
多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报
7013 点击    2025-05-23 14:52