AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报
7787 点击    2025-09-06 11:50
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。

来自主题: AI技术研报
6409 点击    2025-09-02 12:27
苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

苹果最新模型,5年前的iPhone能跑

智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。

来自主题: AI技术研报
6934 点击    2025-09-02 11:04
元石科技正式发布问小白5,性能直追GPT-5

元石科技正式发布问小白5,性能直追GPT-5

元石科技正式发布问小白5,性能直追GPT-5

本月初,AI 圈翘首以盼的 GPT-5 终于问世,在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。今日,国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5,成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是:问小白 5 的各项基准测试榜单成绩最接近 GPT-5,这使其成为当前国产大模型中最具代表性的对标者。

来自主题: AI资讯
6743 点击    2025-08-29 14:14
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。

来自主题: AI技术研报
8570 点击    2025-08-28 12:20
刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败

刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。

来自主题: AI技术研报
8123 点击    2025-08-27 13:05
搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

搞不定有表格数据和多模态的Prompt?试下微软最新的提示词编排标记语言POML

最近来自微软的研究者们带来了一个全新的思路,他们开源发布了POML(Prompt Orchestration Markup Language),它的的解决方案它的核心思想非常直接:为什么我们不能像开发网页一样,用工程化的思维来构建和管理我们的Prompt呢?这个编排语言很类似IBM的PDL

来自主题: AI技术研报
7834 点击    2025-08-27 11:11
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
9595 点击    2025-08-26 23:30