AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

8999点击 2025-06-12 17:04

豆包大模型1.6惊艳亮相，成为国内首款多模态SOTA模型，256k对话窗口，深度思考最长上下文。它不仅能看会想，还能动手操作GUI，国内最有潜力考清北。

还得是字节，一下子能掏出这么多好东西。

就在刚刚，火山引擎原动力大会上发布的豆包大模型1.6，是国内各家SOTA模型中首个多模态模型，也是国内首个支持256k上下文长度的思考模型。

此外，豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型，豆包·实时语音模型也都在火山引擎上全量上线。

这让豆包大模型家族凭借全模态支持、全尺寸覆盖和超高的性价比成为行业领先的顶尖模型。

其中，豆包大模型1.6除了支持深度思考、多模态理解，还能进行GUI（图形界面）操作，这意味着豆包既有「眼睛」，还能「动手」。

性能上，无论是数学、推理还是多模态，都妥妥的国际第一梯队水平。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

现在新推出的模型推理能力都很强了，拉出来解个数学题啥的应该问题不大。

豆包大模型1.6做今年的海淀模拟全卷，就取得了理科706、文科712的高分！

相比之下，去年的豆包只有600分左右的成绩，真是进步巨大。

看起来这么厉害，高考刚刚结束，来实测一下这次的豆包1.6是不是「真的」能考上清北。

高考题测试推理能力

首先从比较少有人测的物理开始。

看看豆包能否搞定带图的物理题目。

来看一道今年刚刚出来的物理真题，这是一道压轴题，关于大气压强的。

光看到题目，大部分小伙伴可能已经投降了，让我们期待一下豆包大模型1.6「学霸」的表现。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

稳定又惊艳！

连续两次测试都得到完美的正确答案。

可以看到，每一个小问，豆包大模型1.6都会给出思路分析、关键步骤以及最终答案，相当的详细。

而且，回答中对于公式的渲染也没有任何的问题，看起来舒服又专业，大大的点赞👍。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

思考的过程也非常流畅，没有拖泥带水的感觉，消耗的token量很少。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

值得一提的是，豆包1.6可以启动AUTO模式——模型会自动判断当前问题是否需要启用「思考」，这样不仅可以针对简单题目省去不必要的思考时间来提高效率，并且还能大幅减少token的消耗。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

不难发现，豆包1.6在思考模式下的思维链非常简洁清晰，既没有大段毫无意义的废话，也不会陷入自我怀疑夸张不停地重复。

一步一步做完，最后再检查一遍，就直接「出炉」了。

接下来我们测试了网上讨论很多的一道考生做起来很简单，但大部分模型都全军覆没的图表题。

在这道需要精准识别坐标和向量方向的推理题中，豆包1.6的表现依旧惊艳，可以通过逻辑清晰的5个步骤解答出正确答案。

但需要说明的是，豆包1.6在回答这道问题时并不稳定，大概是图像箭头的识别容易混淆。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

看来上面这道题豆包已经可以解出来了，那么只能请出今年高考的数学压轴题了！

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包这次的思考时间明显变长，足足耗时505秒，看着长长的思考列表，不得不感叹这也太强了，这么长的思维链竟然没有断开。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

思考过程也更加复杂，不仅要记住三个小问题，还要一个个攻破。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

仅仅是一小部分的思考过程

在实测过程，还意外的捕捉到了豆包1.6「啊哈时刻」，和之前DeepSeek-R1论文中的简直如出一辙。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

最后来展示下豆包给出的答案，和目前流传的答案对比，也是完全正确。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

此外，这次全国卷中还有一道带有图片的几何大题，我们也让豆包1.6来挑战一下。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

这次豆包仅用83秒就完成了解答，在和网上的答案进行比对后，豆包再次答对。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

高考化学题目也不在话下（对不起，我的化学已经完全还给老师了，这是什么天文符号啊）。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

在经过180秒的思考后，豆包完成了这道题目（有没有大学霸帮忙看看，豆包做的对不对）。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

图像识别和分类

实测豆包1.6多模态图像能力，真的被震惊，甚至比ChatGPT 4o原生图像能力还要强大。

如果让你分辨这些猫猫的品种，后两种肯定难不倒你，但是前两个大概率会猜错。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

但是豆包1.6只用了不到40秒就完全回答正确！要知道小熊猫和浣熊是非常容易认错的。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包的思考过程非常的详细，已经能够「细致到」识别动物头顶的小撮发色、眉眼的纹路以及一点点漏在外面的粉色舌头。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

还有最近很火的看图猜地点玩法，下面这张图几乎没有任何额外的有效信息，即使是专业玩家也无法准备定位。

意外的是，豆包竟然猜了个大差不差。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

结果这就离谱，豆包竟然根据植物分辨出了南北，还根据环境中的电线猜出了城市道路。

最后定位于北方城市公园（真的就是北京某个公园，有没有大佬猜出这是哪里的），还给出了可能的选项，真的要给跪了，太强了。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

视频理解能力

豆包1.6多模态大模型现在还可以直接理解视频，你敢信？！

上传一个太阳系的视频，豆包就能给出这个视频的完整分析。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

豆包就像一个编剧一样，将视频内容完全地转化为了剧本。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

在字节的官方描述中，豆包1.6的视频理解不仅可以提取视频信息、描述视频内容，还可以根据视频创作文案，还能审核。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

上传一个最新出炉的MacOS 26的最新Dock栏视频，豆包竟然也能识别。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

甚至还给出了每个App的详细描述，以及视频画面中鼠标的位置变动，这样看起来这个功能真的有点科幻了！

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

GUI操作

在智能体越来越流行的当下，能让智能体「动起来」也变得越来越重要。

豆包大模型1.6凭借强大的视觉深度思考和精准的视觉定位能力，能让智能体轻松与浏览器和其他软件互动，高效完成各种任务。

它对GUI（图形界面）的操作，远不止代替人点击几下APP界面那么简单，而是能打破传统APP和界面的限制，更智能、自动化地满足人们的真实需求。

比如，豆包大模型可以调用豆包APP，自动上传小票、自动识别小票的消费地与金额，甚至还能进行汇率换算、整理到Excel表格里。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

火山引擎加速进击AI云市场

如今，火山引擎已经在快速进击AI云市场。

过去两年多，字节自研的豆包大模型和火山引擎的AI云原生基础设施，已经获得不少市场的认可。

如今，他们的优势还在进一步扩大。

豆包的优势

首先，豆包1.6模型的超高性价比，扩大了竞争优势。

现在，豆包大模型的日均Tokens使用量，已经达到了16.4万亿，占中国公有云大模型服务调用量的第一，市场份额直接达到了46.4%。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

随着深度推理模型的发布，AI工具的Tokens消耗增加了4.4倍；K12的在线教育场景增加了12倍；新出现的智能巡检、图片信息理解等场景，也迅速单日破百亿Tokens。

同时，豆包大模型的应用，还在加速渗透企业生产场景。

比如在消费电子行业，全球有Top 10手机厂商中有9家都选择了火山引擎；在汽车行业，它已经助力了8成主流汽车的AI升级；在金融领域，它服务了70%的系统重要性银行；在教育，火山引擎已经和北大等超5成的985高校达成合作。

Agent开发平台

很多人说，25年很可能是中国的智能体应用元年。在这个阶段，深度思考、多模态理解和工具的基础调用，是模型进化的关键方向。

而在AI时代，大模型要做好强推理、多模态、低成本，才能支持好Agent的大规模应用。

同时，厂家也需要提供强化学习、Prompt优化、MCP Hub、知识库、运行沙盒等种种开发平台和工具，才能基于模型做好Agent的开发。

总之，构建高生产力的Agent，既要用好AI，也需要做好AI。

为此，火山引擎提供了一系列工具，其中MCP和知识管理，属于「用好AI」的层面，而PromptPilot和强化学习，则属于「做好AI」的范围。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

MCP

围绕MCP协议，火山引擎致力于链接开发、生态和云服务这三大要素，目的是将其串联起来。

现在，火山引擎的MCP Hub，已经和AI原生IDE Trae、火山方舟体验中心、Cusor以及扣子打通，可以一键选择200多个丰富的MCP协议和服务。

它集成了还火山引擎的云服务，帮助用户快速进行端到端AI应用开发。开发者通过MCP，就可以控制火山引擎的大部分云服务组件，把创意变成成熟的产品了。

PromptPilot

同时，火山引起还推出了大模型应用的重要领航员——Prompt Pilot。

在第一步，它就可以让开发者以最自然的语言来表达一个模糊的需求，在简单互动中得到一个初步增强后的Prompt。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

然后，它还能在互动中，帮助用户明确理想的回答和评估标准。

另外，它还能让开发者通过good case和bad case的对比，表达自己对哪一版更满意，通过自动比较分析，积累出更完整的真实意图。

在这个过程中，它还能实现提示词的自动优化。

好消息是，现在PromptPilot已经面向所有用户全面开放了！豆包大模型再加上PromptPilot，将意味着模型潜能的极致挖掘。

AI知识管理

同时，今天火山引擎还发布了AI知识管理产品。

首先，它可以消化全部的信息模态，能支持文本、图像、视频等多模态的对话式输入，还能把输出的数据组织为更为易于理解的图表。

其次，它可以将企业和平台的本地资源和互联网的内容结合，以企业内部信息为主，以互联网搜索为辅，呈现出更立体的结果，内外联动，瞬时可查。

另外，它还能进行可交互的推理——「做个计划」，过程还可修正，就好像你正在和同事协作一样。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

veRL强化学习框架

如今，强化学习的应用会越来越重要，多步骤复杂任务的成熟和落地，已经是2025年的重要趋势。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

不过，强化学习的落地，始终面临着很多挑战，有很多门槛。

为此，字节跳动开发了veRL强化学习框架，并在2024年1月正式开源。

它可以轻松扩展各种强化学习算法，将现有LLM基础设施与模块化API进行无缝集成，还拥有极致的吞吐性能，支持复杂工具的使用场景。

现在，它已在Github社区获得8.6k stars，已经有将近30个行业工具、框架基于其发展。它已是学术界、产业界最受欢迎的RL框架之一。

数据

大数据上，AI时代数据的量级和类型都在发生变化。

从结构化数据，到非结构化数据，再到以多模态数据为主，如何为AI构建多模态数据湖，就成为了新的挑战。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

多模态数据湖

为此，火山引擎专为企业打造了新一代AI原生数据基建——多模态数据湖。

它能支持GPU和CPU的异构计算，大幅提升资源使用率，灵活支持多种开源系统，还能和火山的机器学习平台和方舟平台一键打通。

这样，用户就能通过可视界面操作数据，筛选出高质量的数据导入到方舟平台，进行下一步的应用和精调。

由此，数据就从过去的单纯支撑商业智能报表，转变为驱动AI模型训练与决策的核心燃料。

Data Agent

很多企业都希望，能用AI给每个员工配置一个数字专家。基于这样的观察，火山引擎推出了Data Agent产品。

这个企业级的AI数字专家，能够主动思考、洞察、分析与行动，构建自主进化数据大脑。

比如，现在你需要做今年的618规划，分析过去的促销需求。这个任务过去需要多个分析师花10多天完成，现在Data Agent在一个小时内，就能给出对应的结果。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

由此，Data Agent让每个员工都能像专家一样思考，让企业竞争力得到质的飞跃。

AI Infra

在AI时代，要以大规模GPU推理为核心来构建新一代的计算、存储和网络系统。

火山方舟上，豆包和DeepSeek的性能之所以达到业界最佳，背后都是下面这些基础设施的功劳。

AI真有希望考清北了！豆包1.6多模态推理发威，闯关数理化带图大题

AgentKit发布

AgentKit是围绕着Agent打造过的工具和平台进行的一个整体的SDK封装。

依托字节跳动大量AI应用研发经验，它提供了强大的Agent开发底座。

它通过极致弹性沙箱，保障了工具生态安全高效运行，还搭配开箱即用的记忆管理机制和Agent全链路观测等核心能力。

由此大幅降低了Agent开发的复杂性，帮助企业聚焦核心、提高效率。

TrainingKit发布

模型的训练正在向预训练和后训练转移，以RL为代表的后训练，对基础设施提出了更高的要求。

火山引擎的云原生训练套件TrainingKit，面向预训练提供集群诊断、故障自愈等能力，助力实现高达99%+ETTR。

因为提供了HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法，它助力实现了高达60%+MFU。

面向后训练，它提供了veRL框架集成、训推引擎集成，Sandbox百万核秒并发能力，助力后训练吞吐提升，有效提升了后训练的效果。

ServingKit推理套件

ServingKit提升了模型在推理过程中的效率问题，特别是通过支持各种开源框架的优化。

目前，它已经为互联网、物流、汽车等诸多行业头部客户提供了强大的AI基础设施。

总之如今这个时代，在基础架构层面，计算、大数据、安全都在发生巨大变化。

这一系列新的技术栈，就是所谓的AI云原生，它是企业在AI时代构建好Agents创新的关键。

而火山引擎提供的一系列产品，就能为企业保驾护航。

三条技术主线，火山走在最前沿

2025年的AI赛道，依旧热闹非凡。

OpenAI谷歌争相发布旗舰模型，Anthropic、微软等国内外科技巨头纷纷追赶，AI百家争鸣成为常态。

难道在这条路上，只有异而没有同吗？

火山引擎智能算法负责人吴迪点明了三条清晰主线。不管市场噪音多大，今年这三大主线是不会错的。

多模态推理：从「文本脑」到「视觉脑」

AI推理能力和深度思考早已融为一体，对模型理解至关重要。

然而，仅靠文本推理远远不够。

真正的智能爆发，需要「视觉理解」的加持，包括图片、视频，让AI像人一样「看懂」世界。

因此，2025年多模态理解，将成为行业核心突破点。

豆包1.6正是这一趋势下的先锋，凭借文本、图像、视频综合理解力，解锁一系列丰富的场景。

不过，吴迪也坦言，行业应用尚未全面爆发，将是今年亟待攻克的难题。

视频生成：从「玩具」到生产力

2024年底，全球视频生成模型，还停留在「玩具」阶段，难以进入实际生产。

但到了今年，情况彻底改观。

以谷歌Veo2、Veo3、可灵2.0、豆包Seedance为代表，让整个行业看到，视频生成技术已迈入实用门槛。

或许到了年底，AI视频生成将广泛渗透到短视频广告、电商宣传、专业内容创中。

这次我们也看到了，豆包Seedance 1.0 Pro尤其注重镜头语言和智能理解，生成的视频不仅画面真实，还能捕捉指令背后隐性语义。

比如，一位醉汉在雪地中行走输出中，它会自动呈现蹒跚步伐和复杂表情，堪称「AI导演」。

多步骤复杂任务：不仅会答题，还会干活

如今，我们已经从生成式AI迈向了Agentic AI时代。

可以这么理解，生成式AI给你一段代码，还得自己手动跑；而Agentic AI直接帮你把活干完了。

多步骤复杂任务，正是这一转型的核心，常听的Tool Use、Computer Use都是这一类型。

目前，豆包大模型1.6的GUI能力，已能自主操控APP，比如自动查询航班和订票，妥妥一个小能手。

除了以上三点，还有一个值得注意的现象是——2025年token用量将迎来爆发式增长。

核心驱动因素，来自多模态推理和工具使用场景。一个基础任务可能消耗10万token，更别提视频生成这类巨耗计算资源的场景了。

更重要的是，强化学习需求的崛起，将重塑算力格局。

吴迪透露，2024年上半年，火山方舟的SFT算力占比高达30%，如今降至5%。

随着复杂任务的普及，强化学习算力需求，将在26年秋季逼近预训练水平。

半年前，火山引擎开源的veRL框架，以高精度、易用性、高吞吐量，成为了强化学习领域的全球标杆。

火山引擎Force大会，不仅知识技术秀场，更是AI产业的风向标。

豆包大模型1.6以「清北级」实力，轻松破解高考难题，展现多模态AI无限可能。

从「看懂」图，到「干完」复杂任务，豆包1.6用硬核表现告诉我们——

AI不只是工具，更是能思考、能行动的「超级助手」。

火山引擎更是以AI云原生为引擎，携veRL框架和MCP生态，帮助企业从数据到决策全链路智能化，稳稳占据了MaaS市场头把交椅。

未来，随着Seedance 1.0 Pro、语音播客模型、实时语音模型推向落地，相信行业能够解锁更多应用场景。

文章来自于“新智元”，作者“编辑部 YZXN”。

关键词: AI新闻 , 豆包1.6 , 豆包 , 字节AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales