AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题
5924点击    2025-06-12 17:04

豆包大模型1.6惊艳亮相,成为国内首款多模态SOTA模型,256k对话窗口,深度思考最长上下文。它不仅能看会想,还能动手操作GUI,国内最有潜力考清北。


还得是字节,一下子能掏出这么多好东西。


就在刚刚,火山引擎原动力大会上发布的豆包大模型1.6,是国内各家SOTA模型中首个多模态模型,也是国内首个支持256k上下文长度的思考模型。


此外,豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型也都在火山引擎上全量上线。


这让豆包大模型家族凭借全模态支持、全尺寸覆盖和超高的性价比成为行业领先的顶尖模型。


其中,豆包大模型1.6除了支持深度思考、多模态理解,还能进行GUI(图形界面)操作,这意味着豆包既有「眼睛」,还能「动手」。


性能上,无论是数学、推理还是多模态,都妥妥的国际第一梯队水平。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


现在新推出的模型推理能力都很强了,拉出来解个数学题啥的应该问题不大。


豆包大模型1.6做今年的海淀模拟全卷,就取得了理科706、文科712的高分!


相比之下,去年的豆包只有600分左右的成绩,真是进步巨大。


看起来这么厉害,高考刚刚结束,来实测一下这次的豆包1.6是不是「真的」能考上清北。


高考题测试推理能力


首先从比较少有人测的物理开始。


看看豆包能否搞定带图的物理题目。


来看一道今年刚刚出来的物理真题,这是一道压轴题,关于大气压强的。


光看到题目,大部分小伙伴可能已经投降了,让我们期待一下豆包大模型1.6「学霸」的表现。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


稳定又惊艳!


连续两次测试都得到完美的正确答案。


可以看到,每一个小问,豆包大模型1.6都会给出思路分析、关键步骤以及最终答案,相当的详细。


而且,回答中对于公式的渲染也没有任何的问题,看起来舒服又专业,大大的点赞👍。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


思考的过程也非常流畅,没有拖泥带水的感觉,消耗的token量很少。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


值得一提的是,豆包1.6可以启动AUTO模式——模型会自动判断当前问题是否需要启用「思考」,这样不仅可以针对简单题目省去不必要的思考时间来提高效率,并且还能大幅减少token的消耗。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


不难发现,豆包1.6在思考模式下的思维链非常简洁清晰,既没有大段毫无意义的废话,也不会陷入自我怀疑夸张不停地重复。


一步一步做完,最后再检查一遍,就直接「出炉」了。


接下来我们测试了网上讨论很多的一道考生做起来很简单,但大部分模型都全军覆没的图表题。


在这道需要精准识别坐标和向量方向的推理题中,豆包1.6的表现依旧惊艳,可以通过逻辑清晰的5个步骤解答出正确答案。


但需要说明的是,豆包1.6在回答这道问题时并不稳定,大概是图像箭头的识别容易混淆。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


看来上面这道题豆包已经可以解出来了,那么只能请出今年高考的数学压轴题了!


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


豆包这次的思考时间明显变长,足足耗时505秒,看着长长的思考列表,不得不感叹这也太强了,这么长的思维链竟然没有断开。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


思考过程也更加复杂,不仅要记住三个小问题,还要一个个攻破。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

仅仅是一小部分的思考过程


在实测过程,还意外的捕捉到了豆包1.6「啊哈时刻」,和之前DeepSeek-R1论文中的简直如出一辙。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


最后来展示下豆包给出的答案,和目前流传的答案对比,也是完全正确。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


此外,这次全国卷中还有一道带有图片的几何大题,我们也让豆包1.6来挑战一下。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


这次豆包仅用83秒就完成了解答,在和网上的答案进行比对后,豆包再次答对。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


高考化学题目也不在话下(对不起,我的化学已经完全还给老师了,这是什么天文符号啊)。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


在经过180秒的思考后,豆包完成了这道题目(有没有大学霸帮忙看看,豆包做的对不对)。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


图像识别和分类


实测豆包1.6多模态图像能力,真的被震惊,甚至比ChatGPT 4o原生图像能力还要强大。


如果让你分辨这些猫猫的品种,后两种肯定难不倒你,但是前两个大概率会猜错。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


但是豆包1.6只用了不到40秒就完全回答正确!要知道小熊猫和浣熊是非常容易认错的。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


豆包的思考过程非常的详细,已经能够「细致到」识别动物头顶的小撮发色、眉眼的纹路以及一点点漏在外面的粉色舌头。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


还有最近很火的看图猜地点玩法,下面这张图几乎没有任何额外的有效信息,即使是专业玩家也无法准备定位。


意外的是,豆包竟然猜了个大差不差。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


结果这就离谱,豆包竟然根据植物分辨出了南北,还根据环境中的电线猜出了城市道路。


最后定位于北方城市公园(真的就是北京某个公园,有没有大佬猜出这是哪里的),还给出了可能的选项,真的要给跪了,太强了。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


视频理解能力


豆包1.6多模态大模型现在还可以直接理解视频,你敢信?!


上传一个太阳系的视频,豆包就能给出这个视频的完整分析。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


豆包就像一个编剧一样,将视频内容完全地转化为了剧本。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


在字节的官方描述中,豆包1.6的视频理解不仅可以提取视频信息、描述视频内容,还可以根据视频创作文案,还能审核。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


上传一个最新出炉的MacOS 26的最新Dock栏视频,豆包竟然也能识别。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


甚至还给出了每个App的详细描述,以及视频画面中鼠标的位置变动,这样看起来这个功能真的有点科幻了!


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


GUI操作


在智能体越来越流行的当下,能让智能体「动起来」也变得越来越重要。


豆包大模型1.6凭借强大的视觉深度思考和精准的视觉定位能力,能让智能体轻松与浏览器和其他软件互动,高效完成各种任务。


它对GUI(图形界面)的操作,远不止代替人点击几下APP界面那么简单,而是能打破传统APP和界面的限制,更智能、自动化地满足人们的真实需求。


比如,豆包大模型可以调用豆包APP,自动上传小票、自动识别小票的消费地与金额,甚至还能进行汇率换算、整理到Excel表格里。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


火山引擎加速进击AI云市场


如今,火山引擎已经在快速进击AI云市场。


过去两年多,字节自研的豆包大模型和火山引擎的AI云原生基础设施,已经获得不少市场的认可。


如今,他们的优势还在进一步扩大。


豆包的优势


首先,豆包1.6模型的超高性价比,扩大了竞争优势。


现在,豆包大模型的日均Tokens使用量,已经达到了16.4万亿,占中国公有云大模型服务调用量的第一,市场份额直接达到了46.4%。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


随着深度推理模型的发布,AI工具的Tokens消耗增加了4.4倍;K12的在线教育场景增加了12倍;新出现的智能巡检、图片信息理解等场景,也迅速单日破百亿Tokens。


同时,豆包大模型的应用,还在加速渗透企业生产场景。


比如在消费电子行业,全球有Top 10手机厂商中有9家都选择了火山引擎;在汽车行业,它已经助力了8成主流汽车的AI升级;在金融领域,它服务了70%的系统重要性银行;在教育,火山引擎已经和北大等超5成的985高校达成合作。


Agent开发平台


很多人说,25年很可能是中国的智能体应用元年。在这个阶段,深度思考、多模态理解和工具的基础调用,是模型进化的关键方向。


而在AI时代,大模型要做好强推理、多模态、低成本,才能支持好Agent的大规模应用。


同时,厂家也需要提供强化学习、Prompt优化、MCP Hub、知识库、运行沙盒等种种开发平台和工具,才能基于模型做好Agent的开发。


总之,构建高生产力的Agent,既要用好AI,也需要做好AI。


为此,火山引擎提供了一系列工具,其中MCP和知识管理,属于「用好AI」的层面,而PromptPilot和强化学习,则属于「做好AI」的范围。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


MCP


围绕MCP协议,火山引擎致力于链接开发、生态和云服务这三大要素,目的是将其串联起来。


现在,火山引擎的MCP Hub,已经和AI原生IDE Trae、火山方舟体验中心、Cusor以及扣子打通,可以一键选择200多个丰富的MCP协议和服务。


它集成了还火山引擎的云服务,帮助用户快速进行端到端AI应用开发。开发者通过MCP,就可以控制火山引擎的大部分云服务组件,把创意变成成熟的产品了。


PromptPilot


同时,火山引起还推出了大模型应用的重要领航员——Prompt Pilot。


在第一步,它就可以让开发者以最自然的语言来表达一个模糊的需求,在简单互动中得到一个初步增强后的Prompt。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


然后,它还能在互动中,帮助用户明确理想的回答和评估标准。


另外,它还能让开发者通过good case和bad case的对比,表达自己对哪一版更满意,通过自动比较分析,积累出更完整的真实意图。


在这个过程中,它还能实现提示词的自动优化。


好消息是,现在PromptPilot已经面向所有用户全面开放了!豆包大模型再加上PromptPilot,将意味着模型潜能的极致挖掘。


AI知识管理


同时,今天火山引擎还发布了AI知识管理产品。


首先,它可以消化全部的信息模态,能支持文本、图像、视频等多模态的对话式输入,还能把输出的数据组织为更为易于理解的图表。


其次,它可以将企业和平台的本地资源和互联网的内容结合,以企业内部信息为主,以互联网搜索为辅,呈现出更立体的结果,内外联动,瞬时可查。


另外,它还能进行可交互的推理——「做个计划」,过程还可修正,就好像你正在和同事协作一样。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


veRL强化学习框架


如今,强化学习的应用会越来越重要,多步骤复杂任务的成熟和落地,已经是2025年的重要趋势。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


不过,强化学习的落地,始终面临着很多挑战,有很多门槛。


为此,字节跳动开发了veRL强化学习框架,并在2024年1月正式开源。


它可以轻松扩展各种强化学习算法,将现有LLM基础设施与模块化API进行无缝集成,还拥有极致的吞吐性能,支持复杂工具的使用场景。


现在,它已在Github社区获得8.6k stars,已经有将近30个行业工具、框架基于其发展。它已是学术界、产业界最受欢迎的RL框架之一。


数据


大数据上,AI时代数据的量级和类型都在发生变化。


从结构化数据,到非结构化数据,再到以多模态数据为主,如何为AI构建多模态数据湖,就成为了新的挑战。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


多模态数据湖


为此,火山引擎专为企业打造了新一代AI原生数据基建——多模态数据湖。


它能支持GPU和CPU的异构计算,大幅提升资源使用率,灵活支持多种开源系统,还能和火山的机器学习平台和方舟平台一键打通。


这样,用户就能通过可视界面操作数据,筛选出高质量的数据导入到方舟平台,进行下一步的应用和精调。


由此,数据就从过去的单纯支撑商业智能报表,转变为驱动AI模型训练与决策的核心燃料。


Data Agent


很多企业都希望,能用AI给每个员工配置一个数字专家。基于这样的观察,火山引擎推出了Data Agent产品。


这个企业级的AI数字专家,能够主动思考、洞察、分析与行动,构建自主进化数据大脑。


比如,现在你需要做今年的618规划,分析过去的促销需求。这个任务过去需要多个分析师花10多天完成,现在Data Agent在一个小时内,就能给出对应的结果。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


由此,Data Agent让每个员工都能像专家一样思考,让企业竞争力得到质的飞跃。


AI Infra


在AI时代,要以大规模GPU推理为核心来构建新一代的计算、存储和网络系统。


火山方舟上,豆包和DeepSeek的性能之所以达到业界最佳,背后都是下面这些基础设施的功劳。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题


AgentKit发布


AgentKit是围绕着Agent打造过的工具和平台进行的一个整体的SDK封装。


依托字节跳动大量AI应用研发经验,它提供了强大的Agent开发底座。


它通过极致弹性沙箱,保障了工具生态安全高效运行,还搭配开箱即用的记忆管理机制和Agent全链路观测等核心能力。


由此大幅降低了Agent开发的复杂性,帮助企业聚焦核心、提高效率。


TrainingKit发布


模型的训练正在向预训练和后训练转移,以RL为代表的后训练,对基础设施提出了更高的要求。


火山引擎的云原生训练套件TrainingKit,面向预训练提供集群诊断、故障自愈等能力,助力实现高达99%+ETTR。


因为提供了HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法,它助力实现了高达60%+MFU。


面向后训练,它提供了veRL框架集成、训推引擎集成,Sandbox百万核秒并发能力,助力后训练吞吐提升,有效提升了后训练的效果。


ServingKit推理套件


ServingKit提升了模型在推理过程中的效率问题,特别是通过支持各种开源框架的优化。


目前,它已经为互联网、物流、汽车等诸多行业头部客户提供了强大的AI基础设施。


总之如今这个时代,在基础架构层面,计算、大数据、安全都在发生巨大变化。


这一系列新的技术栈,就是所谓的AI云原生,它是企业在AI时代构建好Agents创新的关键。


而火山引擎提供的一系列产品,就能为企业保驾护航。


三条技术主线,火山走在最前沿


2025年的AI赛道,依旧热闹非凡。


OpenAI谷歌争相发布旗舰模型,Anthropic、微软等国内外科技巨头纷纷追赶,AI百家争鸣成为常态。


难道在这条路上,只有异而没有同吗?


火山引擎智能算法负责人吴迪点明了三条清晰主线。不管市场噪音多大,今年这三大主线是不会错的。


多模态推理:从「文本脑」到「视觉脑」


AI推理能力和深度思考早已融为一体,对模型理解至关重要。


然而,仅靠文本推理远远不够。


真正的智能爆发,需要「视觉理解」的加持,包括图片、视频,让AI像人一样「看懂」世界。


因此,2025年多模态理解,将成为行业核心突破点。


豆包1.6正是这一趋势下的先锋,凭借文本、图像、视频综合理解力,解锁一系列丰富的场景。


不过,吴迪也坦言,行业应用尚未全面爆发,将是今年亟待攻克的难题。


视频生成:从「玩具」到生产力


2024年底,全球视频生成模型,还停留在「玩具」阶段,难以进入实际生产。


但到了今年,情况彻底改观。


以谷歌Veo2、Veo3、可灵2.0、豆包Seedance为代表,让整个行业看到,视频生成技术已迈入实用门槛。


或许到了年底,AI视频生成将广泛渗透到短视频广告、电商宣传、专业内容创中。


这次我们也看到了,豆包Seedance 1.0 Pro尤其注重镜头语言和智能理解,生成的视频不仅画面真实,还能捕捉指令背后隐性语义。


比如,一位醉汉在雪地中行走输出中,它会自动呈现蹒跚步伐和复杂表情,堪称「AI导演」。


多步骤复杂任务:不仅会答题,还会干活


如今,我们已经从生成式AI迈向了Agentic AI时代。


可以这么理解,生成式AI给你一段代码,还得自己手动跑;而Agentic AI直接帮你把活干完了。


多步骤复杂任务,正是这一转型的核心,常听的Tool Use、Computer Use都是这一类型。


目前,豆包大模型1.6的GUI能力,已能自主操控APP,比如自动查询航班和订票,妥妥一个小能手。


除了以上三点,还有一个值得注意的现象是——2025年token用量将迎来爆发式增长。


核心驱动因素,来自多模态推理和工具使用场景。一个基础任务可能消耗10万token,更别提视频生成这类巨耗计算资源的场景了。


更重要的是,强化学习需求的崛起,将重塑算力格局。


吴迪透露,2024年上半年,火山方舟的SFT算力占比高达30%,如今降至5%。


随着复杂任务的普及,强化学习算力需求,将在26年秋季逼近预训练水平。


半年前,火山引擎开源的veRL框架,以高精度、易用性、高吞吐量,成为了强化学习领域的全球标杆。


火山引擎Force大会,不仅知识技术秀场,更是AI产业的风向标。


豆包大模型1.6以「清北级」实力,轻松破解高考难题,展现多模态AI无限可能。


从「看懂」图,到「干完」复杂任务,豆包1.6用硬核表现告诉我们——


AI不只是工具,更是能思考、能行动的「超级助手」。


火山引擎更是以AI云原生为引擎,携veRL框架和MCP生态,帮助企业从数据到决策全链路智能化,稳稳占据了MaaS市场头把交椅。


未来,随着Seedance 1.0 Pro、语音播客模型、实时语音模型推向落地,相信行业能够解锁更多应用场景。


文章来自于“新智元”,作者“编辑部 YZXN”。

关键词: AI新闻 , 豆包1.6 , 豆包 , 字节AI
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales