豆包大模型1.6惊艳亮相,成为国内首款多模态SOTA模型,256k对话窗口,深度思考最长上下文。它不仅能看会想,还能动手操作GUI,国内最有潜力考清北。
还得是字节,一下子能掏出这么多好东西。
就在刚刚,火山引擎原动力大会上发布的豆包大模型1.6,是国内各家SOTA模型中首个多模态模型,也是国内首个支持256k上下文长度的思考模型。
此外,豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型也都在火山引擎上全量上线。
这让豆包大模型家族凭借全模态支持、全尺寸覆盖和超高的性价比成为行业领先的顶尖模型。
其中,豆包大模型1.6除了支持深度思考、多模态理解,还能进行GUI(图形界面)操作,这意味着豆包既有「眼睛」,还能「动手」。
性能上,无论是数学、推理还是多模态,都妥妥的国际第一梯队水平。
现在新推出的模型推理能力都很强了,拉出来解个数学题啥的应该问题不大。
豆包大模型1.6做今年的海淀模拟全卷,就取得了理科706、文科712的高分!
相比之下,去年的豆包只有600分左右的成绩,真是进步巨大。
看起来这么厉害,高考刚刚结束,来实测一下这次的豆包1.6是不是「真的」能考上清北。
首先从比较少有人测的物理开始。
看看豆包能否搞定带图的物理题目。
来看一道今年刚刚出来的物理真题,这是一道压轴题,关于大气压强的。
光看到题目,大部分小伙伴可能已经投降了,让我们期待一下豆包大模型1.6「学霸」的表现。
稳定又惊艳!
连续两次测试都得到完美的正确答案。
可以看到,每一个小问,豆包大模型1.6都会给出思路分析、关键步骤以及最终答案,相当的详细。
而且,回答中对于公式的渲染也没有任何的问题,看起来舒服又专业,大大的点赞👍。
思考的过程也非常流畅,没有拖泥带水的感觉,消耗的token量很少。
值得一提的是,豆包1.6可以启动AUTO模式——模型会自动判断当前问题是否需要启用「思考」,这样不仅可以针对简单题目省去不必要的思考时间来提高效率,并且还能大幅减少token的消耗。
不难发现,豆包1.6在思考模式下的思维链非常简洁清晰,既没有大段毫无意义的废话,也不会陷入自我怀疑夸张不停地重复。
一步一步做完,最后再检查一遍,就直接「出炉」了。
接下来我们测试了网上讨论很多的一道考生做起来很简单,但大部分模型都全军覆没的图表题。
在这道需要精准识别坐标和向量方向的推理题中,豆包1.6的表现依旧惊艳,可以通过逻辑清晰的5个步骤解答出正确答案。
但需要说明的是,豆包1.6在回答这道问题时并不稳定,大概是图像箭头的识别容易混淆。
看来上面这道题豆包已经可以解出来了,那么只能请出今年高考的数学压轴题了!
豆包这次的思考时间明显变长,足足耗时505秒,看着长长的思考列表,不得不感叹这也太强了,这么长的思维链竟然没有断开。
思考过程也更加复杂,不仅要记住三个小问题,还要一个个攻破。
仅仅是一小部分的思考过程
在实测过程,还意外的捕捉到了豆包1.6「啊哈时刻」,和之前DeepSeek-R1论文中的简直如出一辙。
最后来展示下豆包给出的答案,和目前流传的答案对比,也是完全正确。
此外,这次全国卷中还有一道带有图片的几何大题,我们也让豆包1.6来挑战一下。
这次豆包仅用83秒就完成了解答,在和网上的答案进行比对后,豆包再次答对。
高考化学题目也不在话下(对不起,我的化学已经完全还给老师了,这是什么天文符号啊)。
在经过180秒的思考后,豆包完成了这道题目(有没有大学霸帮忙看看,豆包做的对不对)。
实测豆包1.6多模态图像能力,真的被震惊,甚至比ChatGPT 4o原生图像能力还要强大。
如果让你分辨这些猫猫的品种,后两种肯定难不倒你,但是前两个大概率会猜错。
但是豆包1.6只用了不到40秒就完全回答正确!要知道小熊猫和浣熊是非常容易认错的。
豆包的思考过程非常的详细,已经能够「细致到」识别动物头顶的小撮发色、眉眼的纹路以及一点点漏在外面的粉色舌头。
还有最近很火的看图猜地点玩法,下面这张图几乎没有任何额外的有效信息,即使是专业玩家也无法准备定位。
意外的是,豆包竟然猜了个大差不差。
结果这就离谱,豆包竟然根据植物分辨出了南北,还根据环境中的电线猜出了城市道路。
最后定位于北方城市公园(真的就是北京某个公园,有没有大佬猜出这是哪里的),还给出了可能的选项,真的要给跪了,太强了。
豆包1.6多模态大模型现在还可以直接理解视频,你敢信?!
上传一个太阳系的视频,豆包就能给出这个视频的完整分析。
豆包就像一个编剧一样,将视频内容完全地转化为了剧本。
在字节的官方描述中,豆包1.6的视频理解不仅可以提取视频信息、描述视频内容,还可以根据视频创作文案,还能审核。
上传一个最新出炉的MacOS 26的最新Dock栏视频,豆包竟然也能识别。
甚至还给出了每个App的详细描述,以及视频画面中鼠标的位置变动,这样看起来这个功能真的有点科幻了!
在智能体越来越流行的当下,能让智能体「动起来」也变得越来越重要。
豆包大模型1.6凭借强大的视觉深度思考和精准的视觉定位能力,能让智能体轻松与浏览器和其他软件互动,高效完成各种任务。
它对GUI(图形界面)的操作,远不止代替人点击几下APP界面那么简单,而是能打破传统APP和界面的限制,更智能、自动化地满足人们的真实需求。
比如,豆包大模型可以调用豆包APP,自动上传小票、自动识别小票的消费地与金额,甚至还能进行汇率换算、整理到Excel表格里。
如今,火山引擎已经在快速进击AI云市场。
过去两年多,字节自研的豆包大模型和火山引擎的AI云原生基础设施,已经获得不少市场的认可。
如今,他们的优势还在进一步扩大。
首先,豆包1.6模型的超高性价比,扩大了竞争优势。
现在,豆包大模型的日均Tokens使用量,已经达到了16.4万亿,占中国公有云大模型服务调用量的第一,市场份额直接达到了46.4%。
随着深度推理模型的发布,AI工具的Tokens消耗增加了4.4倍;K12的在线教育场景增加了12倍;新出现的智能巡检、图片信息理解等场景,也迅速单日破百亿Tokens。
同时,豆包大模型的应用,还在加速渗透企业生产场景。
比如在消费电子行业,全球有Top 10手机厂商中有9家都选择了火山引擎;在汽车行业,它已经助力了8成主流汽车的AI升级;在金融领域,它服务了70%的系统重要性银行;在教育,火山引擎已经和北大等超5成的985高校达成合作。
很多人说,25年很可能是中国的智能体应用元年。在这个阶段,深度思考、多模态理解和工具的基础调用,是模型进化的关键方向。
而在AI时代,大模型要做好强推理、多模态、低成本,才能支持好Agent的大规模应用。
同时,厂家也需要提供强化学习、Prompt优化、MCP Hub、知识库、运行沙盒等种种开发平台和工具,才能基于模型做好Agent的开发。
总之,构建高生产力的Agent,既要用好AI,也需要做好AI。
为此,火山引擎提供了一系列工具,其中MCP和知识管理,属于「用好AI」的层面,而PromptPilot和强化学习,则属于「做好AI」的范围。
MCP
围绕MCP协议,火山引擎致力于链接开发、生态和云服务这三大要素,目的是将其串联起来。
现在,火山引擎的MCP Hub,已经和AI原生IDE Trae、火山方舟体验中心、Cusor以及扣子打通,可以一键选择200多个丰富的MCP协议和服务。
它集成了还火山引擎的云服务,帮助用户快速进行端到端AI应用开发。开发者通过MCP,就可以控制火山引擎的大部分云服务组件,把创意变成成熟的产品了。
PromptPilot
同时,火山引起还推出了大模型应用的重要领航员——Prompt Pilot。
在第一步,它就可以让开发者以最自然的语言来表达一个模糊的需求,在简单互动中得到一个初步增强后的Prompt。
然后,它还能在互动中,帮助用户明确理想的回答和评估标准。
另外,它还能让开发者通过good case和bad case的对比,表达自己对哪一版更满意,通过自动比较分析,积累出更完整的真实意图。
在这个过程中,它还能实现提示词的自动优化。
好消息是,现在PromptPilot已经面向所有用户全面开放了!豆包大模型再加上PromptPilot,将意味着模型潜能的极致挖掘。
AI知识管理
同时,今天火山引擎还发布了AI知识管理产品。
首先,它可以消化全部的信息模态,能支持文本、图像、视频等多模态的对话式输入,还能把输出的数据组织为更为易于理解的图表。
其次,它可以将企业和平台的本地资源和互联网的内容结合,以企业内部信息为主,以互联网搜索为辅,呈现出更立体的结果,内外联动,瞬时可查。
另外,它还能进行可交互的推理——「做个计划」,过程还可修正,就好像你正在和同事协作一样。
veRL强化学习框架
如今,强化学习的应用会越来越重要,多步骤复杂任务的成熟和落地,已经是2025年的重要趋势。
不过,强化学习的落地,始终面临着很多挑战,有很多门槛。
为此,字节跳动开发了veRL强化学习框架,并在2024年1月正式开源。
它可以轻松扩展各种强化学习算法,将现有LLM基础设施与模块化API进行无缝集成,还拥有极致的吞吐性能,支持复杂工具的使用场景。
现在,它已在Github社区获得8.6k stars,已经有将近30个行业工具、框架基于其发展。它已是学术界、产业界最受欢迎的RL框架之一。
大数据上,AI时代数据的量级和类型都在发生变化。
从结构化数据,到非结构化数据,再到以多模态数据为主,如何为AI构建多模态数据湖,就成为了新的挑战。
多模态数据湖
为此,火山引擎专为企业打造了新一代AI原生数据基建——多模态数据湖。
它能支持GPU和CPU的异构计算,大幅提升资源使用率,灵活支持多种开源系统,还能和火山的机器学习平台和方舟平台一键打通。
这样,用户就能通过可视界面操作数据,筛选出高质量的数据导入到方舟平台,进行下一步的应用和精调。
由此,数据就从过去的单纯支撑商业智能报表,转变为驱动AI模型训练与决策的核心燃料。
Data Agent
很多企业都希望,能用AI给每个员工配置一个数字专家。基于这样的观察,火山引擎推出了Data Agent产品。
这个企业级的AI数字专家,能够主动思考、洞察、分析与行动,构建自主进化数据大脑。
比如,现在你需要做今年的618规划,分析过去的促销需求。这个任务过去需要多个分析师花10多天完成,现在Data Agent在一个小时内,就能给出对应的结果。
由此,Data Agent让每个员工都能像专家一样思考,让企业竞争力得到质的飞跃。
在AI时代,要以大规模GPU推理为核心来构建新一代的计算、存储和网络系统。
火山方舟上,豆包和DeepSeek的性能之所以达到业界最佳,背后都是下面这些基础设施的功劳。
AgentKit发布
AgentKit是围绕着Agent打造过的工具和平台进行的一个整体的SDK封装。
依托字节跳动大量AI应用研发经验,它提供了强大的Agent开发底座。
它通过极致弹性沙箱,保障了工具生态安全高效运行,还搭配开箱即用的记忆管理机制和Agent全链路观测等核心能力。
由此大幅降低了Agent开发的复杂性,帮助企业聚焦核心、提高效率。
TrainingKit发布
模型的训练正在向预训练和后训练转移,以RL为代表的后训练,对基础设施提出了更高的要求。
火山引擎的云原生训练套件TrainingKit,面向预训练提供集群诊断、故障自愈等能力,助力实现高达99%+ETTR。
因为提供了HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法,它助力实现了高达60%+MFU。
面向后训练,它提供了veRL框架集成、训推引擎集成,Sandbox百万核秒并发能力,助力后训练吞吐提升,有效提升了后训练的效果。
ServingKit推理套件
ServingKit提升了模型在推理过程中的效率问题,特别是通过支持各种开源框架的优化。
目前,它已经为互联网、物流、汽车等诸多行业头部客户提供了强大的AI基础设施。
总之如今这个时代,在基础架构层面,计算、大数据、安全都在发生巨大变化。
这一系列新的技术栈,就是所谓的AI云原生,它是企业在AI时代构建好Agents创新的关键。
而火山引擎提供的一系列产品,就能为企业保驾护航。
2025年的AI赛道,依旧热闹非凡。
OpenAI谷歌争相发布旗舰模型,Anthropic、微软等国内外科技巨头纷纷追赶,AI百家争鸣成为常态。
难道在这条路上,只有异而没有同吗?
火山引擎智能算法负责人吴迪点明了三条清晰主线。不管市场噪音多大,今年这三大主线是不会错的。
多模态推理:从「文本脑」到「视觉脑」
AI推理能力和深度思考早已融为一体,对模型理解至关重要。
然而,仅靠文本推理远远不够。
真正的智能爆发,需要「视觉理解」的加持,包括图片、视频,让AI像人一样「看懂」世界。
因此,2025年多模态理解,将成为行业核心突破点。
豆包1.6正是这一趋势下的先锋,凭借文本、图像、视频综合理解力,解锁一系列丰富的场景。
不过,吴迪也坦言,行业应用尚未全面爆发,将是今年亟待攻克的难题。
视频生成:从「玩具」到生产力
2024年底,全球视频生成模型,还停留在「玩具」阶段,难以进入实际生产。
但到了今年,情况彻底改观。
以谷歌Veo2、Veo3、可灵2.0、豆包Seedance为代表,让整个行业看到,视频生成技术已迈入实用门槛。
或许到了年底,AI视频生成将广泛渗透到短视频广告、电商宣传、专业内容创中。
这次我们也看到了,豆包Seedance 1.0 Pro尤其注重镜头语言和智能理解,生成的视频不仅画面真实,还能捕捉指令背后隐性语义。
比如,一位醉汉在雪地中行走输出中,它会自动呈现蹒跚步伐和复杂表情,堪称「AI导演」。
多步骤复杂任务:不仅会答题,还会干活
如今,我们已经从生成式AI迈向了Agentic AI时代。
可以这么理解,生成式AI给你一段代码,还得自己手动跑;而Agentic AI直接帮你把活干完了。
多步骤复杂任务,正是这一转型的核心,常听的Tool Use、Computer Use都是这一类型。
目前,豆包大模型1.6的GUI能力,已能自主操控APP,比如自动查询航班和订票,妥妥一个小能手。
除了以上三点,还有一个值得注意的现象是——2025年token用量将迎来爆发式增长。
核心驱动因素,来自多模态推理和工具使用场景。一个基础任务可能消耗10万token,更别提视频生成这类巨耗计算资源的场景了。
更重要的是,强化学习需求的崛起,将重塑算力格局。
吴迪透露,2024年上半年,火山方舟的SFT算力占比高达30%,如今降至5%。
随着复杂任务的普及,强化学习算力需求,将在26年秋季逼近预训练水平。
半年前,火山引擎开源的veRL框架,以高精度、易用性、高吞吐量,成为了强化学习领域的全球标杆。
火山引擎Force大会,不仅知识技术秀场,更是AI产业的风向标。
豆包大模型1.6以「清北级」实力,轻松破解高考难题,展现多模态AI无限可能。
从「看懂」图,到「干完」复杂任务,豆包1.6用硬核表现告诉我们——
AI不只是工具,更是能思考、能行动的「超级助手」。
火山引擎更是以AI云原生为引擎,携veRL框架和MCP生态,帮助企业从数据到决策全链路智能化,稳稳占据了MaaS市场头把交椅。
未来,随着Seedance 1.0 Pro、语音播客模型、实时语音模型推向落地,相信行业能够解锁更多应用场景。
文章来自于“新智元”,作者“编辑部 YZXN”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales