混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

7602点击 2024-07-09 00:16

大模型之争，到了不只是拼技术的时刻。

最新的行业风向是：谁能大范围应用落地？谁能笑到最后？谁能真正产生价值？

对大模型行业玩家的评判标准也不再只看技术。战略布局、落地进展、未来判断……成为了更被重视的维度。

无论“杨植麟们”还是大厂高管，公开探讨大模型的频率越来越高，包括一直低调的腾讯。

前脚，腾讯云与智慧产业事业群CEO汤道生万字采访释出，回应“关于腾讯大模型的一切”；后脚，在万众瞩目的WAIC上，腾讯云副总裁、腾讯云智能、腾讯优图实验室负责人吴运声带来大模型产品最新进展。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

两波强势输出下，腾讯大模型战略缓缓露出全貌：

围绕着企业训练大模型和应用大模型的需求，提供AI infra、自主可控的大模型以及贴近场景的智能应用。在这一过程中，腾讯不断提升模型性能的同时，也在不断降低模型使用的门槛，通过封装好的PaaS产品来让企业构建面向具体场景的应用，包括智能客服和营销工具等。

混元单日调用tokens数已达千亿级

简单梳理腾讯云业务，其AI布局大致可以分为基础设施、模型层、工具平台层和应用层这四大方面。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

在底层能力上，腾讯云构建了HCC高性能算力集群、AIGC云存储和星脉高性能网络，这是训练大模型的基础。

基础之上，去年9月，腾讯混元大模型横空出世，目前已扩展至万亿参数规模，由7万亿tokens的预训练语料训练而来，能力已覆盖了文本、多模态理解及生成等。

文本生成上，混元率先在国内采用MoE架构，最新升级后的模型性能较上一代提升50%，部分中文能力已追平GPT-4！它的超长文能力也已在腾讯元宝中上线，一次性能够处理长达1000万字的文档，并支持多种格式的文件解析，如PDF、PPTX。它还能基于文档内容生成柱状图、折线图和饼状图等。

就在最近，腾讯元宝还上新了AI深度搜索模式，支持从深度和广度上提供更结构化、更丰富的回答。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

图像生成上，混元推出首个中文原生的DiT架构（Diffusion With Transformer）文生图模型，并直接将训练代码、推理代码、模型权重等完整模型全部开源！它创新性结合了双语CLIP和多语言T5编码器来提升理解能力，这是Stable Diffusion 3所不具备的，并应用多模态大语言模型来改进图像描述。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

通过混元DiT 的加速库，生图时间还能缩短75%，大幅提升推理效率。发布一个多月，腾讯混元 DiT 目前在 github 上 star 数已有 2.6k，是目前最受欢迎的国产开源文生图模型。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

视频生成方面，支持文生视频、图生视频、图文生视频、视频生视频等能力。另外，在3D生成等领域，腾讯混元已布局文/图生3D，单图仅需30秒即可生成3D模型。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

△人民日报联合腾讯混元创作（画质为压缩后效果）

值得一提的是，腾讯还在持续开源大模型成果。

如上提到的全链路自研DiT文生图模型（15B）以及小显存版本均宣布对外开源。其中小显存版仅需6GB内存即可运行，个人电脑上就能运行，并与LoRA、ControlNet等插件，都已适配至Diffusers库；对开发者非常友好。

由此，腾讯构建了扎实的技术底座和模型能力，并持续跟进趋势做快速迭代。以此为基础，腾讯云进一步搭建了上层工具和应用。

实际上，围绕核心场景，构建产业应用，才是腾讯大模型战略的核心。

汤道生在与腾讯新闻《潜望》的采访中透露，对于AI，他比较看重怎么让大家在产业场景把AI用起来、需要提供什么工具和能力。目前他感觉，大模型很大程度回到关注RAG（检索增强生成）模式，降低出现幻觉的概率，同时也比较重视怎么把握“智能体”的方向。

对应到腾讯云的实际业务，这些思考已经开始逐渐显现。

简化开发流程，低门槛加速大模型场景落地

大家都知道产业落地是关键，但问题是：怎么做？

吴运声表示，腾讯云认为大模型的广泛应用落地，不是某一家或某几家企业凭借自身技术实现的，更可行的路线是降低技术开发门槛，让产业中更多企业能够参与到AI应用落地进程中。

因此，腾讯云构建了大模型知识引擎、图像创作引擎、视频创作引擎三大PaaS工具，将大模型技术封装，让各行各业的用户能直接上手使用。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

其中，知识引擎就是刚刚汤道生提到的RAG模式。它基于LLM+RAG模式，是一个创新的知识应用构建平台，满足了当前产业应用对大模型的迫切需求。

这一平台的亮点在于，仅需5分钟，用户便能通过低代码或无代码的方式，快速构建知识服务应用，如客服、知识问答等，极大地降低了开发门槛，让人人都能玩转大模型应用。

知识引擎整合了腾讯的混元大模型以及特定行业的大模型能力，结合先进的文档技术，为用户提供了企业知识服务应用模板。此外，它还提供了文档解析、向量检索、多轮改写等原子能力，助力企业用户构建高效的AI问答系统。

而它的背后，是腾讯一系列自研技术的支撑！包括自研的TRAG技术架构和首个基于语义判断的知识切分模型。这些技术从底层解决了诸多行业应用难题，如确保信息块的语义完整性，这是业内长期面临的挑战。

腾讯云采用了一种创新的“暴力解法”，提出了业内首个基于语义判断的知识切分模型。这一模型能够对每个文本进行语义级别的切分，并在多个段落中进行更准确的拆分，确保每个切片在长度可控的同时，语义完整，避免了信息的缺失和断章取义。

此外，知识引擎将检索的最大长度提升至4k字符，远超业内平均水平（通常为512字）。通过混合检索、text2sql表格检索等策略，进一步提高了复杂知识的检索精度，能够处理上万行的超大表格进行精确筛选。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

知识引擎的应用场景广泛，包括智能客服、智能营销、知识管理、数据分析、办公协同、数智人等，这些都是业界公认的大模型最先落地的领域。

例如，腾讯企点客服在知识引擎的支持下全面升级，不仅支持大模型多轮对话，还能为人工客服推荐答案，智能生成工单和会话小结。

此外，它还能整合到腾讯企点营销SCRM中，有效提升客户转化率。在人才培训领域，知识引擎结合腾讯乐享知识学习平台，将员工的知识智慧汇聚成企业知识库，促进了内部知识分享和传播。

最新发布中，知识引擎还进一步升级了多模态检索能力和企业类型知识覆盖面，进一步提升了知识引擎的专业能力。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

图像创作引擎，则可提供图像风格化、AI写真训练与生成、商品背景生成、线稿生成等能力。

基于混元文生图大模型，图像创作引擎能提供更符合国内要求的图像。它具备更高质量的中文理解能力，可生成更优质的图像，绘画能力更符合东方审美。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

视频创作引擎基于支持视频转译、视频风格化、图像跳舞、视频插帧、艺术字视频、运动笔刷、画布拓展等应用，主要面向视频创作者，可以应用在短视频平台、广告营销、游戏等领域。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

它最新推出了复杂舞蹈编排算法，基于3D建模和背部生成技术，可以实现仅基于一张图像，就生成可转身的舞蹈编排。要知道，市面上大多生成技术，都只能固定视角，更别说转身了。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

另外，对于想要自己训练大模型的行业客户，腾讯还推出了TI平台等工具。它面向专业AI工程师，可提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发支持。

TI平台内包含丰富的算法组件，支持多种算法框架，满足多种应用场景需求。

最新升级中，TI平台发布全新数据处理链、大模型精调工具链；并且和知识引擎联调，实现了边迭代边评测机制，企业能及时了解并优化大模型业务效果。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

如阅文集团、瑞金医院等，都利用TI平台训练出了自己的大模型。

据阅文集团总裁黄琰介绍，阅文旗下网文行业大模型“阅文妙笔”可辅助网文多模态创作、支持用户和角色对话、还能进行多语种翻译。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

医学领域，瑞金医院-上海市数字医学创新中心首席技术官黄飞跃介绍，去年发布的瑞金医学大模型，基于数亿医学数据训练而来。已推出体检报告生成和电子病历生成系统，并在瑞金院内应用。以体检报告生成为例，平均每5秒即可自动生成一份总检报告，为医生节约50%+的撰写时间。

总结来看，腾讯云的大模型产品矩阵，尽可能兼顾到了市面上所有突出需求。比如构建专有大模型、零门槛上手、快速开发等。

这也传递了腾讯对技术趋势的理解：大模型必须用起来才有价值。技术的打造只是起点，把技术落地到产业场景、创造价值才是目标。

而在腾讯自身内部，这些价值已经初步显现。

聚焦模型场景落地，腾讯决定打一场持久战

模型落地，实用为先。

腾讯混元大模型是鲜少一亮相，就宣布落地应用的模型。

比如AI代码助手，在腾讯集团内部已经实现了50%以上的开发岗员工覆盖。腾讯会议AI助手在上线4个月里，日调用量增长20倍。

目前腾讯内部已有600+业务和场景接入混元大模型，覆盖金融科技、营销、广告、会议、文档等典型场景。

同时，腾讯也推出了AI智能体创作与开发平台腾讯元器，以丰富混元应用生态。

企业和开发者可以基于腾讯元器，使用腾讯官方的插件和知识库直接创建智能体。开发完成后，将智能体一键分发到QQ、微信客服、腾讯云等渠道上。

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

这与汤道生在采访中的观点遥相呼应，不是只有做大模型的玩家才是做AI。腾讯的机制下，各自团队都在关注AI跟自己业务有什么关系，有多点布局。

回看腾讯亮出的整体战略，其核心策略其实是“产业实用”。

在这个大命题下，大模型作为其中一个重要板块，为产品和业务提供先进技术能力。

如今，腾讯大模型的底层技术和产品矩阵都更加完善，它们本身和盘托出，就是对腾讯大模型策略最好的解释。

至于为啥腾讯云值得期待？

吴运声坦白讲很难用一两个词就清晰表达腾讯云的差异化优势。

在产研结合、人员配置、激励机制、考核指标等方方面面，腾讯云都面向实用落地而做构建，这不仅代表技术路线差异，甚至也传递企业文化、组织建设差异。

而这或许恰好透露了腾讯在大模型/AI应用落地上的决心。

由内而外，腾讯决定打一场持久战。

文章来源于：微信公众号量子位

混元单日调用tokens达千亿后，腾讯大模型战略露出全貌

关键词: 腾讯大模型 , 混元大模型 , 杨植麟 , AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。
项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用：https://replicate.com/camenduru/lgm

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI