ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
混元单日调用tokens达千亿后,腾讯大模型战略露出全貌
6950点击    2024-07-09 00:16

大模型之争,到了不只是拼技术的时刻。


最新的行业风向是:谁能大范围应用落地?谁能笑到最后?谁能真正产生价值?


对大模型行业玩家的评判标准也不再只看技术。战略布局、落地进展、未来判断……成为了更被重视的维度。


无论“杨植麟们”还是大厂高管,公开探讨大模型的频率越来越高,包括一直低调的腾讯。


前脚,腾讯云与智慧产业事业群CEO汤道生万字采访释出,回应“关于腾讯大模型的一切”;后脚,在万众瞩目的WAIC上,腾讯云副总裁、腾讯云智能、腾讯优图实验室负责人吴运声带来大模型产品最新进展。



两波强势输出下,腾讯大模型战略缓缓露出全貌


围绕着企业训练大模型和应用大模型的需求,提供AI infra、自主可控的大模型以及贴近场景的智能应用。在这一过程中,腾讯不断提升模型性能的同时,也在不断降低模型使用的门槛,通过封装好的PaaS产品来让企业构建面向具体场景的应用,包括智能客服和营销工具等。


混元单日调用tokens数已达千亿级


简单梳理腾讯云业务,其AI布局大致可以分为基础设施、模型层、工具平台层和应用层这四大方面。



在底层能力上,腾讯云构建了HCC高性能算力集群、AIGC云存储和星脉高性能网络,这是训练大模型的基础。


基础之上,去年9月,腾讯混元大模型横空出世,目前已扩展至万亿参数规模,由7万亿tokens的预训练语料训练而来,能力已覆盖了文本、多模态理解及生成等。


文本生成上,混元率先在国内采用MoE架构,最新升级后的模型性能较上一代提升50%,部分中文能力已追平GPT-4!它的超长文能力也已在腾讯元宝中上线,一次性能够处理长达1000万字的文档,并支持多种格式的文件解析,如PDF、PPTX。它还能基于文档内容生成柱状图、折线图和饼状图等。


就在最近,腾讯元宝还上新了AI深度搜索模式,支持从深度和广度上提供更结构化、更丰富的回答。



图像生成上,混元推出首个中文原生的DiT架构(Diffusion With Transformer)文生图模型,并直接将训练代码、推理代码、模型权重等完整模型全部开源!它创新性结合了双语CLIP和多语言T5编码器来提升理解能力,这是Stable Diffusion 3所不具备的,并应用多模态大语言模型来改进图像描述。



通过混元DiT 的加速库,生图时间还能缩短75%,大幅提升推理效率。发布一个多月,腾讯混元 DiT 目前在 github 上 star 数已有 2.6k,是目前最受欢迎的国产开源文生图模型。



视频生成方面,支持文生视频、图生视频、图文生视频、视频生视频等能力。另外,在3D生成等领域,腾讯混元已布局文/图生3D,单图仅需30秒即可生成3D模型。


人民日报联合腾讯混元创作(画质为压缩后效果)


值得一提的是,腾讯还在持续开源大模型成果


如上提到的全链路自研DiT文生图模型(15B)以及小显存版本均宣布对外开源。其中小显存版仅需6GB内存即可运行,个人电脑上就能运行,并与LoRA、ControlNet等插件,都已适配至Diffusers库;对开发者非常友好。


由此,腾讯构建了扎实的技术底座和模型能力,并持续跟进趋势做快速迭代。以此为基础,腾讯云进一步搭建了上层工具和应用。


实际上,围绕核心场景,构建产业应用,才是腾讯大模型战略的核心。


汤道生在与腾讯新闻《潜望》的采访中透露,对于AI,他比较看重怎么让大家在产业场景把AI用起来、需要提供什么工具和能力。目前他感觉,大模型很大程度回到关注RAG(检索增强生成)模式,降低出现幻觉的概率,同时也比较重视怎么把握“智能体”的方向。


对应到腾讯云的实际业务,这些思考已经开始逐渐显现。


简化开发流程,低门槛加速大模型场景落地


大家都知道产业落地是关键,但问题是:怎么做?


吴运声表示,腾讯云认为大模型的广泛应用落地,不是某一家或某几家企业凭借自身技术实现的,更可行的路线是降低技术开发门槛,让产业中更多企业能够参与到AI应用落地进程中。


因此,腾讯云构建了大模型知识引擎、图像创作引擎、视频创作引擎三大PaaS工具,将大模型技术封装,让各行各业的用户能直接上手使用。



其中,知识引擎就是刚刚汤道生提到的RAG模式。它基于LLM+RAG模式,是一个创新的知识应用构建平台,满足了当前产业应用对大模型的迫切需求。


这一平台的亮点在于,仅需5分钟,用户便能通过低代码或无代码的方式,快速构建知识服务应用,如客服、知识问答等,极大地降低了开发门槛,让人人都能玩转大模型应用。


知识引擎整合了腾讯的混元大模型以及特定行业的大模型能力,结合先进的文档技术,为用户提供了企业知识服务应用模板。此外,它还提供了文档解析、向量检索、多轮改写等原子能力,助力企业用户构建高效的AI问答系统。


而它的背后,是腾讯一系列自研技术的支撑!包括自研的TRAG技术架构和首个基于语义判断的知识切分模型。这些技术从底层解决了诸多行业应用难题,如确保信息块的语义完整性,这是业内长期面临的挑战。


腾讯云采用了一种创新的“暴力解法”,提出了业内首个基于语义判断的知识切分模型。这一模型能够对每个文本进行语义级别的切分,并在多个段落中进行更准确的拆分,确保每个切片在长度可控的同时,语义完整,避免了信息的缺失和断章取义。


此外,知识引擎将检索的最大长度提升至4k字符,远超业内平均水平(通常为512字)。通过混合检索、text2sql表格检索等策略,进一步提高了复杂知识的检索精度,能够处理上万行的超大表格进行精确筛选。



知识引擎的应用场景广泛,包括智能客服、智能营销、知识管理、数据分析、办公协同、数智人等,这些都是业界公认的大模型最先落地的领域。


例如,腾讯企点客服在知识引擎的支持下全面升级,不仅支持大模型多轮对话,还能为人工客服推荐答案,智能生成工单和会话小结。


此外,它还能整合到腾讯企点营销SCRM中,有效提升客户转化率。在人才培训领域,知识引擎结合腾讯乐享知识学习平台,将员工的知识智慧汇聚成企业知识库,促进了内部知识分享和传播。


最新发布中,知识引擎还进一步升级了多模态检索能力和企业类型知识覆盖面,进一步提升了知识引擎的专业能力。



图像创作引擎,则可提供图像风格化、AI写真训练与生成、商品背景生成、线稿生成等能力。


基于混元文生图大模型,图像创作引擎能提供更符合国内要求的图像。它具备更高质量的中文理解能力,可生成更优质的图像,绘画能力更符合东方审美。



视频创作引擎基于支持视频转译、视频风格化、图像跳舞、视频插帧、艺术字视频、运动笔刷、画布拓展等应用,主要面向视频创作者,可以应用在短视频平台、广告营销、游戏等领域。



它最新推出了复杂舞蹈编排算法,基于3D建模和背部生成技术,可以实现仅基于一张图像,就生成可转身的舞蹈编排。要知道,市面上大多生成技术,都只能固定视角,更别说转身了。



另外,对于想要自己训练大模型的行业客户,腾讯还推出了TI平台等工具。它面向专业AI工程师,可提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发支持。


TI平台内包含丰富的算法组件,支持多种算法框架,满足多种应用场景需求。


最新升级中,TI平台发布全新数据处理链、大模型精调工具链;并且和知识引擎联调,实现了边迭代边评测机制,企业能及时了解并优化大模型业务效果。



如阅文集团、瑞金医院等,都利用TI平台训练出了自己的大模型。


据阅文集团总裁黄琰介绍,阅文旗下网文行业大模型“阅文妙笔”可辅助网文多模态创作、支持用户和角色对话、还能进行多语种翻译。



医学领域,瑞金医院-上海市数字医学创新中心首席技术官黄飞跃介绍,去年发布的瑞金医学大模型,基于数亿医学数据训练而来。已推出体检报告生成和电子病历生成系统,并在瑞金院内应用。以体检报告生成为例,平均每5秒即可自动生成一份总检报告,为医生节约50%+的撰写时间。


总结来看,腾讯云的大模型产品矩阵,尽可能兼顾到了市面上所有突出需求。比如构建专有大模型、零门槛上手、快速开发等。


这也传递了腾讯对技术趋势的理解:大模型必须用起来才有价值。技术的打造只是起点,把技术落地到产业场景、创造价值才是目标。

而在腾讯自身内部,这些价值已经初步显现。


聚焦模型场景落地,腾讯决定打一场持久战


模型落地,实用为先。


腾讯混元大模型是鲜少一亮相,就宣布落地应用的模型。


比如AI代码助手,在腾讯集团内部已经实现了50%以上的开发岗员工覆盖。腾讯会议AI助手在上线4个月里,日调用量增长20倍。


目前腾讯内部已有600+业务和场景接入混元大模型,覆盖金融科技、营销、广告、会议、文档等典型场景。


同时,腾讯也推出了AI智能体创作与开发平台腾讯元器,以丰富混元应用生态。


企业和开发者可以基于腾讯元器,使用腾讯官方的插件和知识库直接创建智能体。开发完成后,将智能体一键分发到QQ、微信客服、腾讯云等渠道上。



这与汤道生在采访中的观点遥相呼应,不是只有做大模型的玩家才是做AI。腾讯的机制下,各自团队都在关注AI跟自己业务有什么关系,有多点布局。


回看腾讯亮出的整体战略,其核心策略其实是“产业实用”。


在这个大命题下,大模型作为其中一个重要板块,为产品和业务提供先进技术能力。


如今,腾讯大模型的底层技术和产品矩阵都更加完善,它们本身和盘托出,就是对腾讯大模型策略最好的解释。


至于为啥腾讯云值得期待?


吴运声坦白讲很难用一两个词就清晰表达腾讯云的差异化优势。


在产研结合、人员配置、激励机制、考核指标等方方面面,腾讯云都面向实用落地而做构建,这不仅代表技术路线差异,甚至也传递企业文化、组织建设差异。


而这或许恰好透露了腾讯在大模型/AI应用落地上的决心。


由内而外,腾讯决定打一场持久战。


文章来源于:微信公众号量子位


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI