本周可能是AI领域的”黄道吉日“。继OpenAI、谷歌、字节的AI产品发布后,本周最后一位选手——腾讯,也终于上场。
5月17日,腾讯在生成式AI产业应用峰会上,集中披露了包括底层的通用模型、行业大模型的能力升级,以及多个新产品。
发布会上,吸引了众多目光的,当属新推出的智能体产品“腾讯元器”。
元器 来源:腾讯
可以说,这是一个腾讯版的“GPTs”。企业和开发者可以基于腾讯元器,使用腾讯官方的插件和知识库直接创建智能体。开发完成后,将智能体一键分发到QQ、微信客服、腾讯云等渠道上。
生态也是老生常谈的话题。等到大家都把智能体发布到平台上,腾讯也会一定扶持。创作者在腾讯元器上创建的智能体,可以分发到QQ,优质智能体有机会获得流量扶持。
对话,是大模型使用的最直接形态。从ChatGPT引爆生成式AI浪潮之后,腾讯在AI大模型上的进展,有无可能,以及怎么和社交生态(微信、QQ)如何联动——可以说是业界最为关心的问题。
这次“腾讯元器”的发布,掀起了面纱的一角。
不过参照前人经验,OpenAI发布后不久,就先用GPT Plugin(插件)的形式做第三方生态,而后过渡到2023年11月就上线的GPT Store,一上线就已经有数百万个GPTs。不过,很多GPTs都是ChatGPT的简单套壳,模仿成本极低,因此GPTs的使用情况也不尽如人意。腾讯要想做好智能体生态,也会面临不小挑战。
目前,元器还没有全量对外开放,但可以申请内测:https://open.hunyuan.tencent.com/my-creation
来源:腾讯
另外一个重要预告则是,腾讯将于月底推出全新的助手App“腾讯元宝”——这也是一个有入口级别意义的发布。
此前,“混元”的C端入口,只有小程序端的“混元助手”和PC端的网站,但一直没有一个统一的移动端入口。
而由于月底才推出,这次的发布会上,腾讯仅简单介绍了元宝App首批上线的功能,包括AI搜索、翻译、文档总结、口语陪练等等。
如今腾讯终于官宣App端,隐隐透露着C端AI产品入口的竞争——环顾行业,百度有“文心一言”、阿里有“通义千问”,创业公司阵营里则有Moonshot的Kimi、智谱AI的“智谱清言”。可以预见,围绕C端用户的使用场景,2024年的AI助手领域将有不小的风浪。
从去年发布底层的混元大模型后,腾讯的更新一直保持不疾不徐的状态。总体上看,当前的混元采用混合专家模型 (MoE) 结构,模型总体性能相比上一代提升了50%,部分中文能力已追平GPT-4。
各项能力也终于赶上来了,比如此前大厂和创业公司纷纷开始卷起来的”长文本“。
这一次发布中,”混元“也正式发布了256k版本,具备处理超过38万字符的超长文本能力。
在长文输入场景,腾讯混元目前的大海捞针(经典的长文本测试,将一段信息放在一段长文本中的任意位置,检测大模型的回答准确率如何)指标,达到99.9%。
如果给混元256k版本输入一本《三国演义》,字数达数十万字,那么,大模型则能识别出小说中的关键人物和事件情节,甚至对于天气、角色着装等细节描述,也能提供精确的信息。
在对话应用场景中,该模型能够“记忆”更多的对话内容,有效避免“忘记”信息等问题,也能更“聪明”地结合上下文进行分析,为对话参与者提供更为精确的反馈,辅助其决策。
来源:腾讯
当前,面对不同的应用需求,“混元”当前也提供了hunyuan-pro、hunyuan-standard、hunyuan-lite三个模型尺寸,面向企业、个人开发者全面开放。
而在峰会前几天,5月14日,腾讯还官宣了另一个重要发布:混元文生图大模型全面升级并对外开源——包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
这也是国内首个中文原生的开源文生图模型,与Sora采用一致的DiT架构,是文生图、文生视频的重要基础。
从去年9月正式推出“混元”大模型以来,腾讯在AI领域一直都是走更稳健的路线——先从内部业务做起,等到能力成熟,再推向产业。
从内部看,腾讯“AI化”可以说颇为迅速。今年年初,腾讯高级执行副总裁接受36氪采访时就提及,腾讯内部已经有300多个业务接入大模型。到了今天,这个数字变成了超过600。
就以腾讯的AI代码助手为例,现在在腾讯集团内部,就已经实现了50%以上的开发岗员工覆盖,其代码生成率达30%以上,研发效能提升了20%以上。
而腾讯生态内部有丰富多元的内容、社交、游戏业务。在大模型的加持下,许多业务也有了不少有趣的进展。
比如近期传播甚广的“AI问书”,就是微信读书基于混元大模型推出的功能——用户如果不愿意读一整本书,现在就能以对话形式,问AI这本书是关于什么主题的,真正实现“量子速读”。
来源:微信读书
而结合了AI大模型能力后,不少腾讯系产品也都看到了可观的增长。比如,腾讯会议中推出的“AI小助手”就是典型例子——通过简单自然的指令,AI小助手可以完成发言提醒、观点总结、会议纪要等能力,大幅度提升会议效率。过去四个月,腾讯会议AI小助手的用户日调用量增长了20倍。
现在,腾讯现在已经逐渐转向外部,加快产业落地的脚步。一个明显的标志是,腾讯云这次发布了PaaS层的三个新引擎:大模型知识引擎、图像创作引擎和视频创作引擎。
以知识引擎为例,一家叫“圆心惠保”的保险公司,就通过这个引擎,开发出面向保险代理人的高效惠民智囊——可以自动生成产品知识问答和安抚话术,用来和客户沟通,实现人均提效50%。
这几项能力在云计算时代就已经具备,但通过和大模型的结合,能够覆盖的场景更多了——比如,基于腾讯混元视频生成大模型技术,用户现在就能输入视频,马上生成特定风格的视频。生成后的视频画面流畅自然,时序一致性强。
类似这样的能力通过api的形式输出,开发者就能给予腾讯的开发平台,开发功能更丰富的应用。
总体而言,在产品矩阵上,如今国内几家大厂对AI的投入力度都不小,To B和To C齐头并进,但在具体路线上,已经有了隐约的分野。
比如,同样是进展谨慎的字节,从这周发布的产品来看,其整体战略就更偏向C端——从“豆包”这个名字用在大模型和App上就可见一斑。并且,字节同样沿用了App工厂的打法,基于豆包开发了一大批To C App。
而腾讯则是走更偏产业的路线,“产业实用”的战略已然明确,当前,腾讯的行业大模型已经在金融、医疗、教育、汽车、能源等20多个行业落地。
“大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标”。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上表示。
文章来源于“咏仪”,作者“邓咏仪”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/