大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
6826点击    2024-12-11 09:53

被神话的 Sora ,被低估的多模态。


Sora 终于来了!


只要是 ChatGPT Plus/Pro 用户,直接就能用上。


至于效果 ......


看完官方放出的 demo,网友大呼:不太行 !


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora


当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪咪跑了起来,速度超出想象。


日均调用量 15 亿,

谁在给生产「上价值」 ?


一句话、30 秒,创意立刻「活了」 。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora

Vidu 文生视频


一句话,召唤出 3D 世界。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora

 哇嘶嗒(VAST)文生3D模型


一个创意、一键生成,短短五分钟,一段品牌宣传片便能完美呈现。手机,也能来个「即圈即搜」 。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora


贵阳市民早高峰拥堵时长缩短了半小时,大模型功不可没。


在百胜中国,AI 客服每天能处理超过 15 万次消费者沟通。


龙源电力的 5 万路视频监控,现在只需一句话就能过滤掉无关的烟雾、灯光等干扰误报。


这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。


IDC 数据也印证了这一点。2023 年,百度智能云至少拿了两个第一:


在 AI 公有云市场份额达到了 26.4 %,已连续五年位居首位;


大模型又是 AI 公有云的细分领域,作为国内率先抢跑大模型的云厂商,2023 年百度智能云在大模型平台市场份额为 19.9%,也位居第一。


可见,大模型正成为百度智能云一年多来新的增长引擎。


百度创始人李彦宏曾在百度世界 2024 大会上透露,截至 11 月初,百度文心大模型的日均调用量达到 15 亿,相较一年前首次披露的 5000 万次,增长了约 30 倍。


调用量高、增速快,表明有越来越多的应用在使用大模型。「调用背后意味着它在给应用产生价值。」 李彦宏说。


「标王」 的底气


「 Sora 这种,无论多火,百度都不去做。」 公开场合谈及此,李彦宏态度明确。


百度要做的是基建,帮更多用户做出自己的 Sora ,打造无数个「超级有用」 的多模态应用。


市场也用真金白银投了票。据媒体报道,市场大盘上,2024 年 1-8 月大模型中标项目数量已是 2023 年全年的 5 倍,百度综合排名第一:


除了中标金额、项目数量最多,行业覆盖也最广,央国企客户过半。


作为「标王」,不做 Sora 并不意味着放弃多模态。很多场景应用,如果没有多模态技术支持,根本落不了地。


但企业要的不是裸的模型,而是贴合自家业务场景的多模态能力,能「开箱即用」就更好了。


身为 「标王」 ,百度智能云也有底气给足各种选项。凭啥?


它控制了从底层算力到上层应用的堆栈每一层,在堆栈每一层都有关键自研技术。


在此,离不开两个核心支点:作为大模型精调和应用开发平台的千帆,以及提供稳定高效算力服务的百舸平台。


先看百舸。


想从 0 到 1 训练自己的多模态大模型?


百舸:安排!


一些前沿的空间智能玩家已经盖戳认证,如生数科技、哇嘶嗒( VAST )、光魔科技。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora

光魔科技,一键将故事生成视频。


这个以 GPU 为核心搭建的异构计算平台,本来就很适合多模态大模型训练,主打一个「多快稳省」 。


「多」 ,是指 「多芯混训」 ,支持同一智算集群中混合使用不同厂商芯片,兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。


选择灵活,也降低了算力成本,还不用担心性能显著下降。因为,百舸的多芯混合训练任务的性能损失,控制在了万卡性能损失 5%,已经是业界最高水平。


除了「多」,训练、推理也又「快」又「稳」。


从发布到上线仅三个月,生数科技就完成了对 Vidu 的快速迭代。为啥这么快?


因为百舸会把不同地点、不同规模、不同集群的算力统一管理起来,再通过一些优化经验和技术,大大提升智能算力的效能:


万卡集群上的模型有效训练时长占比超过 99.5%,线性加速比和带宽有效性均超过了 95% ,业界领先。


说地更具体点。


训练 Vidu 大模型需要长序列训练和较大的上下文窗口,百舸创新提供了序列并行策略、显存优化策略,还支持超长上下文训练。


作为结果,大模型训练中最费时间的渲染环节,效率提升了 3 倍。同时,通过优化数据拉取机制,显著压缩了数据准备时间。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora


在推理上,百舸也有三个亮点。


提供自定义镜像推理服务,用户可以「搭乐高」 ,满足不同推理服务部署。


异构多芯支持架构,既保证性能又控制成本。


多模态推理加速能力。这也是 Vidu 将 AI 视频生成等待时间压缩至 30 秒,比业内最快水平 Gen-3 还要快一倍的「幕后功臣」 。


值得一提的是,大模型 Scaling Law 仍在继续,百舸 4.0 也具备了成熟的 10 万卡集群部署和管理能力。


再说千帆。


主打一个「低门槛」甚至「零门槛」 ,最好普通人都能用。至今,已经促成超 77 万应用的诞生。


凭借「三层分立」:模型开发层、模型服务层和应用开发层,满足千变万化现实需求。


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora


在模型开发层,千帆提供全流程工具,从数据处理、模型调优到部署,满足多模态大模型定制化需求。


想直接调用多模态能力的用户,可以在模型服务层「各取所需」。多个领域主流模型,千帆都给安排了。


文生图:如 Stable-Diffusion-XL 、文心一格;


文生视频:如 Vidu 1.0 ;


图像理解:如 Fuyu-8B、LLaVA ;


除了多模态系列模型,还有百度视觉系列模型。


虽然百度 ERNIE 系列大语言模型和语音系列模型主要针对单一模态,但也可以通过组合使用来增强整体的多模态处理能力。


在扩大模型类型的同时,千帆也在降低模型调用成本。


过去一年,文心旗舰大模型降价幅度超过 90%,两款主力大模型 ERNIE Speed 和 ERNIE Lite 免费,最大限度降低企业创新试错的成本。


最上一层是应用开发,帮助企业用多模态能力改造业务,这个办法最简单、直接。


最近上新了企业级 RAG 和企业级 Agent 开发,将多模态应用门槛又拉低了一截。


就拿工作流 Agent 来说。


在现有工具链支持下,只需一、两句话+勾选、拖拽,大模型就能跑出一个简单、闭环的轻量化 Agent,如熟知业务「套路」的数字员工。


爱库存是一家私域电商供货平台,数百万店主通过微信群、朋友圈分发平台上的商品。他们正在千帆大模型平台开发「爱库存超级助手」Agent。


此前,店主遇到销量下滑需要经历繁琐流程:查看数据找原因,浏览热卖榜选品类,比价选品,再制作文案和海报。这一系列操作通常要花费数小时。


现在有了 Agent,这些工作只需几分钟就能完成。


「开箱即用」 ,支棱千行百业


对于千行百业中呈长尾分布、「拿来主义」就能搞定的需求来说,百度智能云打造的一批 AI 原生应用,会很趁手。


「客悦」 、「曦灵」 、「甄知」、「一见」 等都实现了多模态的「开箱即用」 。


营销、客服,几乎是所有企业舍得砸钱、也最容易积累数据与 AI 产生化反的通用场景。有了「客悦」、「曦灵」,数字人销售、直播带货,分分钟搞定。


某日化龙头企业用客悦 AI 外呼回访老客户,不仅摸清了客户流失原因,还通过精准派券带动复购,最终复购率提升超 10% 。


曦灵数字人平台拥有文生 3D 数字人的能力,不但可以一句话生成企业所需 3D 数字人形象,还可以让它立即投入工作,自动生成专业的带货视频。

 


,时长


00:22


曦灵数字人平台,一句话生成3D数字人带货视频。


有了多模态能力的加持,数字人主播可以一边展示货品一边讲解,还能和直播间用户实时互动,全年无休,多国语言也能张嘴就来。


价格上,仅需 199 元!一个 3D 超写实的数字人,过去定价可是万元级别。


企业知识管理也迎来多模态升级。「甄知」让知识管理从「重存储」转向「重应用」,企业知识被盘活。


以南方电网为例,集团拥有数万篇各类标准文件,都以 PDF 形式存储。「甄知」运用大模型的 OCR 视觉能力,快速将这些文档拆解为章节段落和图表,完成知识结构化。


员工能在「甄知」辅助下编写各种企业文档,新产生的知识会自动进入企业知识库,精准推给需要的同事。


基于多模态大模型重构的「一见」 视觉大模型,可快速满足碎片化场景下的视觉需求。矿区驾驶员的「一分钟安全确认」,从传统小模型需要 50 多天,缩短到现在仅需 2 天左右就能投产使用。



「开箱即用」的 AI 原生应用也延伸到了医疗、政务、交通等更多领域,加速多模态应用在千行百业落地。


砥砺多年,真·「卷王」


一旦技术得到广泛应用,就会产生海量数据,这些数据又反哺 AI 进化,推动数据飞轮高速运转。不同于 Sora,这是百度认准的一条通往 AGI 之路。


「我们应该把注意力放在闭环怎么走完,而不是不断解锁能力。」李彦宏认为,一旦有一家(大模型)厂商的「飞轮」 转起来,后来者再追赶,需要花更多力气。


事实上,百度智能云能成为今天的「标王」 、领跑者,除了技术上的领先,也源于多年坚守「向实」 。

 

当一些互联网云厂商淡出政企市场时,百度智能云还在电信、能源、制造、交通等重点领域深耕,静待花开。这些年的项目经验,让百度智能云沉淀了大量 AI 解决方案,通过持续提炼,不断提升复用率和产品化水平。


正是沉淀在先,后来有了多模态大模型,才能「点石成金」 。


没有「专业选手」 ,用户也能基于「一见」 视觉大模型平台训练出和百度原厂效果一样的视觉模型,因为「一见」 凝结了七年的行业实践,积累了丰富的模型、算子和场景化模型产线。


龙源电力平台已成功接入 5 万多路视频监控,覆盖 250 多个风电场,实现了实时 AI 分析与统一管控。「一见」 在海量并发处理和数据管理方面的成熟能力也是通过大量标杆客户实践打磨出来的。


多模态生成式 AI 作为新一代前沿技术,正在突破大语言模型的固有局限。Omdia 最新发布的《全球生成式 AI 应用市场研究报告》预测,全球多模态生成式 AI 市场规模将于 2029 年达到 142 亿美元,较 2024 年增长 6 倍。


凭借技术实力和丰富的工程经验,百度智能云已在企业级市场建立起坚实根基。稳定的付费客户群不仅让其在价格竞争中保持优势,更为长远发展奠定了基础。


Omdia 也在报告中指出,企业在选择多模态应用解决方案时,百度智能云这类全栈服务供应商比单纯的多模态生成式 AI 基础模型提供商(如推出 Sora 的 OpenAI )更具优势。这源于其完整的技术体系能更好满足企业实际需求。


在大模型的马拉松争霸赛中,百度智能云正用实力证明:我不仅是开局的佼佼者,更将是决赛圈的重量级选手。


文章来自微信公众号“机器之心”,作者“吴昕”


大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora

关键词: AI , sora , Vidu , 生数科技
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales