ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
百度不做Sora的理由,李彦宏讲清楚了
5482点击    2024-11-12 17:45


2024年11月12日举办的百度世界大会上,探讨“什么是有价值的AI应用”成了主题。


百度集团创始人、董事长兼CEO李彦宏提到,将大会主题定为“应用来了”,代表百度对于当前大模型和生成式人工智能时代的认知和判断。



△文心大模型的日均调用量变化。


目前,文心大模型的日均调用量已经超过15亿。李彦宏认为,如果文心大模型调用量一年能涨10倍,意味着市场需求确实存在。他提到,事实上,文心的调用量,在半年内的增长就接近10倍。


在会上,李彦宏提到了几个共识:


首先,检索增强(RAG)成为了行业共识,因为消除“幻觉”,是模型行业落地的必须。李彦宏认为,过去24个月,大模型的最大变化是基本消除了“幻觉”。

其次,智能体是AI应用最主流的形态,是AI原生时代内容、信息和服务的新载体。


“智能体”,无疑是世界大会上出现最高频的术语。李彦宏将智能体比作PC时代的网站和移动时代的自媒体,区别在于,智能体更像人、更智能。


他提到了智能体的4个应用方向:公司类(如销售客服)、角色类(如数字人直播)、工具类(如行业报告智能生成)、行业类。


技术的商业价值,也是李彦宏在发言中反复提起的主题。


比如,他认为iRAG的商业价值在于无幻觉、超真实、没成本、立即可取。



具体到0代码开发工具“秒哒”的发布,李彦宏认为产品价值在于实现了生产力的无限扩张。用他的话来形容,这是“一个前所未有的只靠想法就能赚钱的时代”。


在产业落地层面,李彦宏提到,大模型带给行业的价值增量,体现在两个层面:降本和增效。


目前,百度智能云千帆大模型平台已经精调了3.3万个模型,开发了77万个企业应用,一半以上的央国企都是千帆的用户。


文库和网盘融合了


在2024年9月的架构调整中,百度网盘回归了MEG,被划分到了文库BU——这也为两个内容工具型应用的生态打通,埋下了伏笔。


百度副总裁、百度文库兼百度网盘负责人王颖看来,以往文库和网盘的用户具有以下两个痛点:


一方面,不同形式、品类、格式的素材,无法在同一个平台上编辑操作,也无法生成任何形式、格式的内容;


另一方面,文库中的公域知识,和网盘中的私域知识,是分开存储的,无法协同形成完整的知识。


百度文库上线的“自由画布”功能,就成了打通文库和网盘内容的桥梁。在李彦宏看来,自由画布本质上就是一个工具类智能体。


就像一个智能白板,用户能够通过点选、对话、框选,自由选择和组合文库和网盘上需要操作的内容。


基于背后的MoE(混合专家模型)架构和多模态模型,自由画布可以支持文字、图像、视频等文件的跨模态处理,最后也能生成图文等跨模态内容。


而这些经自由画布生成的多模态内容,适配的是微信朋友圈、小红书的图+文、视频+文内容生态,也能生成带图表的研报等专业领域内容。



△自由画布根据要求生成了孙悟空来现代探险的小说、漫画和视频。


在AI工具型产品苦寻变现模式的当下,王颖却认为,网盘和文库的商业模式天生与大模型产品非常匹配。


她告诉《智能涌现》,文库和网盘的收费模式,本质上是和用户分润,产品通过给用户带来价值、帮他们挣到钱,来提高用户的留存率和付费率。


AI能力能够拓展产品功能的边界,组合出来的产品变得更多,给用户带来更多的权益,也会让付费转化率变高。”王颖对《智能涌现》表示。


做Sora之前,先解决“幻觉”


即便李彦宏提到,目前文字和RAG(检索增强)技术的结合已有成效,但他也指出,图像和RAG技术的结合还远远不够。


多模态模型目前没有大规模应用,是由于幻觉问题还没有解决。”李彦宏在发言中指出。


这一认知,也决定了百度面对Sora的态度。李彦宏提到,在Sora出现时,百度的决策不是跟进,而是着手解决多模态的幻觉问题。


在会上,百度发布了iRAG,一项基于检索增强的文生图技术。用李彦宏的话来说,iRAG可以去除生成图像的“机器味”。



△基于iRAG生成的图片。


百度CTO王海峰在会上介绍了iRAG实现可控生图的技术链路:


首先,大模型对用户的需求进行分析理解,自动规划精确或者泛化的方案,比如对哪些实体进行增强;


接着,在增强阶段,对需要增强的实体进行检索,并且选择对应的参考;


最后,在生成阶段,百度自研了多模态可控生图技术。一方面,通过局部注意力计算,大模型能够在保持实体特征不变的情况下,实现图像的高泛化生成;另一方面,通过整体注意力计算,实现图像的高精确生成。


小度做了副AI眼镜


2023年换上大模型“大脑”的小度,这次推出的不再是音箱,而是百度的第一副眼镜:小度AI眼镜。



在硬件层面,这幅眼镜自重仅45g,低于行业平均重量49g。为了提高成像效果,眼镜搭载了1600万像素超广角镜头和AI防抖算法;为了提高声音识别准确率、降低漏音,眼镜采用了四麦阵列和开放式防漏音扬声器设计。


在续航能力上,小度AI眼镜用30min就能充满电,实现56小时待机,超5小时连续聆听。这三个指标均超过了行业标杆水平。


将小度AI眼镜与普通眼镜进行区别的,还是在“AI”上。


基于文心大模型和DuerOS AI原生操作系统,小度AI能够实现第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、歌单等功能。


据百度集团副总裁、小度科技CEO李莹介绍,小度AI眼镜将在2025年上半年上市。


一个0代码开发工具,就是一支智能体团队


会上,百度还官宣了“秒哒”,一个将在2025年Q1上线的0代码应用开发平台。


相较于其他的0代码开发平台,秒哒的特色是,应用的开发过程,由多个多智能体进行协作。




比如,在网页制作过程中,网页的代码编写和部署由程序员智能体完成,网页中的文案由写作智能体完成,文案中最新的资料由检索机器人上网查询,其中的配图又由擅长生图的智能体实现。


最后,负责质检的智能体,还会利用反思能力,运行测试代码,发现其中的bug,并与程序员智能体进行配合修改。


多智能体协作,不仅应用在了针对小白开发者的“秒哒”上,还运用在了针对专业程序员的文心快码Comate上。


王海峰介绍,Comate已经迭代到了3.0版本。在开发全流程中,Comate 3.0中的不同智能体可以实现自动代码质检、代码补全等功能,目的是提高程序员的工作质量和效率,让其把更多精力投入到探索和创新。


文章来自微信公众号 “智能涌现” 作者“周鑫雨”



AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales