2024年11月12日举办的百度世界大会上,探讨“什么是有价值的AI应用”成了主题。
百度集团创始人、董事长兼CEO李彦宏提到,将大会主题定为“应用来了”,代表百度对于当前大模型和生成式人工智能时代的认知和判断。
△文心大模型的日均调用量变化。
目前,文心大模型的日均调用量已经超过15亿。李彦宏认为,如果文心大模型调用量一年能涨10倍,意味着市场需求确实存在。他提到,事实上,文心的调用量,在半年内的增长就接近10倍。
在会上,李彦宏提到了几个共识:
首先,检索增强(RAG)成为了行业共识,因为消除“幻觉”,是模型行业落地的必须。李彦宏认为,过去24个月,大模型的最大变化是基本消除了“幻觉”。
其次,智能体是AI应用最主流的形态,是AI原生时代内容、信息和服务的新载体。
“智能体”,无疑是世界大会上出现最高频的术语。李彦宏将智能体比作PC时代的网站和移动时代的自媒体,区别在于,智能体更像人、更智能。
他提到了智能体的4个应用方向:公司类(如销售客服)、角色类(如数字人直播)、工具类(如行业报告智能生成)、行业类。
技术的商业价值,也是李彦宏在发言中反复提起的主题。
比如,他认为iRAG的商业价值在于无幻觉、超真实、没成本、立即可取。
具体到0代码开发工具“秒哒”的发布,李彦宏认为产品价值在于实现了生产力的无限扩张。用他的话来形容,这是“一个前所未有的只靠想法就能赚钱的时代”。
在产业落地层面,李彦宏提到,大模型带给行业的价值增量,体现在两个层面:降本和增效。
目前,百度智能云千帆大模型平台已经精调了3.3万个模型,开发了77万个企业应用,一半以上的央国企都是千帆的用户。
在2024年9月的架构调整中,百度网盘回归了MEG,被划分到了文库BU——这也为两个内容工具型应用的生态打通,埋下了伏笔。
百度副总裁、百度文库兼百度网盘负责人王颖看来,以往文库和网盘的用户具有以下两个痛点:
一方面,不同形式、品类、格式的素材,无法在同一个平台上编辑操作,也无法生成任何形式、格式的内容;
另一方面,文库中的公域知识,和网盘中的私域知识,是分开存储的,无法协同形成完整的知识。
百度文库上线的“自由画布”功能,就成了打通文库和网盘内容的桥梁。在李彦宏看来,自由画布本质上就是一个工具类智能体。
就像一个智能白板,用户能够通过点选、对话、框选,自由选择和组合文库和网盘上需要操作的内容。
基于背后的MoE(混合专家模型)架构和多模态模型,自由画布可以支持文字、图像、视频等文件的跨模态处理,最后也能生成图文等跨模态内容。
而这些经自由画布生成的多模态内容,适配的是微信朋友圈、小红书的图+文、视频+文内容生态,也能生成带图表的研报等专业领域内容。
△自由画布根据要求生成了孙悟空来现代探险的小说、漫画和视频。
在AI工具型产品苦寻变现模式的当下,王颖却认为,网盘和文库的商业模式天生与大模型产品非常匹配。
她告诉《智能涌现》,文库和网盘的收费模式,本质上是和用户分润,产品通过给用户带来价值、帮他们挣到钱,来提高用户的留存率和付费率。
“AI能力能够拓展产品功能的边界,组合出来的产品变得更多,给用户带来更多的权益,也会让付费转化率变高。”王颖对《智能涌现》表示。
即便李彦宏提到,目前文字和RAG(检索增强)技术的结合已有成效,但他也指出,图像和RAG技术的结合还远远不够。
“多模态模型目前没有大规模应用,是由于幻觉问题还没有解决。”李彦宏在发言中指出。
这一认知,也决定了百度面对Sora的态度。李彦宏提到,在Sora出现时,百度的决策不是跟进,而是着手解决多模态的幻觉问题。
在会上,百度发布了iRAG,一项基于检索增强的文生图技术。用李彦宏的话来说,iRAG可以去除生成图像的“机器味”。
△基于iRAG生成的图片。
百度CTO王海峰在会上介绍了iRAG实现可控生图的技术链路:
首先,大模型对用户的需求进行分析理解,自动规划精确或者泛化的方案,比如对哪些实体进行增强;
接着,在增强阶段,对需要增强的实体进行检索,并且选择对应的参考;
最后,在生成阶段,百度自研了多模态可控生图技术。一方面,通过局部注意力计算,大模型能够在保持实体特征不变的情况下,实现图像的高泛化生成;另一方面,通过整体注意力计算,实现图像的高精确生成。
2023年换上大模型“大脑”的小度,这次推出的不再是音箱,而是百度的第一副眼镜:小度AI眼镜。
在硬件层面,这幅眼镜自重仅45g,低于行业平均重量49g。为了提高成像效果,眼镜搭载了1600万像素超广角镜头和AI防抖算法;为了提高声音识别准确率、降低漏音,眼镜采用了四麦阵列和开放式防漏音扬声器设计。
在续航能力上,小度AI眼镜用30min就能充满电,实现56小时待机,超5小时连续聆听。这三个指标均超过了行业标杆水平。
将小度AI眼镜与普通眼镜进行区别的,还是在“AI”上。
基于文心大模型和DuerOS AI原生操作系统,小度AI能够实现第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、歌单等功能。
据百度集团副总裁、小度科技CEO李莹介绍,小度AI眼镜将在2025年上半年上市。
会上,百度还官宣了“秒哒”,一个将在2025年Q1上线的0代码应用开发平台。
相较于其他的0代码开发平台,秒哒的特色是,应用的开发过程,由多个多智能体进行协作。
比如,在网页制作过程中,网页的代码编写和部署由程序员智能体完成,网页中的文案由写作智能体完成,文案中最新的资料由检索机器人上网查询,其中的配图又由擅长生图的智能体实现。
最后,负责质检的智能体,还会利用反思能力,运行测试代码,发现其中的bug,并与程序员智能体进行配合修改。
多智能体协作,不仅应用在了针对小白开发者的“秒哒”上,还运用在了针对专业程序员的文心快码Comate上。
王海峰介绍,Comate已经迭代到了3.0版本。在开发全流程中,Comate 3.0中的不同智能体可以实现自动代码质检、代码补全等功能,目的是提高程序员的工作质量和效率,让其把更多精力投入到探索和创新。
文章来自微信公众号 “智能涌现” 作者“周鑫雨”
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales