ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
百度发布iRAG,李彦宏:AI行业最大变化是大模型基本消除幻觉
3271点击    2024-11-13 09:43

“过去24个月,AI行业发生的最大变化是什么?是大模型基本消除了幻觉。”11月12日,百度创始人李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性;无代码工具“秒哒”让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。



截至11月初,百度文心大模型的日均调用量已经超过15亿,相较一年前首次披露的5000万次,增长约30倍。李彦宏表示,“这条陡峭的增长曲线,代表着过去两年中国大模型应用的爆发。”演讲中,李彦宏再次强调,智能体是AI应用的最主流形态,即将迎来爆发点,它将成为AI原生时代,内容、信息和服务的新载体。



以下为李彦宏的主要观点:


文心大模型日调用量达15亿,代表着过去两年中国大模型应用的爆发


“过去24个月,这种全球性的大模型狂热,究竟是一场新的技术革命还是新一轮泡沫?作为中国人工智能的扛旗者,我想我们是有资格回答这个问题的。大家请看这张图:这是文心大模型的日均调用量变化曲线图,到今天这个数字已经超过了15亿次。这是一条非常陡峭的增长曲线,代表着过去两年中国大模型应用爆发。说实话,这个增速是超出了我的预期的。我记得今年5月份,就是6个月之前,当我们的日均调用量达到两亿的时候,我跟我的高管们讨论,讨论大模型的未来,讨论怎么就叫成了。我当时说,如果我们的日均调用量一年之内涨10倍,也就是从2亿涨到20亿,我认为就成了,就说明大家是真需要。现在仅仅半年过去,我们就比较接近这个数字了,势头非常猛。”



过去24个月,AI行业的最大变化是大模型基本消除了幻觉


“去年三月,文心一言发布的时候,我们说百度大模型的特色是知识增强、检索增强。后来发现,检索增强不是百度特色,而是逐步成为了行业的共识。检索增强的手段,英文叫RAG,就是Retrieval-augmented Generation。当然,我们是做搜索起家的,这个方面理应做得最好。这个手段的意义在哪呢?它就是让大模型基本消除了幻觉。要想基于大模型开发应用,消除幻觉是必须的,如果这个模型总是一本正经的胡说八道,就不会有人信你,就不会有应用。有人说我用模型来写小说,有点幻觉可能更有意思,更能引人入胜?不对!即使是文学创作,也需要故事前后保持一致,否则就不是智能而是智障了!”


“所以,如果你要问我,过去这24个月,对这个行业而言,最大的变化是什么?我的回答一定是,大模型基本消除了幻觉,它回答问题的准确性大幅提升了,这让AI从‘一本正经的胡说八道’,变得可用、可被信赖。我们知道,大模型是一个概率模型,生成的内容具有不确定性。采用RAG技术后,大模型会利用检索到的信息来指导文本或答案的生成,从而极大地提高了内容的质量和准确性。”


检索增强的文生图技术iRAG发布,整体效果远远超过文生图原生系统


“今天,文字层面的RAG已经做得很好了,但是图像等多模态内容和RAG的结合还不够。大家请看这张图,这是我们用一个开源模型生成的一张北京天坛的图片,看上去确实有点像天坛,但总觉得哪儿不对。告诉大家,真正的天坛长这样,是三层,但模型生成了四层,这是文生图比较典型的幻觉现象。这种幻觉现象,今天仍然很普遍,所以今天的多模态大模型,没有什么成规模的应用出来。就是幻觉没有解决,至少没有像文生文RAG解决得那么好。”


“今年年初,我们决定要解决图像生成的幻觉问题。我们开发了一项颠覆性的技术叫做iRAG,就是image based RAG,检索增强的文生图技术。之前,完全基于大语言模型的文生图系统,生成的图片常常是“一眼假”,甚至是逻辑不合常理。百度的iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,就可以生成各种超真实的图片,整体效果远远超过文生图原生系统,去掉了机器味儿。”


“随着AI生成图片的可用性大大提高,它的应用空间也随即打开了。比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在创作的成本接近于0。简单说来,iRAG的商业价值体现在:无幻觉、超真实、没成本,立等可取。”


当基础模型能力就绪,我们即将迎来AI应用的群星闪耀时刻


“基础模型能力就绪,我们即将迎来AI应用的群星闪耀时刻。每一个应用都是一颗星,每一个应用都将成为改变世界的力量。那么AI应用从哪里来?到哪里去?有两大AI应用方向:一个是智能体,另一个是产业应用。”



智能体是AI应用的最主流形态,即将迎来爆发点


“智能体是AI应用的最主流形态,即将迎来它的爆发点。今天,全球所有顶尖科技公司都很关注智能体,但像百度这样把智能体作为最重要战略方向的并不多。我认为,做智能体很像PC时代做网站,或者是移动时代做自媒体账号。不同之处是智能体更像人,更智能,更像你的销售,你的客服,你的助理。智能体可能会变成AI原生时代,内容、信息和服务的新载体。”


“为什么这么说?一方面,做智能体的门槛足够低,谁都能上手,在百度的文心智能体平台上,甚至已经有11岁的小学生在创造智能体,然后通过搜索和其他渠道分发出去。另一方面,智能体的天花板又足够高,可以做出功能非常强大的应用。多个智能体的协作,还可以解决更加复杂的问题。”


“目前,文心智能体平台上,已经吸引了15万家企业和80万名开发者参与,覆盖的应用场景非常非常多。文心智能体平台的TOP100智能体是我们基于智能体的分发量、平均对话轮次、用户喜爱度等指标综合遴选出来的。有角色类的,像农民院士智能体,有工具类、行业类的智能体,更有职场、情感、娱乐等类型的智能体。”



公司官方智能体很可能替代官网,成为最直接面向消费者的界面


“公司类智能体相当于AI时代的公司官网。传统官网具有的那些能力,比如公司介绍、产品图片和参数展示、线下门店位置等等,公司类智能体都有。而传统网站没有的主动推荐、及时响应和一对一服务能力,公司智能体也有。”


“智能体与传统官网很不一样的,那就是对最新信息或者最个性化问题的回答。传统的官网,对外界市场信息变化往往不敏感,客服人员对于个性化的问题也难以给出令人满意的回答,就只能做记录,再电话回访。而智能体可以利用大模型的理解、生成、逻辑、记忆四大能力和检索增强能力,快速从网上获取最新、最准确的消息,并在一秒内就给出一个令人满意的答案。如果你还有更复杂的问题,智能体也可以通过不断地跟你互动、澄清、反问,来最终满足你的需求。”


“不仅是比亚迪,像联想、沙宣、洋河这些企业,现在都已经拥有了自己的官方智能体。比起传统的官网,智能体既是品牌顾问又是金牌销售和客服,既专业又贴心,一对一的服务,大幅地提升了互动营销的效率。比亚迪的官方智能体上线后,销售线索转化率提升了119%。联想AIPC智能体在9月份的互动率提升了89%,销售线索转化率提升了80%。”


“未来,公司官方智能体很可能将替代官网,成为最直接面向消费者的界面。”



文心多模态大模型加持 发布万能白板“自由画布”


“百度文库和网盘联合开发的“自由画布”是一个全新的工具类智能体。我们以行业分析师撰写研究报告为例。在很多人的认知中,行研报告就是图文结合的内容。但今天,它可以是另一种形态,有传统的图文、表格,也有发布会视频、电话会录音等,组成一种更全的多模态报告。这在自由画布上,可以很好地实现。”


“自由画布可以帮你完成从找资料、到编辑、再到生成和分享的全部任务,输入自由、编辑自由、创作自由、分享自由。”


“自由画布就是一个由文心多模态大模型加持的万能白板,它能激发人们的灵感和创造力。因为自由画布,每个孩子都能成为故事的主角。因为自由画布,每个人都可以成为漫画家、短视频导演。而且,这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!”


不是要推出一个“超级应用”,是要打造数百万“超级有用”的应用


“今天,我在这里发布大模型的100大产业应用,它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业,百度希望与更多合作伙伴和客户一起推动智能产业生态的建设,共同来加速国家“人工智能+”行动计划的落地。发布这100大产业应用,其实也代表我们的一种认知和态度。百度不是要推出一个‘超级应用’,而是要不断地帮助更多人、更多企业打造出数百万‘超级有用’的应用。”

百度发布iRAG,李彦宏:AI行业最大变化是大模型基本消除幻觉

无代码工具“秒哒”发布,将迎来一个“只靠想法就能赚钱的时代”


“今天,我们的确有条件让一行代码都看不懂的人具备程序员的能力,有让任何一个想法都能迅速地、低成本地变为现实的能力。当然,这需要工具,这个工具就是秒哒”


“秒哒是一个不需要写代码就能够实现任意想法的软件,一个由大模型和智能体组成的全新的软件,我认为它是‘迄今为止人类历史上最复杂的多智能体协作工具’,它包括无代码编程、多智能体协作以及规模化地调用各种工具等能力。注意,秒哒是跟任何辅助代码生成工具很不一样的,因为它根本不需要你能看懂代码。”


“有了秒哒,一个人通过自然语言交互,就可以完成一整套系统的搭建,还可以做任意场景下的各种应用,应用的复杂度也会随着我们技术的提升不断提升。最早开始的时候,它只能做一些比较简单的编程,比如说两三百行代码,以后随着基础模型能力提升,以及秒哒本身技术能力的演进,它就可以做越来越多的,越来越复杂的事情。这意味着什么?这意味着,你不需要去招募项目经理、设计人员、开发人员、测试人员等等,自己就可以指挥多个智能体来协同完成任务。也就是说,只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。以前有个想法,你还要去执行,把想法做出来。现在只要你有想法,秒哒就可以帮你做了。”



“我想,AI之所以被称为产业革命级的机会,就是因为它对于社会经济,带来了生产力的无限扩张。秒哒让每个人都具备程序员的能力,会说话就能做出应用来,它对于人类工作效率的提升怎么说都不为过。”


软件吞噬世界?“AI applications are creating the world”


“在人类信息技术变革的不同历史时期,应用出现的样貌也不一样:在PC时期,它是一个个的软件和网站;在移动时期,它是一个个的APP和可被关注的账号;在AI时代,应用主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。”



“我是软件工程师出身,国外有一种说法叫‘软件吞噬世界’。但我认为,这个世界不应该被吞噬,而应该被创造。AI时代,应用创造世界。所以请大家和我一起见证,AI applications are creating the world。”


文章来自于 “量子位”,作者“十三”



AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI