ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用
5807点击    2023-09-26 14:26

百川大模型,昨日全面升级!


就在9月25日,百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。



体验地址:https://www.baichuan-ai.com/home


这一次,它的数学和逻辑推理能力显著提升。


更重要的是,通过高质量数据体系和搜索增强,Baichuan2-53B的幻觉大大降低,是目前国内幻觉问题最低的大模型。


不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan2-53B API接口。


这意味着,百川智能正式进军To B领域,从此将开启商业化进程。


幻觉处理,国内遥遥领先


最值得一提的是,新升级的Baichuan2-53B,在「幻觉」处理上已经在国内行业遥遥领先了。


简单讲,「幻觉」就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。




别看GPT-4在多种任务上表现突出,但也无法逃过这一诅咒。


那么,为什么大模型会出现「幻觉」?


4月,OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。


在Schulman看来,LLM黑盒内部隐藏着一个「知识图谱」。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。



针对这一难题,百川智能又是如何在大模型的「幻觉处理」上,做到业内领先的呢?


在高质量数据构建上,Baichuan2-53B独创了一套数据质量体系。


以低质、优质为标准将数据进行分类,确保Baichuan2-53B始终使用优质数据进行预训练。




另外,在信息获取方面,Baichuan2-53B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。


这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。


比如,在解释「勾三股四弦五」这个问题上,GPT-4显然是在胡说八道。




相比之下,Baichuan2-53B一次就给出了正确的回答。



再比如,「周树人和鲁迅是不是同一个人」这道经典问题,Baichuan2-53B的回答既全面又准确。



可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan2-53B有效降低了模型幻觉。


经过FacTool评测后的结果显示,Baichuan2-53B的综合得分为140.5,在主流基础大模型中仅排在GPT-4之后,处于国内领先水平。



FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta 等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。




项目地址:https://github.com/GAIR-NLP/factool


能力升级,推理100% up


其实,Baichuan2-53B已经是百川智能发布的第6款大模型了。


4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!


早在8月8日Baichuan-53B刚发布时,它就表现出了优异的知识问答、文学创作才能。


如果要问,评价一款大模型是否领先的重要指标是什么,相信「数学和逻辑推理能力」,会是诸多业内人士给出的答案。


这次,在Baichuan-53B的基础上,Baichuan2-53B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。


具体来说,它的逻辑推理能力提升100%,数学能力提升31%,语言理解能力提升29%,文本创作提升18%,知识问答提升9%。




数学推理


数学能力大升级的Baichuan2-53B,做起数学应用题来当然是不在话下。


比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?


Baichuan2-53B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。



再比如下题中,Baichuan2-53B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。



再来个经典的「两地相距多少千米」的问题,Baichuan2-53B通过分步计算,得出了正确答案。



推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?


Baichuan2-53B毫不费力,直接得出「星期四」!



接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。


现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?


Baichuan2-53B行云流水地开始作答,6步内给出了正确答案。



经过多轮的测试可以发现,升级后的Baichuan2-53B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。


时效问题


而在时效性这方面,Baichuan2-53B的表现可谓十分优异。


杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上,也答对了。



甚至,Baichuan2-53B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。



再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。


此次电影节,是否有中国电影和演员获奖?


Baichuan2-53B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。



梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。


对此,Baichuan2-53B也是了如指掌。



同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。



开放API,正式进军商用


不仅如此,这次Baichuan2-53B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。


API地址:https://platform.baichuan-ai.com


这项服务是否有门槛呢?


可以说,几乎没有。Baichuan2-53B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。


而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。


总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。


要说企业用户最关注的,莫过于安全合规问题了。


对此也无需担心。


作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。


而借助着Baichuan2-53B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。


可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。


参考资料:https://www.baichuan-ai.com/home




文章转载自微信公众号“新智元”

AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI