ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
11项指标击败GPT-4o!360攒局让16家大模型联手作战,组成最强“六边形战士”
7976点击    2024-08-05 14:25

终于,国产大模型能在综合能力上也能与GPT-4o一决雌雄了。


在12项指标的测试中,这个模型有11项都超过了GPT-4o,综合能力则高出了10个百分点


而且在诗词赏析等中文特色领域优势更加明显,“最难中文Benchmark”弱智吧也有重大突破



不过,这并不是一家大模型厂商单打独斗的结果,而是由16家厂商组成的“联合战队”


战队的发起者是360,除了自己参与外,包括BAT在内的大厂有百度、字节跳动、腾讯、阿里巴巴、华为,国产大模型“五小虎”, 智谱AI、月之暗面、MiniMax、百川智能、零一万物,还有五家头部垂类厂商,商汤科技、科大讯飞、好未来、幻方量化、面壁智能,总计16家厂商都已悉数到齐。(注:以上排名不分先后)


现在,这个“联合战队”已经被请进了产品——在AI助手当中,所有用户都能免费使用。



十多个大模型给你打工


在 AI助手当中,16家厂商的大模型已齐聚一堂,可以在同一平台直接对话,想选哪个就选哪个



而且中途还可以随时切换模型,系统会记住前面的上下文,让后面的模型继续完成对话。


比如在下面这个对话窗口中,我们问了智谱9.11和9.8哪个大,然后就把模型切换成了星火,直接问是怎么比的。


从对话中可以看出,后面换上来的星火准确地得知了“怎么比的”这四个字问的是小数大小的比较。



当然,针对同一问题,也可以直接召唤出另一家的模型现场PK


在模型PK的同时,我们也能看到更多的信息或答案,不仅可以让答案更详尽,还能交叉验证。



举个例子,我们提出了关于电视剧《雍正王朝》中两个角色关系的问题,问题首先提给了智谱。


接着我们又让文心一言也来回答一下,看看能不能获取到更多的信息,结果智谱的回答没有错,文心一言则给出了更为详细的补充。



更关键的是360 AI助手针对选择困难症患者,或者不清楚哪个模型更合适的用户也极为友好。


只要选择“AI助手”本体作为对话模型,系统就会根据对话内容判断你的意图,然后根据任务类型自动匹配最合适的模型



比如在完成写作类任务的时候,AI助手就会给我们分配擅长文案的豆包。



遇到编程问题,就会召唤代码能力较强的DeepSeek。



以逻辑推理为主的问题,可能会让智谱来应对。



当然界面中所展示的任务分类比较具有概括性,实际运行过程中AI助手还对任务进行了更细粒度的划分。


另外,在选择模型的同时,AI助手还会先进行联网搜索。


所以,使用AI助手的另一个好处就是可以获得最新的信息,而不必担心模型的知识库更新时间。



针对一些常见任务,AI助手平台还准备了专用的助手,能够更好地实现这些功能。



除了在网页中使用,AI助手还有另外两大入口——桌面和360安全浏览器



比如在360安全浏览器中,安装好AI助手插件,在浏览网页时就会在右下角看到一个悬浮球。


点击一下就可以在右侧边栏中召唤出AI助手,写作时也可以在同一个窗口中快速和AI对话了。


另外在鼠标划过悬浮球时,上方还会出现一个新的按钮,点击之后就可以对当前浏览的页面进行一键总结。



页面里的细节内容,也可以向AI助手提问。



而且还支持总结英文内容。



另外就是针对页面中的个别词句,选中后会出现AI助手的工具条,可以对选中部分进行翻译、解释,或联网检索更多相关信息。



桌面端则依托360安全卫士实现,功能与浏览器相似,但把划词召唤的范围从网页扩展到了整个系统。


那么在AI助手的背后,又运用了什么样的技术呢?


独创“专家协同”架构


实际上,这种根据需求调度大模型的用法,也刚好是360推出的一项新技术——CoE(Collaboration-of-Experts),即专家协同架构


我们知道,很多国产模型在单项指标上都打平甚至超越了OpenAI,但论综合实力,差距就显现出来了。


而360的思路,是改变这种“单打独斗”的模式,构建大模型“专家集群”,组成混合大模型,从而各取所长,以“联合战队”的方式迎战GPT-4o。


结果,基于360 CoE架构的、由16家国产大模型组成的混合大模型在12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分。


而且除了代码以外,其余11项指标均优于GPT-4o。


特别是在“弱智吧”和诗词赏析这类比较具有中文特色的问题上,CoE的领先优势更加明显。



相比于MoE(Mixture-of-Experts,混合专家)架构,360的CoE模型在速度、智能和成本三个层次上都拥有显著的优势。


CoE通过意图识别和任务调度,最优化推理资源分配,提升效率,降低成本,推理成本下降90%


为了能够以最高效的方式对CoE架构中的模型进行调度,至少有两方面的工作不可或缺。


一是对这些模型能力的全面评估,只有这样,才能了解每个模型所擅长的领域,知道应该给模型分配什么样的任务。


为此,360对专家库中的模型在12个领域的表现进行了全方位测试,摸清了模型的特色能力。



除GPT-4o外,其余模型名称已隐去


另一个方面,就是用户意图的解读了——对任务需求的理解,显然是分配模型不可或缺的基础。


基于过去10年在做搜索引擎时积累的技术和数据,360训练出了能识别超过1亿种意图分类的专用模型。



让AI更加普惠


除了技术功底,我们不仅还想问,360是如何组局,让15家大模型厂商“尽入毂中”的呢?


360公司创始人兼董事长周鸿祎介绍,众厂商愿意合作的出发点在于大模型投资巨大,只有有人用才有可能覆盖成本,才能不断改进产品


而360拥有大量用户,可以开放桌面和浏览器两大明星场景,可以给这些模型带来庞大的用户群体。


相比于插件,这两个入口让用户离大模型的能力非常近,而大模型今天最大的需求恰恰就是接近场景和用户,用户才能使用。


另外,集成式的AI助手规避了单个大模型的能力短板,各取所长能够超过GPT-4o,这就给了厂商一个让用户接触使用的机会,未来还好释放出更多的场景。


可以说,360 AI助手的这种模式,是AGI到来前一种很好的提升模型水平的方案,对提高AI渗透率也有所裨益。



最近,国内的大模型厂商开始形成共识,变得更加开放,纷纷提供的更便宜的Token API。


所以,360对这桌面和浏览器两个入口的开放,不仅是为了“聚天下英才”,也是在顺应这种走向开放的大趋势。


站在更高的层次上,360还希望实现AI向着更多人的普惠


周鸿祎认为,AI并不是会不淘汰人,而是会淘汰不懂得用AI的人;而对于会用的人来说,AI将是强有力的工具。


但同时,AI本身也不应该居高临下,而是应该让愿意学习它的人都有机会掌握。


这就是360所讲的AI普惠——让所有人能够享受AI带来的能力,避免落后于AI时代。


文章来源于“量子位”,作者“ 关注前沿科技


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/