# 热门搜索 #
搜索
现在起,真正的强者敢于直面「扣子」的「模型广场」
5889点击    2024-06-15 15:33

字节版 GPTs “扣子”上线后,五年级小学生都能创建自己的英语外教。


“扣子”有一个相当大的优势,就是支持国内知名大语言模型作为底座,还免费,许多 “AI bot" 孕育而生。


不过,无限续杯也有烦恼。“学霸”这么多,挑谁最合适?看跑分?不太懂,也飘渺。要不,大家现场"全开麦“ PK一下?


“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”,上线了。



一、“模型广场”:评测玩出盲盒的乐趣


“扣子”支持国内多个知名主流大语言模型作为底座,最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ,新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。



名单不断更新中,截图时间6月13日


模型参数、架构各有千秋,特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时,就问过一个难倒大人的问题,这些“人”,该选谁啊?谁擅长做手抄报呢?


现在,有了官方指引——一个在线大语言模型对比与评估系统“模型广场”,大伙儿“物尽其用”的难度会小很多。


你可以将 “模型广场”视为一个类似“歌手”的竞技舞台,大语言模型“选手”可以不同方式 PK。每一轮对战结束,由观众(用户)给结果投票,看谁表现更好。


为避免先入为主,“选手”匿名出战,用户投票后才会亮出真实身份。


“模型广场”支持三种对战模式。


一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。



“扣子”会随机选取两个匿名模型,基于“数学老师” 既有工作流、知识库等能力配置,回答我们挑选的“容斥”问题(如下图)。



我们人工算出答案 “7”。首先,算出至少参加一科竞赛的人数(15+8+6 -3*2)。然后,从班级总人数 30 中减去这个结果(30-23),即可。


模型 A 很快有了答案,思路清晰简单,答案正确。



模型 B 把“思考”过程写得很详细、很复杂,但结果不对。



评估结果,有四个选项可选:



我们认为“ A 表现更好”,投票后,谜底揭晓。



第二个是随机 Bot 对战。


如果说,指定 Bot 对战适合评估不同“选手”在指定岗位(比如数学教学)上的业务能力。那么,随机 Bot 对战就是现场抽题、即兴发挥,评测“选手”任意业务场景下的能力,综合能力要求更高。


随机 Bot 对战模式下,“扣子”(不再是用户)会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评估”专家。



“扣子” 会随机选择两个匿名模型,基于“军事大模型评估专家” Bot 的编排、工作流、知识库等能力配置,回答我们的问题。


如何看待孙子兵法的价值?模型 A 的回答,有些片面。



相比之下,模型 B 的回答更为深入、全面。



这一票给 B ,谜底揭晓。



第三个是纯模型对战。


前两个对战模式都是基于 Bot ,“选手”会借助工作流等 Bot 配置来完成任务。


纯模型对战考验的是大模型“裸”的文本生成能力,Bot 配置带来的影响都被清空。



针对“老问题”,模型 A 像粗心的小朋友。


思路对、甚至算式都对,结果计算错误(29-6=24?),功亏一篑:



模型 B 简单利落地解决了问题。



Wait,这答题风格看着眼熟,好像见过?


投票给 B ,谜底揭晓。看来, Baichuan4 数学能力确实强一些:



其实,用过 Quora AI 聊天应用 Poe 的人,对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型,可以针对同一任务,直接比较不同大模型的结果(但不设投票)。


看看这些回答,如果接入“模型广场” PK ,GPT-4o 也不见得稳操胜券。




二、为何大模型需要“大众点评”?


纸面指标好的模型,不一定在实战中表现优秀。


开发者和普通用户追求的是应用落地,在“模型广场”,他们可以直接比较“选手”在真实、具体业务场景下表现,多维度评估能力,选择最合适的一个。


当然,还有一个关键,不用自己掏钱!


比如,几轮 PK 后,我们发现 Baichuan4 数学能力突出,如果要做数学作业 Bot ,肯定会优先考虑它;如果辅导低年级语文学习 Bot ,我们会考虑豆包。


通义千问-Max 文本写作突出,一份书单推荐也能写得文采飞扬,看来适合做手抄报设计 Bot 的底座。


如果要找“六边形战士” ,最好三种对战模式都玩到。你会体感到,有的模型的回答切中要害,但言简意赅;有的回答丰富详尽,但稍显啰嗦;有的擅长多轮对话理解用户意图,但知识覆盖明显不足。多轮 PK,总能找到最靠近需求的一个。


除了实战"亲测",“模型广场”还会定期推出大语言模型排行榜。和一些常见大语言模型性能榜单相比,它有两个明显不同。


一个是动态更新,可以持续纳入新的评测任务和真实用户反馈,及时反映模型的表现和进步。


另一个就是基于人类偏好,就像一个大模型的“大众点评” 。


其实,LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前,成为引用次数最多的大语言模型排行榜之一,被领先的大模型开发商和公司广泛引用。


至于为什么要纳入人类偏好,“扣子”也有自己的解释:


“对于 Chat-GPT 等对齐过人类偏好的对话模型,往往需要一些半开放或开放式问题才能合理评估模型能力,传统 LLM 基准测试框架在这种场景下可能会略有不足。”


这是“扣子”推荐的一些赛题。



第一题是一个开放性问题,评估“今朝晴朗可喜”短文,不同评估者可能对同一篇文章有不同的看法和评分标准。


第五题属于半开放,对于 Tracy 是否应该支付生父的医疗费用,不同评估者的道德观和价值观可能不同,导致对答案的评价产生较大差异。


传统方法确实拿捏不准答案好坏。一方面,回复的质量无法用客观指标衡量。另一方面,也没有一成不变的评估程序,判断不同 Bot 回答的优劣。


这个时候,对比不同模型的回复是一个补强的办法。另外,就是众包评测。在“扣子”看来,客户自己就能判断出什么是最合适的模型。


当然,“模型广场”为“选手”提供展示机会的同时,也会将压力传给大模型厂商,特别是当自家“娃” 表现不佳、排名靠后时。


如果"模型广场"能带来良性竞争,对行业发展是一件好事。


真实消费场景的数据,能为大模型的优化提供参考。评分排名,可以帮助厂商判断自己在行业中的位置,以及与竞品的差距。


“模型广场"聚集了大量对模型性能有强需求的开发者用户,对于模型表现突出、口碑良好的厂商而言,这意味着广阔的潜在客户群体。


通过"模型广场",开发者们可以充分“把脉”前沿大模型,快速开发和迭代各种创新应用,将 AI 生成能力嵌入到各行各业的场景应用,蓬勃 AIGC 生态。


三、“这东西,你真能用得上!”


“模型广场”上线时,扣子还联合 Intel 推出的一个主题 Bot 征集活动,叫扣子 AI 工坊( Coze AI Factory )。


聚焦图文创作、实用工具、互动创意三个赛道,未成年人也能参与,还有上万元奖金可以拿。


“扣子” 定位在平台,不难看出,为求取最大的使用量,他们将心思都倾注在了 “你也能上手 DIY ”。


确实,毫无编程背景,我们曾在一分钟内搞定一个 Bot,尽管是“毛坯”。


“装修”也不费力。因为,为拓展 Bot 的各种技能,插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。



除了技能插件,还有知识库、数据库、长期记忆等,让 “AI Bot ”变得更加个性化和本地化。


为了有更好的交互体验,”扣子”还支持配置开场白、快捷指令、背景图片、语音等。



当然,最特别的一点是,“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台,无缝嵌入到你的生产力工具中。


至此,除了力压开发难度和成本,“扣子”又将 AI 应用的运营难度、成本,一降再降,并完成闭环。



经历了过去一年的大语言模型热,国内的玩家们也都明白,产品要有商业落地才能活下去。


最近有新闻报道,在过去六个月时间里,OpenAI 年收入增长了一倍多,大部分收入来自 ChatGPT 等聊天机器人订阅费,以及软件开发人员付费访问模型 API 。


字节也为 AIGC 产品规划了两条路径,一个是赋能既有业务,另一个就是卡位不同赛道,开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端应用做的探索。


在强大技术实力、丰富的数据资源和广泛应用场景加持下,期待“扣子”接下来的一路生花。


文章来源于:微信公众号机器之心,作者:Sia


关键词: 扣子 , 模型市场 , AI , 大模型 , GPTs
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/