
Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大
Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大评估大模型是否诚实的基准来了!
来自主题: AI技术研报
7163 点击 2024-07-12 00:59
评估大模型是否诚实的基准来了!
上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena
真正与GPT-4o齐头并进的国产大模型来了!刚刚,LMSYS揭开最新榜单,黑马Yi-Large在中文分榜上与GPT-4o并列第一,而在总榜上位列世界第七,紧追国际第一阵营,并登上了国内大模型盲测榜首。
最公平的大模型基准测试诞生了!来自LLM竞技场,最接近人类偏好,数据新鲜、速度快、成本低,严格分离学渣和学霸。
Character.AI 在效率工具的维度外,开辟了情感娱乐的赛道,甚至引发了 AI 聊天陪伴产品的热潮。在国内,类似的 AI 聊天陪伴类产品也越来越多。得益于新的技术变量,这类产品以一种新的方式,满足用户已被发掘过的需求。