
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。
在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。
事实证明,聊天机器人跟云端的其他服务一样容易出问题。
昨日,ChatGPT、Claude、Gemini和Perplexity四大聊天机器人同时宕机,引发网友竞相猜测。那么,在AI崩溃的几个小时里,对人类造成了什么影响?宕机又是如何发生的呢?
如果说现在什么事能引发全球打工人们同时间大暴走,那应该就是昨夜经历的:AI聊天机器人集体宕机。
Anthropic的25岁参谋长自曝因为深感AGI,未来三年自己的工作将被AI取代。她在最近的一篇文章中预言了未来即将要被淘汰的工种。难道说,Claude 3模型已经初现AGI了吗?
在云计算领域竞争最激烈的时代,亚马逊云科技曾提出,云计算的普惠是技术升级带来的。这个说法换到如今的生成式 AI 时代也是成立的。
一直以来,UC伯克利团队的LMSYS大模型排行榜,深受AI圈欢迎。如今,最有实力的全新大模型排行榜SEAL诞生,得到AI大佬的转发。它最大的特点是在私有数据上,由专家严格评估,并随时间不断更新数据集和模型。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。
刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。
Anthropic发布最新Claude宪法,兼具标准性和灵活性。语言模型如何决定它将涉及哪些问题,哪些问题它认为不合适涉及?为什么它会鼓励某些行为,而阻止另一些行为?语言模型有哪些「价值观」?