
大模型集体失智!9.11和9.9哪个大,几乎全翻车了
大模型集体失智!9.11和9.9哪个大,几乎全翻车了没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??
来自主题: AI资讯
9694 点击 2024-07-16 20:05
没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??
大力出奇迹,也是一个新思路。
LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。
还有12款大模型全军覆没……
随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。
如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。
在刚刚开幕的ICCAD 2023大会上,英伟达团队展示了用AI模型测试芯片,引发了业界关注。来自英伟达的研究团队开发了一种名为ChipNeMo的定制LLM,以公司内部数据为基础进行训练,用于生成和优化软件,并为人类设计师提供帮助。