AI资讯新闻榜单内容搜索-模型测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型测试
大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??

来自主题: AI资讯
9694 点击    2024-07-16 20:05
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。

来自主题: AI资讯
8386 点击    2024-07-01 12:21
用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。

来自主题: AI技术研报
3162 点击    2024-03-13 11:15
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。

来自主题: AI技术研报
2925 点击    2023-11-16 14:20
专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!

专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!

专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!

在刚刚开幕的ICCAD 2023大会上,英伟达团队展示了用AI模型测试芯片,引发了业界关注。来自英伟达的研究团队开发了一种名为ChipNeMo的定制LLM,以公司内部数据为基础进行训练,用于生成和优化软件,并为人类设计师提供帮助。

来自主题: AI资讯
4665 点击    2023-11-01 14:56