AI资讯新闻榜单内容搜索-AI测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI测试
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯
6122 点击    2025-06-12 15:30
AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!

来自主题: AI技术研报
7673 点击    2025-05-25 16:22
最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。

来自主题: AI资讯
8067 点击    2025-05-13 11:16
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。

来自主题: AI技术研报
7013 点击    2025-04-18 15:20
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

来自主题: AI资讯
8074 点击    2025-04-18 10:37
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

谷歌DeepMind研发的DreamerV3实现重大突破:无需任何人类数据,通过强化学习与「世界模型」,自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步,并已登上Nature。

来自主题: AI技术研报
5962 点击    2025-04-03 16:56
75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI

在三方图灵测试中,UCSD的研究人员评估了当前的AI模型,证明LLM已通过图灵测试。在测试中,同时与人及AI系统进行5分钟对话,然后判断哪位是「真人」。结果,AI竟然比「真人」还像人:

来自主题: AI资讯
6985 点击    2025-04-03 09:54
速递|继AI编程,北美VC投资AI软件测试

速递|继AI编程,北美VC投资AI软件测试

速递|继AI编程,北美VC投资AI软件测试

据 The Information 报道,总部位于旧金山的 AI 软件测试公司 Ranger 在 12 月获得了由General Catalyst领投的 650 万美元种子轮融资,以及在 2023 年 11 月获得的由XYZ领投的 240 万美元前种子轮融资。

来自主题: AI资讯
9321 点击    2025-01-17 15:50
用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢?

来自主题: AI技术研报
5314 点击    2024-08-31 10:05