AI资讯新闻榜单内容搜索-AI测试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI测试
又一个细分领域被AI颠覆,750万美元押注AI产品测试,这家公司让4-6周测试周期缩短至数小时

又一个细分领域被AI颠覆,750万美元押注AI产品测试,这家公司让4-6周测试周期缩短至数小时

又一个细分领域被AI颠覆,750万美元押注AI产品测试,这家公司让4-6周测试周期缩短至数小时

当产品团队还在为等待 4-6 周的 A/B 测试结果而焦虑时,一家名为 Blok 的初创公司正在用 AI 虚拟用户彻底颠覆这一传统模式。他们让产品测试从"weeks"压缩到"hours",从"reactive"转向"predictive",这不仅仅是效率的提升,更是产品开发哲学的根本性变革。

来自主题: AI资讯
5642 点击    2025-07-12 12:55
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯
6335 点击    2025-06-12 15:30
AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力,结果显示,Claude 3.5 Sonnet表现最佳,人类屈居第四!

来自主题: AI技术研报
7832 点击    2025-05-25 16:22
最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

最先进的AI大模型,为什么都在挑战《宝可梦》?

各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。

来自主题: AI资讯
8225 点击    2025-05-13 11:16
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。

来自主题: AI技术研报
7135 点击    2025-04-18 15:20
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

来自主题: AI资讯
8228 点击    2025-04-18 10:37
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

谷歌DeepMind研发的DreamerV3实现重大突破:无需任何人类数据,通过强化学习与「世界模型」,自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步,并已登上Nature。

来自主题: AI技术研报
6090 点击    2025-04-03 16:56