AI资讯新闻榜单内容搜索-Ai测评

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: Ai测评
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报
6889 点击    2025-03-18 10:54
超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

来自主题: AI技术研报
5863 点击    2025-02-17 17:47
比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型(如VLMs,例如Minimax、Qwen-V)和尖端图像生成技术(如Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。

来自主题: AI技术研报
9008 点击    2024-11-29 09:53
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报
7171 点击    2024-11-20 15:02
1分钟就能生成一款摸鱼小游戏,现在大模型都这么厉害了?|AI测评师

1分钟就能生成一款摸鱼小游戏,现在大模型都这么厉害了?|AI测评师

1分钟就能生成一款摸鱼小游戏,现在大模型都这么厉害了?|AI测评师

最近忽然很想玩小游戏。 不用多复杂,最基础的扫雷、空当接龙就行。 奈何电脑是os系统,不能一键转换到“摸鱼”小游戏模式,我斗胆问了下大模型,能否一键帮我生成。 别说,还都应了我。

来自主题: AI资讯
3446 点击    2024-10-11 14:16
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么?还有哪些不足?

来自主题: AI技术研报
9265 点击    2024-10-01 14:29