AI资讯新闻榜单内容搜索-Mark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mark
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
8349 点击    2025-11-28 09:28
NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

市场不是机器,而是人群;不是公式,而是故事。TwinMarket让AI学会讲述这些故事。 1994年,美国圣塔菲研究所(Santa Fe Institute)推出了一个野心勃勃的项目:人工股票市场(A

来自主题: AI技术研报
7683 点击    2025-11-16 10:40
Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到,Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型(前沿模型)持平,并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型,以及那些被标榜为"快速"的模型。

来自主题: AI技术研报
8414 点击    2025-11-11 11:12
他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

1997年首提AGI的马克·古布鲁德(Mark Gubrud),从地下室论文到被遗忘的命名者;而今AGI成巨头博弈与数千亿美元资本的关键开关,微软与OpenAI以其为合同枢纽与控制权杠杆,标准却愈发模糊。

来自主题: AI资讯
7044 点击    2025-11-05 09:56
Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

美国当地时间 10 月 29 日,据外媒消息,AI 编码工具 Cursor 背后的公司 Anysphere 的联合创始人 Arvid Lunnemark 已离职。Cursor 最初由四位联合创始人创立,除了 Lunnemark 之外,还有 Aman Sanger、Michael Truell 和 Sualeh Asif。

来自主题: AI资讯
7460 点击    2025-10-31 09:39
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
7425 点击    2025-10-23 16:22
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
8945 点击    2025-10-23 12:20
6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。 直到近日,AlphaArena 出现了。 这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已开放全网围观:竞技场地址:https://nof1.ai/

来自主题: AI资讯
8733 点击    2025-10-20 15:32
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
7338 点击    2025-10-20 10:13