AI资讯新闻榜单内容搜索-Benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Benchmark
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
6600 点击    2025-10-23 16:22
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
8084 点击    2025-10-23 12:20
6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。 直到近日,AlphaArena 出现了。 这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已开放全网围观:竞技场地址:https://nof1.ai/

来自主题: AI资讯
7713 点击    2025-10-20 15:32
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
6488 点击    2025-10-20 10:13
6个月内连融两轮5300万美元,这家AI税务公司让Benchmark和YC都抢着投

6个月内连融两轮5300万美元,这家AI税务公司让Benchmark和YC都抢着投

6个月内连融两轮5300万美元,这家AI税务公司让Benchmark和YC都抢着投

最近,一家叫 Numeral 的公司刚刚完成了 3500 万美元的 B 轮融资,由 Mayfield 领投,Benchmark、Uncork Capital、Y Combinator 和 Mantis 参与。这轮融资距离他们今年 3 月完成的 1800 万美元 A 轮仅仅过去了 6 个月,公司估值已经达到 3.5 亿美元。

来自主题: AI资讯
8280 点击    2025-09-28 09:52
机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

答案或许渐渐清晰。李飞飞团队与斯坦福 AI 实验室正式官宣:首届 BEHAVIOR 挑战赛将登陆 NeurIPS 2025。这是一个为具身智能量身定制的 “超级 benchmark”,涵盖真实家庭场景下最关键的 1000 个日常任务(烹饪、清洁、整理……),并首次以 50 个完整长时段任务作为核心赛题,考验机器人能否在逼真的虚拟环境中完成真正贴近人类生活的操作。

来自主题: AI资讯
7300 点击    2025-09-25 10:58
哈佛95后华人打造“AI版谷歌搜索”,获Benchmark和英伟达等投资6亿元,估值已达50亿元

哈佛95后华人打造“AI版谷歌搜索”,获Benchmark和英伟达等投资6亿元,估值已达50亿元

哈佛95后华人打造“AI版谷歌搜索”,获Benchmark和英伟达等投资6亿元,估值已达50亿元

华人 95 后“叫板”谷歌搜索,联合创办 AI 搜索公司融资 6 亿多元!2021 年,美国哈佛大学华人校友 Jeffrey Wang 和室友威尔·布莱克(Will Bryk)创办了一家名为 Exa 的 AI 搜索公司。经过几年的发展,其于当地时间 2025 年 9 月 3 日宣布已筹集到 8500 万美元的 B 轮融资(约等于 6.16 亿人民币),公司估值达到 7 亿美元。

来自主题: AI资讯
6942 点击    2025-09-15 11:26
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报
7640 点击    2025-09-06 11:50
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准

我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。

来自主题: AI技术研报
7348 点击    2025-08-31 12:45
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。

来自主题: AI技术研报
6836 点击    2025-08-27 11:42