AI资讯新闻榜单内容搜索-Benchmark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Benchmark
速递| OpenAI与Benchmark投资前员工创立的初创公司,AI材料科学Periodic Labs估值10亿美元

速递| OpenAI与Benchmark投资前员工创立的初创公司,AI材料科学Periodic Labs估值10亿美元

速递| OpenAI与Benchmark投资前员工创立的初创公司,AI材料科学Periodic Labs估值10亿美元

两年半前,Liam Fedus 曾参与 ChatGPT 的研发团队,掀起了人工智能热潮。如今他加入了日益壮大的 OpenAI 前员工创业阵营,乘着 AI 投资风口创立自己的企业。

来自主题: AI资讯
5791 点击    2025-06-06 16:19
2025,AI Agent赛道还有哪些机会?

2025,AI Agent赛道还有哪些机会?

2025,AI Agent赛道还有哪些机会?

进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资;

来自主题: AI资讯
7384 点击    2025-05-27 13:06
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报
7328 点击    2025-05-27 09:50
AI冷战升级!美国财政部开始审查Benchmark投资Manus,套壳应用也无法躲避科技地缘政治风暴

AI冷战升级!美国财政部开始审查Benchmark投资Manus,套壳应用也无法躲避科技地缘政治风暴

AI冷战升级!美国财政部开始审查Benchmark投资Manus,套壳应用也无法躲避科技地缘政治风暴

根据TechCrunch和Semafor等报道,美国财政部正在审查Benchmark Capital对中国初创公司Manus AI的7500万美元投资,据两位知情人士透露,这已经反映出中美之间的科技竞争已经升级到政治层面。

来自主题: AI资讯
10562 点击    2025-05-10 22:48
OpenAI和Google正在玩一个99%的人都不知道的游戏

OpenAI和Google正在玩一个99%的人都不知道的游戏

OpenAI和Google正在玩一个99%的人都不知道的游戏

AI研究中,基准测试(benchmark)和排行榜在评估模型性能上扮演着关键角色。

来自主题: AI技术研报
7970 点击    2025-05-10 14:29
外媒爆料:Manus完成7500万美元融资,估值近5亿美元、比上轮增长5倍

外媒爆料:Manus完成7500万美元融资,估值近5亿美元、比上轮增长5倍

外媒爆料:Manus完成7500万美元融资,估值近5亿美元、比上轮增长5倍

外媒报道,Manus 最近完成了一轮由美国风险投资公司 Benchmark 领投的 7500 万美元的融资。蝴蝶效应计划利用这笔资金将其服务扩展到包括美国、日本和中东在内的其他市场。据 The Information 上周报道,Manus 使用 Anthropic 的 Claude AI 模型及其他工具,平均每个任务需向 Anthropic 支付 2 美元。

来自主题: AI资讯
8209 点击    2025-04-25 21:44
三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准,通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务,使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报
5080 点击    2025-04-08 14:26
超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

超70%代码基准没有质量保证!港科大最新「指南」全面调研10年274个评测集

近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报
7372 点击    2025-03-18 10:54
解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

自媒体的反应堪称狂热:“通用Agent终于实现了!”“这是继DeepSeek之后的又一技术革命!”这样夸张的赞誉随处可见。从Benchmark来看,它的表现确实非常亮眼,在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。

来自主题: AI技术研报
8350 点击    2025-03-09 02:07
OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

OWL:复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

最近AI圈最炸的瓜,毫无疑问是——Manus!一个AI Agent,不仅能刷GAIA Benchmark,还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」。听起来确实很能打?但我们 CAMEL-AI的🦉OWL项目看完Manus视频,集体摊手:就这?0天复刻走起!

来自主题: AI资讯
10184 点击    2025-03-07 14:33