
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试
红杉中国发布 xbench,首个由投资机构打造的 AI 基准测试随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
随着基础模型的快速发展和 AI Agent 进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映 AI 的客观能力正变得越来越困难。
如果用一句话为 2025 年写下注脚,那它不会是某个技术名词,而更像是一种哲学上的转变:“这一年,我们不再是孤立地使用软件,而是与智能的代理人(Agent)共舞,它们正悄然重塑我们的工作与生活。”
左超Manus,右跨Genspark,GAIA榜单上又一家中国公司登顶!
知名科技记者马克·古尔曼(Mark Gurman)撰文表示,苹果公司正准备允许第三方开发者使用其人工智能模型编写软件,旨在推动新应用的开发,并提升其设备的吸引力。知情人士透露,苹果正在开发一套软件开发工具包(SDK)及相关框架,以便外部开发者能够基于苹果的大语言模型构建AI功能。这一计划预计将在6月9日的全球开发者大会(WWDC)上公布。
根据TechCrunch和Semafor等报道,美国财政部正在审查Benchmark Capital对中国初创公司Manus AI的7500万美元投资,据两位知情人士透露,这已经反映出中美之间的科技竞争已经升级到政治层面。
AI研究中,基准测试(benchmark)和排行榜在评估模型性能上扮演着关键角色。
春天,1000 个通用 Agent 正在爆发。 所有的 Chatbot,都在改造成 Agent。技术在迁移,新的技术栈催生了新的产品形态——通用 Agent、Manus、Deep Research,一如过去两年大家的信仰,应用一定是中国开发者的机会。
外媒报道,Manus 最近完成了一轮由美国风险投资公司 Benchmark 领投的 7500 万美元的融资。蝴蝶效应计划利用这笔资金将其服务扩展到包括美国、日本和中东在内的其他市场。据 The Information 上周报道,Manus 使用 Anthropic 的 Claude AI 模型及其他工具,平均每个任务需向 Anthropic 支付 2 美元。
2025年4月17日,圣马特奥,加利福尼亚 —— 数据编排和存储平台领导者Hammerspace宣布完成1亿美元B轮融资,由Altimeter Capital领投,ARK Invest等新老投资者共同参与,公司估值超过5亿美元。这笔融资将加速Hammerspace在全球市场的扩张,巩固其在人工智能(AI)驱动的数据基础设施领域的领先地位,助力企业应对由AI引发的“大数据重心转移”趋势。
一叠便签纸、一个普通书签和一支笔,售价2美元(折合人民币14.7元)。一个能做类似事情的钛合金AI书签,售价129美元(折合人民币947元),你会心动吗?