
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
刚刚,Local AI 领域的 Libra 团队发布了一段最新技术演示视频,展示了用户通过自然语言交互直接生成 Agent,并利用本地消费级算力支持 Agent 进行长程 (Long-Horizon) 推理,最终完成复杂任务。
4月1日,途牛旅游网自主研发的“AI助手小牛”旅游应用Agent正式上线途牛旅游APP、“AI助手小牛”小程序。“AI助手小牛”结合旅行垂直应用场景与开源大模型(DeepSeek、通义千问),实现了机票、酒店、火车票快捷查询、预订服务,能够为用户提供智能、专业的“0搭售"旅游服务方案。
2025年,人工智能领域正在经历一场由LLM Agent引发的深刻变革,不管普通人的衣食住行还是研究者的尖端研究,都很难不受Agent的影响。
什么?! 用AI Agent搞的小红书账号,竟然14天狂吸5000粉,还开始赚钱了???
目前,有个开源MCP合集算是github上最火的合集之一,已经超过20000颗星评价相当高,并且还在不断高频率迭代更新。估计以后会成为标杆MCP开源库吧。
Manus能撑起5亿美元估值吗?今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。
在互联网时代,数据已成为企业发展的必经之路。
CAMEL-AI 团队在 Manus 上线后 1 天内推出的 OWL 就是其中最具代表性的一个,项目实测成绩达到开源界 GAIA 性能天花板,达到了 58.18%,超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。