OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
当我们遇到新问题时,往往会通过类比过去的经验来寻找解决方案,大语言模型能否如同人类一样类比?在对大模型的众多批判中,人们常说大模型只是记住了训练数据集中的模式,并没有进行真正的推理。
从人设包装到到流量收割
刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
双人动作生成新SOTA!
2025 年,DeepSeek 爆火带动传统产品的智能化升级,如传统玩具向 AI 玩具转型。央视新闻调查数据显示,2025 年 1 月,国内某电商平台面向 3-6 岁儿童的 AI 早教玩具销量环比增长 6 倍。咨询公司 IMARC 的预测数据显示,2024 年全球 AI 玩具市场规模已达 181 亿美元,预计到 2033 年将增长至 600 亿美元。
敢于戳破“国王新衣”的人毕竟是少数,大部分投资机构的心态是:怕投错,但更怕错过。
如何从一张普通的单幅图像准确估计物体的三维法线和材质属性,是计算机视觉与图形学领域长期关注的难题。
在宇树和王兴兴火了之后,对于这家公司和年轻的创始人业界充满了好奇。
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。
没想到,文小言接入推理模型的大更新背后,百度还藏了一手“质变”级技术大招???
在三方图灵测试中,UCSD的研究人员评估了当前的AI模型,证明LLM已通过图灵测试。在测试中,同时与人及AI系统进行5分钟对话,然后判断哪位是「真人」。结果,AI竟然比「真人」还像人:
昨天,我的群里被刷屏了。 因为即梦,灰度内测了他们即梦3.0绘图模型。没有任何预兆,没有任何宣传,就这么直接放了出来。 我的群里,拿到内测资格的朋友们,直接全部沸腾了。。。
“艺术家与人工智能”的张力正在持续紧张。OpenAI虽然声称避免复制“个别在世艺术家的风格”,但它一直在践行并推动政策允许AI对版权内容的训练;而小部分能够承担高昂诉讼成本的艺术家,却也因为版权法灰色地带而面临不确定的局面,更不要说那些不知名的艺术家们了。
最近 MCP 协议很火,自己也发掘了一些玩法,但是目前来看 MCP 的配置还是过于繁琐了,对普通人门槛有点高。这几天终于摸索出来了一些方法让大家可以相对容易理解的方式配置 MCP 服务。
时隔4个月,再来讲下AI智能陪伴硬件。
字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……
本文从一个需求出发,全程记录如何进行全栈开发。
刚刚,Local AI 领域的 Libra 团队发布了一段最新技术演示视频,展示了用户通过自然语言交互直接生成 Agent,并利用本地消费级算力支持 Agent 进行长程 (Long-Horizon) 推理,最终完成复杂任务。
估值223亿元人形机器人明星创企,突传暴雷???
上周,OpenAI 正式支持 MCP 协议的消息,无疑成为 AI 基础设施演进的重要里程碑。短短几个月内,从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入,这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。
“你想搭建一个怎样的智能体?”
刚刚,稚晖君旗下创企智元机器人官宣了两个新动向——
DeepMind内部研究要「封箱」了!为保谷歌在AI竞赛领先优势,生成式AI相关论文设定6个月禁发期。不仅如此,创新成果不发,Gemini短板不提。
4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。
国产全自研高性能RISC-V服务器芯片“灵羽”,刚刚在深圳亮相。
在算力投资激增的当下,GPU卡回收与维修行业逐渐成为一条隐秘的暴利赛道。特别是一些众所周知的原因,串串资源的货源和魔改卡的维保是重灾区! 现状:运营一年以上的算力中心运营商手里一定有坏掉的A100和H100服务得不到及时维修,放在那吃灰,无法对外出租算力产生收入。
这个世界永远不缺商业奇迹,隔几年就会涌现出一些新的标志性人物,Cursor 联合创始人兼 CEO Michael Truell 应该就是当下的一位新星。
在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。
AI能像人类一样理解长视频。