
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
OpenAI官方基准测试:承认Claude遥遥领先(狗头)刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
2025 年,DeepSeek 爆火带动传统产品的智能化升级,如传统玩具向 AI 玩具转型。央视新闻调查数据显示,2025 年 1 月,国内某电商平台面向 3-6 岁儿童的 AI 早教玩具销量环比增长 6 倍。咨询公司 IMARC 的预测数据显示,2024 年全球 AI 玩具市场规模已达 181 亿美元,预计到 2033 年将增长至 600 亿美元。
在三方图灵测试中,UCSD的研究人员评估了当前的AI模型,证明LLM已通过图灵测试。在测试中,同时与人及AI系统进行5分钟对话,然后判断哪位是「真人」。结果,AI竟然比「真人」还像人:
昨天,我的群里被刷屏了。 因为即梦,灰度内测了他们即梦3.0绘图模型。没有任何预兆,没有任何宣传,就这么直接放了出来。 我的群里,拿到内测资格的朋友们,直接全部沸腾了。。。
时隔4个月,再来讲下AI智能陪伴硬件。
估值223亿元人形机器人明星创企,突传暴雷???
4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。
这个世界永远不缺商业奇迹,隔几年就会涌现出一些新的标志性人物,Cursor 联合创始人兼 CEO Michael Truell 应该就是当下的一位新星。
本期我们请到了引力引擎的两位创始人王豪和卢磊。他们从字节跳动、腾讯等顶级平台的广告技术核心部门离开,创立了引力引擎。短短两年内,公司已服务超200家客户,包括20多家上市公司,实现上千万纯订阅制ARR,年增速超100%。每天处理超2000万的广告投放额,年投放规模达60亿,触达3.5亿MAU。这些数据背后,是一个野心勃勃的目标:打造中国最大的AI驱动增长中台。
未来十年,全球机器人市场规模将飙升至380亿美金。这一次,孙正义又将目光投向更大的赛道,斥资1万亿豪赌美国AI工业园区,让人形机器人干活。