动动嘴写SQL!Codex+终身记忆,OpenAI把查询难度直接归零
动动嘴写SQL!Codex+终身记忆,OpenAI把查询难度直接归零2026年初,当大多数企业还在用数据分析师手动写SQL查表时,OpenAI内部曝光的能自主思考、推理甚至自我进化的数据分析智能体,将数据查询从「天数级」缩短至「分钟级」。
2026年初,当大多数企业还在用数据分析师手动写SQL查表时,OpenAI内部曝光的能自主思考、推理甚至自我进化的数据分析智能体,将数据查询从「天数级」缩短至「分钟级」。
今年4月,具身智能领域发生了一件看起来不大、但意味深长的事。
当前大模型的发展呈现出类似于“军备竞赛”的趋势——模型规模持续攀升,对计算硬件的需求也随之快速增长。
如果把今天最热门的几个方向摆在一起看,你会发现它们其实在卡同一道坎。
近年来,视频多模态大模型(VideoLLM)发展迅猛,在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强,业界也开始思考一个更重要的问题:视频大模型能不能不再只是 “看完一段视频再回答”,而是真正进入实时世界,持续观察、实时理解,并在关键时刻主动给出反馈?
继skill同事之后,有聪明人迁移泛化了一下: 既然可以蒸馏任何人,那为什么不让乔布斯马斯克给我打工呢?
具身机器人在60分钟内,不间断抓取100多个没见过的物体(透明的、金属的、软质的),目前能达到什么水平?
阿里版「电商龙虾」正式打通国际站!Accio Work深度进化,选品、发品、广告、客服等7个岗位的活,现在一个工作台、一句话就能全包。28岁金融男零代码部署8个Agent,竟跑出100%好评。
AI工程范式的迭代速度,正让行业陷入一种“定义赶不上进化”的焦虑。
最近很多朋友都在问我,能不能出一期Claude Code的小白教程。
中国人民大学团队打造的AiScientist,旨在解决长程机器学习研究工程的持续性难题。该系统从论文理解开始,跨越环境配置、代码实现与实验迭代,保持状态连续与决策连贯,显著提升科研效率。其核心在于通过File-as-Bus机制,稳定保存项目状态,使AI能真正接手科研流程,而非仅辅助单个环节。
ATM-Bench 将「个人 AI 助手是否真的记得你」这件事,变成了一个研究的测试基准。结果并不乐观:专用记忆智能体系统普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。
本文主要介绍来自该团队的最新论文:Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。
如今的大多数智能体,仍然活在一种「失忆式工作」模式中:每一次检索都是从零开始,每一条推理路径都无法沉淀,每一次失败也不会转化为经验。它们虽能多轮交互,但很难在深度研究中持续变强。
最近几个月,Vibe Coding(氛围编程)是一大刷屏热词。以 Cursor 和 Claude Code 为代表的一批工具,正在将软件开发效率推向新的高度。
Anthropic 没有公开 Claude Mythos 的架构。但研究社区没有等。
把长上下文做到极致的Kimi又发新成果!
Anthropic 4 月 10 日发布 Claude for Word 公测版,第一批只开给 Team 和 Enterprise 用户
研究者们花了十年去扩展层内的计算能力,却忘了扩展层间的通信能力。
一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。
一张图在X上炸了:全球84%的人从未真正用过AI,16%偶尔玩玩免费聊天机器人,0.3%愿意每月付20美元,0.04%用AI写代码,0.01%是凌晨跑模型、买硬件的重度玩家。这不是鸡汤,微软官方数据托底。你天天刷AI资讯,以为全世界都在卷——其实你身处的那个圈子,是全球最顶端的0.01%。
伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。
对 AI 敌意最重的群体,是那些刚刚踏入社会、或正在寻找起点的职场新人。盖洛普数据显示,在已就业的 Z 世代中,高达 48% 的人认为 AI 在工作场所的风险远大于收益,这一比例在一年内激增了 11 个百分点。认为收益大于风险的仅占 15%。
给了100万token,现在却手把手教你怎么删记录!Anthropic官方承认:塞太多东西,Claude就会变蠢。面对失控的「上下文腐烂」,Anthropic连夜甩出5招救命指南。
今天,来自ZJU-REAL的团队带来了ClawGUI,一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接,而是一条打通的流水线:用ClawGUI-RL训练,用ClawGUI-Eval评测,用OpenClaw-GUI部署,端到端验证。
AI 的整体表现已经胜过了人类。或者按 AAAI 官方的说法是:「对 AAAI-26 作者和程序委员会成员的大规模调查显示,参与者不仅认为 AI 评审有用,而且在技术准确性和研究建议等关键维度上,实际上更偏好 AI 评审。」
4 月 15 日,戴盟机器人联合Google DeepMind、中国移动、新加坡国立大学、香港科技大学、上海交通大学、日本东北大学等海内外数十家顶尖学术机构与知名企业,发布了全球最大规模含触觉全模态物理世界数据集Daimon-Infinity。
香港城市大学朱宗龙、曾晓成团队给出了终极终结方案。他们首创了一套AI驱动的自动化闭环研发平台。从2万个分子的“大海捞针”,到自动化机械臂精准制备,再到AI实时反馈调整,全程无需人类插手。
刚刚,Anthropic 发布 Claude Opus 4.7,已经在 Claude 的所有产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 上全面可用。模型 id claude-opus-4-7
2026 年初这几个月,随着 OpenClaw 的爆火,AI 领域也正式步入了 Harness 时代。在这股浪潮中,MiniMax 凭借其敏锐的技术嗅觉,成为了这场变革中的一大核心焦点。