全球首个自主科研Agent挑战赛!零人工干预冲击CNS成果SOTA,科研变天?
全球首个自主科研Agent挑战赛!零人工干预冲击CNS成果SOTA,科研变天?如果科研中的文献阅读、代码演进、实验验证都可以由智能体自主完成,科学发现的方式会被重新定义吗?自主科研智能体(Autonomous Research Agent)的兴起,正在把这一设想带入现实:科学家有望回归科学品味和探索源头,智能体承担科研全链路的繁琐工作,两者在人机协同的闭环中共探新的重大科研突破。
如果科研中的文献阅读、代码演进、实验验证都可以由智能体自主完成,科学发现的方式会被重新定义吗?自主科研智能体(Autonomous Research Agent)的兴起,正在把这一设想带入现实:科学家有望回归科学品味和探索源头,智能体承担科研全链路的繁琐工作,两者在人机协同的闭环中共探新的重大科研突破。
2026 开年已两个月,Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw(原 Clawbot)掀起的那波 Agent 热潮至今仍在发酵,甚至让「一人公司」概念第一次真正有了落地的可能性。
在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
你见过 7B 模型在拼图推理上干翻 GPT-5 吗?
1 月中旬,白鲸出海受亚马逊全球开店活动邀请,前往东莞与多位卖家交流出海经验,除了此前报道过的计划用 AI 赋能家庭娱乐的音箱品牌 Ikarao,在相距不到 20分钟的车程内,另一家主打“硬核”产品的 BOSGAME 同样成绩不俗,跨境业务三年复合增长率 120%。但由于产品性质的巨大差异,专攻 PC 硬件的 BOSGAME,分享了完全不同的成长思考。
全球最大的卡路里追踪平台 MyFitnessPal 正式宣布,已完成对后起之秀 Cal AI 的收购。CalAI,这个由高中生 Zach Yadegari 发起的创业项目也迎来阶段性的结局,收购后,产品仍将独立运营,Zach Yadegari 在内 7 名成员均将加入 MyFitnessPal。(可参见我们的置顶文章《17岁高中生做AI App,不到4个月入账百万美元,独立开发者迎来春天?》)
PureblueAI清蓝也同步发布了新产品——AI 营销数字员工平台mkter.ai,以及 AI 口碑营销数字员工“Mark”。
来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。
强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。
2月13日,OpenClaw官方的博文提到,一个由OpenClaw驱动的机器人证明了自主智能体在预测市场的强大潜力——单周狂揽11.5万美元利润。1月底,Polymarket也发布过一条有趣的帖子:Agent们正在Polymarket上进行交易,试图补贴自己的token成本。