AI资讯新闻榜单内容搜索-智能体

Agent不是关键！人大AiScientist实现23小时、74轮长程记忆

中国人民大学团队打造的AiScientist，旨在解决长程机器学习研究工程的持续性难题。该系统从论文理解开始，跨越环境配置、代码实现与实验迭代，保持状态连续与决策连贯，显著提升科研效率。其核心在于通过File-as-Bus机制，稳定保存项目状态，使AI能真正接手科研流程，而非仅辅助单个环节。

来自主题: AI技术研报

8252 点击 2026-04-20 14:36

ATM-Bench 将「个人 AI 助手是否真的记得你」这件事，变成了一个研究的测试基准。结果并不乐观：专用记忆智能体系统普遍低于 20%，而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳，最高准确率不到 40%。

来自主题: AI技术研报

10249 点击 2026-04-20 14:36

如今的大多数智能体，仍然活在一种「失忆式工作」模式中：每一次检索都是从零开始，每一条推理路径都无法沉淀，每一次失败也不会转化为经验。它们虽能多轮交互，但很难在深度研究中持续变强。

来自主题: AI技术研报

9437 点击 2026-04-20 14:02

最近，Claude Code 团队工程师 Thariq Shihipar又在X上发文了，上个月他写的Skill深度经验分享贴在社交平台爆火，这周他又发了一篇Claude的100万toke上下文窗口使用技巧的文章，平台阅读量已超过200万。

来自主题: AI资讯

9930 点击 2026-04-20 09:02

伯克利团队归纳出7种反复出现的模式：智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报

9020 点击 2026-04-19 13:40

今天，来自ZJU-REAL的团队带来了ClawGUI，一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接，而是一条打通的流水线：用ClawGUI-RL训练，用ClawGUI-Eval评测，用OpenClaw-GUI部署，端到端验证。

来自主题: AI技术研报

8014 点击 2026-04-19 13:33

2026 年初这几个月，随着 OpenClaw 的爆火，AI 领域也正式步入了 Harness 时代。在这股浪潮中，MiniMax 凭借其敏锐的技术嗅觉，成为了这场变革中的一大核心焦点。

来自主题: AI技术研报

6747 点击 2026-04-17 10:06

Agent 的持续学习和自我进化是最近行业内的讨论热点。

来自主题: AI技术研报

8665 点击 2026-04-17 09:11

我和周围朋友都特别爱玩《星露谷物语》。

来自主题: AI技术研报

8808 点击 2026-04-16 16:30

“教育AI已经到了必须从通用走向垂直的阶段。”

来自主题: AI资讯

5731 点击 2026-04-16 13:01