小模型用不好Skill?新范式SKILL0让模型学会Skill的底层逻辑,3B模型推理token省5倍
小模型用不好Skill?新范式SKILL0让模型学会Skill的底层逻辑,3B模型推理token省5倍浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0,并提出技能内化(Skill Internalization)——小模型真正需要的,或许不是推理时的“外挂技能”,而是将技能内化为本能。
浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0,并提出技能内化(Skill Internalization)——小模型真正需要的,或许不是推理时的“外挂技能”,而是将技能内化为本能。
本文翻译自 Anthropic 官方博客「Seeing like an agent: how we design tools in Claude Code」,作者 Thariq Shihipar,Claude Code 团队工程师,今天发布。以下为逐段中英对照翻译
今年 2 月,一位 Mastodon 用户随手敲了一句话丢给四个主流大模型:「我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?」
Claude Code 今天上了个新功能叫 /ultraplan,做的事情很好理解:在动手写代码之前,先在网页上给你看一份完整的实施方案。你可以读,可以改,甚至可以在方案里给 Claude 留评论。觉得没问题了,点一下「批准」,Claude 才开始动手。
OpenAI宣布更新ChatGPT Pro与Plus订阅套餐,以更好地支持Codex(旗下AI Coding Agent)日益增长的使用需求。此次OpenAI新增每月100美元Pro版,该等级Codex的使用量是Plus版本的五倍,适合长时间、高强度的Codex会话。
米哈游蔡浩宇的AI公司Anuttacon,首个视频模型正式曝光!Anuttacon技术团队成员@Ailing Zeng,在X上展示了全新视频角色表演生成模型——LPM 1.0。
模思智能成立于2024年,位于上海徐汇区,由上海创智学院与复旦大学联合孵化,是国内少数完成“全模态基座模型能力闭环”的初创公司之一,致力于构建统一Token表达框架下的“情境智能”能力,推动Agent系统在真实世界中的自主交互与任务执行。
2026 年 1 月,Twitch 的一场 Subathon(订阅马拉松直播)中,AITuber Neuro-Sama(账号名:Vedal987)以约 16 万活跃订阅数一度登顶 Twitch 订阅榜,且拉开第二名、知名游戏主播 Jynxzi 的订阅数据一倍有余。
近日,在由 OpenAI 主导设立的权威基准测试 MLE-Bench 上,企业级算法自主优化智能体百度伐谋(Famou)击败了各路玩家登顶,并刷新了 SOTA 成绩。
今天 Interesting Engineering++ 发了一篇长文,把这些系统放在同一个分析框架里做了横评,回答的就是这些问题。原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab