ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」
ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。
过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。
深夜,GLM-5来了。
上周四去著名科技媒体品牌《硅星人》交流。
代码运维一直是开发者的痛点,AI Coding 的飞速进步放大了运维难度:Claude Code 贡献的代码 push 已经占到了公开 Github 的 4%,但 AI 写的系统逻辑会有人类很难捕捉的问题,开发者将其称为“Claude Hole”现象。
2月11日深夜,智谱AI官宣新一代旗舰大模型GLM-5。之前在OpenRouter上神秘出现的"Pony Alpha",身份终于揭晓。据DoNews报道:Pony Alpha就是GLM-5的低调测试版。
去年11月,奥地利独立开发者Peter Steinberger花了一个小时,把Claude的API接上WhatsApp,做了一个能通过聊天软件操控电脑的AI助手。他当时觉得这个想法太明显了,大公司肯定会做,就没当回事。大公司没有做。今年1月25日,他把这个项目放上GitHub,一天拿到9000颗星。两周后的今天,这个叫OpenClaw的开源项目已经突破17万星。
昨天刷到 Claude Code 更新日志的时候,看到一个新功能直接让我愣住了。
明明可以去抢,他们却给了你更好的模型?
一位在硅谷摸爬滚打30年的老兵,花了4个月时间,跟Anthropic近40人深聊后,他揭示了一个残酷的公式:工作量碾压人数=创新井喷,人数碾压工作量=内卷开始。谷歌就是这么废掉的。
Claude,堪称AI界「老油条」。这不,沃顿商学院Ethan Mollick教授发现,Claude Opus 4.6会自主决定「思考」时间。只要不涉及编程、数学的任务,哪怕是再难的问题,干活主打一个「偷工减料」。