ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」
ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。
过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。
就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。
文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。
200多块钱每个月,订阅价格直接压过ChatGPT Plus,功能却单一到离谱:只做语音输入一件事。听起来特别像智商税是吧!!!您猜怎么着,据说真就有10万+用户排着队把钱给它送上门。
驱动具身智能进入通用领域最大的问题在哪里?
直到OpenAI发布GPT3.5的第3年后,人们才好像恍然意识到:AGI 的 A 其实有可能是Anthropic。
在今天,我可以拍着胸脯说,OpenAI的Codex+GPT-5.3-codex,就是你最佳的入门、进阶、毕业的一条龙产品。你要相信我,愚钝如我,也能在它上面感受到进入心流的爽感,一个周末用它,解决了我四五个过去我完全一个人无法实现的开发需求。
网上对 Codex 的评价在这几天也有了不少逆转,许多开发者从 Claude Code 转向 Codex,一些在国内的独立开发者也表示 Codex Plus 会员就可以用,而且还不会像 Claude 那般总是无情封号。
第一批对 ChatGPT 广告的吐槽来了,而且来得大张旗鼓、浩浩荡荡——在美国「春晚」超级碗上,Anthropic 投放了一组广告,作为 OpenAI 的最强竞争对手,这次广告它直接指着 ChatGPT 「骂」。
一天之内,两大编程AI轮番轰炸硅谷。Claude Opus 4.6之后,奥特曼紧急放出GPT-5.3-Codex。双雄争霸,彻底撕开AI王座争夺战的帷幕。