ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量
ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈,北大团队提出SEAlign对齐框架:显著提升软件工程智能体决策质量在代码大模型和代码智能体技术快速发展的今天,一个日益凸显的现象是:能够在经典代码生成基准上取得优异成绩的模型,一旦被放入真实软件工程环境中,表现却往往大幅下滑。
搜索
在代码大模型和代码智能体技术快速发展的今天,一个日益凸显的现象是:能够在经典代码生成基准上取得优异成绩的模型,一旦被放入真实软件工程环境中,表现却往往大幅下滑。
“软工任务要改多文件、多轮工具调用,模型怎么学透?高质量训练数据稀缺,又怕轨迹含噪声作弊?复杂 RL 训练成本高,中小团队望而却步?”
我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。
近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。
这款叫 MoonBit Pilot 的代码智能体系统,真正将 AI Agent 从“助手”推向“合作者”的角色。在过去一年中,AI 编程助手迅速普及,从 Copilot、Codex 到 Cursor,成为开发者日常工具链的重要补充。然而,这类工具大多依赖于传统 IDE 插件或 Web 服务形式,智能体的能力受限于调用上下文与反馈机制,难以真正进入开发流程的“核心环节”。
400 多年前,宋应星著成《天工开物》。这是一部写给匠人、也写给未来的书。它让人相信:技术不是死物,而是人与世界持续互动的方式。
在被微软、谷歌高调比拼 AI 实力刷屏之际,腾讯 AI 携重磅产品轮番登场,不止于拼技术,更是以扎实布局展现对 AI 落地的深度洞察与务实态度。