解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。
来自主题: AI技术研报
3574 点击 2024-11-04 15:29
解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。
对于开发者来说,编码是一个既复杂又精细的过程。如何让这个过程变得更简单、更智能?如何进一步提升开发效率?豆包 MarsCode 近日正式发布,针对这些问题给出了新的答案。
因为 AI 为自己的工作焦虑,这件事不是一天两天了。