AI资讯新闻榜单内容搜索-编程

人类基准测试大翻车：样本不足、方法不透明，AI性能结论可信吗？

我们经常在一些对比 AI 性能的测试中，看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。

来自主题: AI资讯

6564 点击 2025-12-29 09:36

华人一作！Meta等复刻AlphaZero神话，AI甩开人类自修成神

当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。

来自主题: AI技术研报

10526 点击 2025-12-29 09:06

无限代码危机！奈飞AI工程师曝自家上下文工程秘诀：三阶段方法论！AI不能理解软件为什么会失败！每一代工程师都会撞上一堵墙！

在一场技术演讲中，Netflix 工程部的资深大牛 Jake Nations，开场就抛出了一个几乎所有工程师都心照不宣的“坦白”。几乎每个正在使用 Copilot、Cursor、Claude 写代码的人，都干过同一件事：让 AI 生成代码，看起来没问题，就直接交付。测试通过、功能可用、部署成功，但当系统真的在凌晨三点出问题时，没人能再说清楚它为什么还能跑。

来自主题: AI资讯

8658 点击 2025-12-28 09:54

挖到M2.1的7个神仙用法，有点上头。。

上周我还在折腾各种图片、视频生成模型，这周又到了编程周。前天MiniMax丢出了个在编程界绝对有分量的模型：MiniMax-M2.1。然后发现就在刚才已经开源了：

来自主题: AI资讯

11243 点击 2025-12-27 10:56

用编程大模型登顶开源第一后，智谱GLM团队被拷问了3小时

真是越到年底，越是神仙打架。

来自主题: AI资讯

9016 点击 2025-12-25 10:52

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

在代码大模型（Code LLMs）的预训练中，行业内长期存在一种惯性思维，即把所有编程语言的代码都视为同质化的文本数据，主要关注数据总量的堆叠。然而，现代软件开发本质上是多语言混合的，不同语言的语法特性、语料规模和应用场景差异巨大。

来自主题: AI技术研报

7819 点击 2025-12-25 09:46

我调教了 50 次AI，终于做出比 ChatGPT 更酷的年度报告 | 附保姆级教程

ChatGPT 也推出了年度回顾，不过，由于各种限制，不是每个人都能打开，有网友等了一天都等不到自己的年度回顾。拜托，现在 AI 已经这么好用了，为什么不能自己做一个呢？尤其是这一年，有大量的时间正是花在这些 AI 工具里。

来自主题: AI资讯

10550 点击 2025-12-24 17:43

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

哈喽，大家好，我是刘小排。 GLM 4.7发布了，从客观数据看，编程方面进步很大。

来自主题: AI产品测评

10767 点击 2025-12-24 10:43

实测丨全新的「扣子编程」，全新的 Vibe Infra

老粉都知道，咱们特工宇宙和扣子团队有多熟悉。

来自主题: AI产品测评

9294 点击 2025-12-24 09:34

AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1，刚刚对外发布了。这一次，它直接甩出了一份硬核成绩单，在衡量多语言软件工程能力的Multi-SWE-bench榜单中，以仅10B的激活参数拿下了49.4%的成绩，超越了Claude Sonnet 4.5等国际顶尖竞品，拿下全球SOTA。

来自主题: AI资讯

9432 点击 2025-12-24 08:08