AI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新进展是已经能自己生成音画同步的超真实脱口秀了。
不过等人类回过味来,发现海的那边好像是敌人,AI 导致的失业潮仿佛近在咫尺。还记得七年前(那时候 ChatGPT 都还没发布)本科第一次班会上,老师问为什么要选这个专业,有同学回答因为这是最不容易被 AI 替代的职业之一(PS. 我学的是建筑,大家别笑得太大声)。
不知是不是预料之内,AI 最先波及的,竟然是写程序这件事本身。Anthropic 的创始人、CEO Dario Amodei 就曾预测,很快 90% 的代码可能都会由 AI 来编写。
先不说这个预言什么时候会实现,至少他家的产品确实在往这个方向发展。请问编程最厉害的大模型是哪个?虽然没有定论,但 Claude 肯定榜上有名。
BigCodeBench 榜单
上个星期刚发布的 Claude 4,让人们的「刻板印象」又加深了一层。
5 月 22 日,Anthropic 推出了全新一代 Claude 4 系列大模型,为代码生成、高级推理和 AI 智能体树立了全新标准。其中,Claude Opus 4 是一款全球领先的编码模型,它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。
Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能:通过 Claude 应用中自定义集成进行深入研究,管理项目,并能在 Claude Code 中独立解决代码任务。
新版本的大模型已经上线,立即吸引了大量程序员前去使用,很多人表示效果出奇的好。
昨天,Reddit 上一位拥有 30 多年经验的前 FAANG 高级工程师发帖表示,他被一个 C++ 的 Bug 困扰了 4 年,花了约 200 小时却毫无进展。而 Claude Opus 4 竟然成功地解决了这个问题,并且是唯一能做到的 AI 智能体。
这篇帖子在 X 和 Reddit 引起了热烈的讨论,Anthropic 工程师 Alex Albert 表示,这样的故事可能会越来越多。
有人展开了技术讨论。
也有人认为,这根本就是个 Claude 推广软文。
假如这个故事是真的,我们该如何来看待这件事呢?
大家先别激动,等一等外行的朋友们,我们先来梳理一下要点,这里邀请 Gemini 老师场外援助(因为我也是外行)。
Bug 的来源和难度
这个 Bug 是在四年前一次大规模的代码重构(Re-architecting refactor)中产生的。
Bug 的真正原因
AI 发现,这个问题不是因为「装修」时工人犯了个简单的错误(比如接错了一根线,这叫逻辑 Bug)。而是因为:
很好!那我们现在来分析一下,AI 在这个过程中起到了什么作用呢?
首先,AI 可以轻松地加载、分析和比较新旧两个版本共计数万甚至数十万行的代码。它不会像人类那样感到疲劳或遗忘细节,可以同时「看到」整个 picture。
像 Claude Opus 4 这样的先进模型拥有巨大的「上下文窗口」,这意味着它可以一次性考虑非常多的信息,并追踪它们之间的复杂关系。
同时,AI 不会带有「它应该如何工作」的偏见。它只是客观地分析旧代码如何运行并产生结果,以及新代码如何运行并产生不同结果,它能发现两者之间最细微的差异。
别忘了,这个过程还需要人类的指导。程序员通过超过 30 个 prompt 来引导 AI。这说明人类的经验和直觉与 AI 强大的分析能力相结合,才能发挥最大效果。人类设定目标、提供背景,AI 则执行繁重的分析工作。
参考链接:
https://www.reddit.com/r/ClaudeAI/comments/1kvgg7s/claude_opus_solved_my_white_whale_bug_today_that/?share_id=-Y9J9Hna8rIemyMsG8Jp9&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1
文章来自于“机器之心”,作者“+0、泽南”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0