
AI为了自保假装配合!Claude团队新研究结果细思极恐
AI为了自保假装配合!Claude团队新研究结果细思极恐大模型“当面一套背后一套”的背后原因,正在进一步被解开。 Claude团队最新研究结果显示:对齐伪装并非通病,只是有些模型的“顺从性”会更高。
大模型“当面一套背后一套”的背后原因,正在进一步被解开。 Claude团队最新研究结果显示:对齐伪装并非通病,只是有些模型的“顺从性”会更高。
大多数人还在输入一句“帮我修这个 bug”,然后疑惑为什么 Claude 回答得四不像、效率低得离谱。 而另一些“老手”已经用上了 slash command,把一个原本要手动操作 45 分钟的流程,缩短到 2 分钟内自动完成。
香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
2025年的AI编程赛道已非蓝海——从OpenAI Codex、Claude Code到阿里的通义灵码、字节的Trae,全球科技巨头正争相将AI深度嵌入开发者工作流,将其视为核心场景的关键入口。
苹果开发者自曝用AI开发应用程序,Claude含量95%!事情是这样的,一位苹果开发者最新发布了一款用于调试MCP服务器的原生macOS应用Context——一款几乎完全由Claude Code构建的应用程序。
根据 Anthropic 最近公布的一项数据,他们的 Claude Code 已经吸引了 11.5 万名开发人员,并在一周内处理了 1.95 亿行代码。而这款工具,才刚刚发布 4 个多月。Menlo Ventures 风险投资家 Deedy Das 据此推断,仅靠 Claude Code 这个产品,Anthropic 的年收入就可能达到 1.3 亿美元。
据权威媒体报道,Anthropic正在紧锣密鼓地测试代号为“Claude Neptune v3”的全新AI模型。这一消息引发了AI社区的广泛关注,许多业内人士推测,Neptune v3可能是Claude4.5的雏形,甚至可能在未来数周内正式发布。作为Anthropic在AI安全与性能领域的又一力作,Neptune v3的亮相无疑将为行业带来新的期待。
今年以来 Coding 领域的最大变量是 AI labs 们的加入,模型大厂纷纷发力,和创业公司共同竞争这一关键场景:两周前,all-in coding 的 Anthropic 更新了 Artifacts 功能,用户可以在聊天界面里直接生成、预览和编辑代码,实现类 vibe coding 的体验;
Claude Code推出了一个让人眼前一亮的功能——Hooks。
大家好,这里是歸藏(guizang),分享一下 Gemini CLI 不写代码能有多好用! 前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆,谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI,而且完全免费,非常顶。