「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题
「马嘉祺」让大模型翻车,而他一年前洗澡时就发现了问题一家名为脸谱心智(FaceMind)的初创公司就在顶级学术会议 EMNLP 主会上系统性地揭示了这个问题,并给出了解法。更有意思的是,就在「马嘉祺」事件前不到两周,全球最强 AI 公司之一 Anthropic 也在自家产品中悄悄落地了一次高度相关的改造 —— 方向与脸谱心智一年前的论文几乎完全一致。
搜索
一家名为脸谱心智(FaceMind)的初创公司就在顶级学术会议 EMNLP 主会上系统性地揭示了这个问题,并给出了解法。更有意思的是,就在「马嘉祺」事件前不到两周,全球最强 AI 公司之一 Anthropic 也在自家产品中悄悄落地了一次高度相关的改造 —— 方向与脸谱心智一年前的论文几乎完全一致。
Anthropic今日正式上线Claude Code动态工作流预览版,这项功能面向超大型任务推出,Claude会根据任务自动编写脚本,调用数十到上百个智能体处理任务,无需手动设置。
网上有条帖子炸了,稳定复现,通过 API 问 Claude Opus 4.8 你是什么模型。回答是:Qwen,或者 DeepSeek。重要的事说三遍:必须是通过 API,必须是通过 API,必须是通过 API。因为网页端有系统提示词,会做二次处理。
Anthropic最强通用模型Claude Opus 4.8正式发布,新模型基准测试全面超越Gemini 3.1 Pro、Opus 4.7,仅一项逊色于GPT-5.5,但其标准模式价格不变,快速模式价格仅为Opus 4.7的1/3。与此同时,Anthropic还官宣一笔650亿美元(约合人民币4406.94亿元)H轮巨额融资,投后估值冲上9650亿美元(约合人民币6.54万亿元)
刚刚,Claude Code迎来史上最大规模底层升级!Anthropic直击开发者最痛的6大顽疾:终端闪烁、思考假死、玄学报错、上下文死锁、连接不稳、会话崩溃。一夜之间,AI编程工具从「聪明外挂」进化为「可靠伙伴」。
今天,又有新的问题出现了,这一次是谷歌搜索。有用户发现,近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了!这件事引发广泛关注和测试热潮。我们也简单试了下,就算用汉语提问,谷歌搜索同样错误,而且还自行加戏,导致错上加错 —— 说 Pixel 里面有两个 P
收到面壁智能的内测邀请,我翻了翻产品逻辑,发现它想解决的问题和我当时的处境一模一样。AI 能不能不只是回消息,而是做项目。AI 能不能记住规则,能在你睡觉的时候继续干活,能自己发现你漏了什么。
刚刚,清华团队开源硬核Agent系统PilotDeck,在开发者圈已经传疯了。项目独立建舱,记忆可视可改,Token还能省一大半。从此,一个人,就是一支AI军团!
Zero Trust 是一套安全架构,核心前提很简单:不信任任何东西,必须验证一切
算力帝国 vs 企业刺客,OpenAI与Anthropic的ASI终极对决已经开打。