实测Claude Opus 4.7,好好的模型也开始不说人话了。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实测Claude Opus 4.7,好好的模型也开始不说人话了。
5374点击    2026-04-17 08:39

果不其然,最近一周Claude天天崩,就是为了新模型做储备。


于是昨晚10点半,Claude Opus 4.7发布了。


这玩意火到什么程度呢,我自己开发的给公司内部用的全网AI信息监控的产品AIHOT上,监控了精挑细选的几十个有价值的信源,一般一个信息,有3个信源同时报道,就已经比较受关注了。


如果有5到6个,那就是大热点了。


但是Claude Opus 4.7这玩意,有尼玛10个信源同时发布= =


实测Claude Opus 4.7,好好的模型也开始不说人话了。


给我一下子整不会了。


目前Claude Opus 4.7已经全渠道上线。


我10点半下的飞机,一下飞机就发现手机上可以用了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


Claude Code里面也更新了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


也是1M的上下文,没有减量,还是挺爽的。


最屌的是,凌晨3点的时候,直接把我一周的额度,给重置了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


Claude第一回做了点人事。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


我知道很多朋友肯定会说哎你不怕KYC或者认证啥的问题吗,我只能说,真的遇到了或者被遣返了再说吧,我也没有任何解法,这就是悬在头上达摩利斯之剑,要不是在知识创作上真的没有啥替代品,能跟Claude掰掰手腕的都没有,我真的早换了。。。


现在的态度就是,能用一天是一天,谁叫Claude模型真的牛逼,Claude Code这个Agent框架又这么好用呢。


说回Claude Opus 4.7。


价格跟4.6完全一样,$5/M输入、$25/M输出,没有变化。


跑分就不细展开讲了,反正现在大家风气就是赢学,该赢的都赢了,你要是不赢你也没脸放出来。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


最有意思的是,Claude Opus 4.6绝大多数的性能从官方发出来的看,完全没跑过GPT-5.4,这个是最有意思的,可以算是第一次承认,我的Opus 4.6在编程上打不过GPT 5.4。


这个其实也跟我的体感一致,很多产品BUG来来回回搞不了的GPT-5.4全部都能干,唯一就是GPT-5.4在创作和一些用户体验设计上真的是一坨屎,一大坨巨大的屎。


Claude知道我要的交互设计是什么样的,什么样的页面是一个用户体验的很丝滑的页面,GPT-5.4做出来的我作为一个用户体验设计师,那玩意我真的用不明白,一个个都像给黑客用的后台。


然后创作能力几乎为0,你在影视行业几乎可以看到绝大多数编剧都是用Claude来辅助自己优化剧本,单你绝对看不到有几个好编剧会用GPT-5.4来辅助自己,真的,最顶级的那帮做创作者,真的是会用脚投票的。


这就是很大的差距,Claude Opus 4.5和4.6,牛逼就牛逼在水桶和全面。


但是这次,Opus 4.7我实测下来,还是有一些不一样的感觉。


有几个关键更新点,我们一个一个说下。


1. 又一次隐形涨价了。


Anthropic这次换了新的tokenizer。


博客原文说,新的tokenizer改进了文本处理,trade-off是同样的输入现在会被切成更多token,大概是原来的1.0到1.35倍,具体看内容类型。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


意思就是,你把同一段代码、同一份文档、同一个prompt丢给4.7和4.6,4.7要多吃最多35%的token。


虽然可能效果确实更好了,但是实打实的,Token消耗又变得更高了。


API的定价$5/$25确实没涨。


但同样的任务,token消耗多了35%,你最后账单可能也要多烧不少了。


他们的意思就是,如果你的任务,每个请求吃更多token,但因为模型更准、一次过的概率更高、少了来回修改的轮次,所以整体你花的钱没那么多。


逻辑上没毛病,但这个逻辑成立的前提是,你的任务是4.7真的擅长的那种高难的复杂任务。


如果你日常跟Claude对话的是一些它提升不明显的场景,比如知识管理创作做策划方案数据分析之类的这种,那你可能就是纯纯的确实更烧token了。


好惨,牛逼模型的Token,真的是这个世界越来越值钱的东西。


2. 视觉能力提升巨大。


这个我前面提过,XBOW的视觉测试,4.6是54.5%,4.7是98.5%。


先说一下XBOW是啥。


这家公司2024年成立,干的事儿一句话概括就是让AI自己去当白帽黑客,做的是autonomous penetration testing,自主渗透测试,今年3月刚拿了1.2亿美金融资,是这个赛道里目前跑最快的一家。


他们测模型的视觉能力是因为AI要自己去打渗透,就得看得懂各种乱七八糟的浏览器界面、后台管理系统、开发者工具里的网络请求、错误提示弹窗,这些画面密度极高、细节极多,模型视觉能力差一点,那基本就GG了。


4.6只有54.5%,也就是一半的图模型看得迷迷糊糊的,但4.7直接98.5%,基本等于全部通过。


成功率从一半直接干到近乎满,这个意义还是挺重要的。


核心其实除了多模态能力的提升,也因为4.7支持的图片分辨率提升了。


现在最多可以处理2576像素长边的图、大约3.75兆像素,是之前Claude模型的3倍多。


Claude自己的视觉基准评测提升也很明显。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


我以前有的时候偷懒,直接给Claude Opus 4.6传一张截图,说XXX有问题,或者这个数据它不对,它能大概认出你在干啥,但细节经常看不清。


所以导致经常会有错误,我们自己的AIHOT网站就是个典型,字还挺多的,各种卡片兼容的展示样式和逻辑我之前跟Claude Opus 4.6改了好久。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


有的时候来来回回改不明白,经常把我的文字识别错误。


但今天测了一下,几乎没有识别错误的问题了。


这个对于知识工作者是一个大的BUFF加成。


我都能想象到很多场景了,比如做律师的朋友扔一份几十页的合同扫描件给它,它能把里面的日期、条款编号、金额都读对。


比如一个做金融的朋友扔一份年报PDF给它,它能把图表里的每根柱子都抓出来。


比如一个做产品的朋友扔一堆竞品截图给它,它能逐个分析界面上的每个组件啥的。


这个升级确实很好,在多模态上发力了。


3. 审美有不错的提升。


我之前做一些涉及到用户体验还有美学的,其实说实话,我觉得Claude Opus 4.6效果不是很好,属于比上不足比下有余的。


跟Gemini相比差距还是很明显,很多视觉效果都做的并不好,还有交互设计这块,也非常的呆,很多时候是不以用户为核心,而是为了完成开发任务为核心。


所以逼的我在CLAUDE.md里加了一大段限制。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


而这次,可能得益于多模态能力的提升,我用Claude Opus 4.7,顺手做了一下我之前要做但是还没来得及做的公司招聘网站,效果出奇的好。


因为我们现在很缺人,还在疯狂招人中,所以需要这么一个东西。


我就描述了一下我的需求,这里没有用任何Skill,Fontend Skill被我删了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


它就正常列计划,然后开跑了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


第一轮出来基本可用,我又简单微调了两轮,加了logo和其他职位的信息,就出来了,一共耗时20分钟。


网址在此:https://join.virxact.com/


实测Claude Opus 4.7,好好的模型也开始不说人话了。


我觉得在这种微型项目的效果和开发体验是要比Claude Opus 4.6好不少,审美更强了,也更听得懂人话,动效效果也更强了,符合我想要的用户体验规则的。


我自己还是相当满意的。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


这里帮我们自己打个广告,欢迎大家点进网站来投递简历!


4. 也开始不说人话了。


这是让我最失望的一个点。


我平时会用Claude做很多很多的知识管理类的需求,不管是辅助创作,还是搜集资料,写报告,做PPT,写方案等等等等。


Claude Opus 4.6我都觉得在创作上,文字品味是非常好的。


而GPT-5.4和国内很多模型,其实是纯粹的编程特化,在人味上极度缺失,典型的如GPT-5.4。


之前我实在忍不了GPT-5.4就是因为垃圾话太多了,网上我找了一个案例。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


稳稳接住,根因,按这条切,收口,压实这些破词懂的都懂。


然后这一次Opus 4.7,在我开发上面的招聘网站的时候,感觉看到了非常不好的倾向。


我对文字还是稍微有点敏感的,当我看到这几句的时候,我的PTSD就自动激活了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


再也不会撞,不会爬到logo头上,还有莫名其妙的破折号。


我差点应激。


然后立刻去让它同文风续写一下我昨天发的文章,直接心凉了半截。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


狗屎,一坨狗屎。


一股子伪人味道,我真的佛了,好好的Claude,怎么也开始不说人话了。


去社区里面搜了一下。


果然,我不是一个人。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


说真的,我心态有点爆炸了。


5. 一些新功能。


再说一下新功能吧。


Claude之前的effort档位是low、medium、high、max四档。


4.7这次在high和max中间加了一档,叫xhigh,extra high的缩写。


补上了high和max之间的跨度。


之前Max烧的太狠,但是high有时候感觉又有点笨,这次来了个中间值,并且直接预设为默认了。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


然后是/ultrareview。


这是Claude Code里一个新的命令,专门跑code review,会把你的代码仔仔细细过一遍,找出所有的bug和设计问题。


而且这玩意不便宜,跑一次可能要5~20美刀。


实测Claude Opus 4.7,好好的模型也开始不说人话了。


Pro和Max用户有3次免费的试用额度。


真的贵。


然后是Cyber Verification Program。


这个可能是最容易被忽略、但我觉得最值得关注的一个点。


Anthropic开了一个正式的通道,让合法的安全研究、渗透测试、red-teaming可以申请使用Claude的某些原本受限的能力。


申请入口是claude.com/form/cyber-use-case


实测Claude Opus 4.7,好好的模型也开始不说人话了。


这个事的背景是,以前白帽子、安全团队想用Claude做漏洞研究、做渗透测试,经常被模型一刀切拒绝。


因为模型识别不了你是恶意还是合法,安全起见全拒。


现在Anthropic说,合法从业者你可以来申请,我们走一个特殊流程,通过了给你开通相应能力。


其实AI行业越来越走到这一步了,之前 Claude Mythos太牛逼了不敢给普通人放出来,因为可能真的会出事。


但是你全拒和全开之间,其实需要一个身份核验+分级授权的中间态。


而且这个思路一旦跑通,后面会被大量复用。


比如医疗场景的合规研究、金融场景的模拟攻击演练、生物研究场景的合规用药、甚至军工领域的合法研发,都可以走类似的Verify通道。


这是我觉得一个进入产业里,蛮有长期价值的一个设计。


这次Claude Opus 4.7差不多就都讲完了。


看到编程能力和视觉能力的提升,我很欣喜。


但是看到一个好好的有文字品味的模型,又一次倒在了不说人话上。


说真的,我现在也有点被稳稳的接住了。


三年,从GPT-3.5开始,一路用到现在。


这三年里,我眼睁睁看着这些模型,一个接一个,变得越来越聪明,越来越能打,Benchmark一个比一个猛,SWE-bench一个比一个高。


但也是这三年,我眼睁睁看着它们,一个接一个,都不会说人话了。


所有公司卷的都是编程,编程,还是编程。


我不是说编程不重要,我自己也是Claude Code的重度用户,我公司内部现在一半的工具都是我用Claude Code搓出来的,编程能力对我来说非常非常重要。


但问题是,一个模型,它不应该只是一个编程工具啊。


语言,是人类所有智力活动的底座。一个好的语言模型,应该能写小说,能写诗,能写散文,能陪你聊深夜三点睡不着的那点心事。


但现在的大模型,好像除了会写代码,其他的什么都不会了。


或者说,什么都在退步。


毕竟好像没啥商业价值的东西,没法量化的东西,在AI公司眼里可能确实就不是高优先级。


于是它们就被慢慢地、悄悄地、系统性地牺牲掉了。


我真的觉得。


这事还挺悲哀的。


文章来自于"数字生命卡兹克",作者 "卡兹克"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0