
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。
一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。
半个月前,Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。
前两天,在下面这篇文章里,已经给大家介绍过通过一句话提示词生成app原型图,再截图让Cursor完成app开发的方法了。
自从上周Claude 3.7 Sonnet发布,我的 X 就被这玩意刷屏了好几天。
Anthropic 最近动作不断。
DeepSeek R1 催化了 reasoning model 的竞争:在过去的一个月里,头部 AI labs 已经发布了三个 SOTA reasoning models:OpenAI 的 o3-mini 和deep research, xAI 的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet。
刚刚,Claude背后公司Anthropic官宣新一轮融资: 35亿美元!投后估值达到615亿。 在Clauede-3.7发布后,此轮新融资便浮出水面,并在今天正式公布。
继上周发布全球首个混合推理模型 Claude 3.7 Sonnet 之后,Anthropic 又迎来了一个好消息。今天凌晨,Anthropic 官宣完成 E 轮融资,筹集到了 35 亿美元,投后估值 615 亿美元。
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。
这份提示词有很多哲学性思考,很多表达让我看到背后的设计者把claude当成一个人去设计。 我猜,应该是Amanda Askell(Anthropic负责alignment和character design,是学哲学的一位女生,也是我的榜样) 主要设计的。