一个CLAUDE.md霸榜GitHub第一!蒸馏自Karpathy,6万码农抄作业
一个CLAUDE.md霸榜GitHub第一!蒸馏自Karpathy,6万码农抄作业一个毫无代码的文本,竟连霸GitHub热榜第一。Karpathy的编程神技被化作「AI紧箍咒」,让乱写Bug的大模型瞬间老实!
搜索
一个毫无代码的文本,竟连霸GitHub热榜第一。Karpathy的编程神技被化作「AI紧箍咒」,让乱写Bug的大模型瞬间老实!
今天,我们发布并开源 Kimi K2.6 模型,带来行业领先(state-of-the-art)的代码、长程任务执行和 Agent 集群能力。Kimi K2.6 现已上线 kimi.com、最新版 Kimi 应用、Kimi API 和 Kimi Code 编程助手,所有用户都可以开始使用。
今天,阿里发布了其下一代旗舰模型的早期预览版:Qwen3.6-Max-Preview。在第三方评测榜单Artificial Analysis的智能指数排名中,Qwen3.6-Max-Preview的得分为52分,小幅超过GLM-5.1、MiniMax-M2.7,成为这一榜单上得分最高的国产模型。
AI工程范式的迭代速度,正让行业陷入一种“定义赶不上进化”的焦虑。
本文主要介绍来自该团队的最新论文:Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。
前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。
最近,Claude Code 团队工程师 Thariq Shihipar又在X上发文了,上个月他写的Skill深度经验分享贴在社交平台爆火,这周他又发了一篇Claude的100万toke上下文窗口使用技巧的文章,平台阅读量已超过200万。
就在刚刚,2026北京亦庄机器人半程马拉松上,阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人「高德途途」。这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战,突破了「实验室」到「开放环境」之间的技术鸿沟。
伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。
4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。