Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距Kimi K2 Thinking,现已发布并开源!
Kimi K2 Thinking,现已发布并开源!
星星之火,可以燎原!证明的尊严在于可验证;这一次,GPT-5让数学证据落在了代码里。一雪前耻,ChatGPT为OpenAI「正名」!被Hassabis吐槽太尴尬之后,GPT-5真启发了新的数学结论。OpenAI的科学家Sebastien Bubeck高调宣扬GPT-5破解了十道Erdős难题。但被指出GPT并非解决了Erdős问题,而是找到了已经解决这些问题的文献。
刚刚,为期两周的 AI 投资大乱斗收官。
Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。
刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。目前,Aardvark还处于beta测试阶段。OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。
尽管今天还有 Sora 角色客串功能和 GPT-5 查找和修复安全漏洞智能体的消息,但本文的重点是深扒 Atlas 背后的「灵魂」—— OWL 架构。看看 OpenAI 究竟是如何驯服 Chromium,把它从浏览器「换皮」玩成了「架构重组」的。
AI Coding火了大半年,AI Debugging也来了!刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
近日,有开发者发现,OpenAI 官方在 “openai-agents-js” GitHub 仓库中被提及一个新模型:GPT-5.1 mini 。“显然 GPT-5.1 mini 是真实的……”以下是即将推出的 GPT 模型可能采用的命名规则。
阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero,一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发,通过三个智能体的协同进化,自动生成高质量、难度自适应的课程,并持续提升模型推理能力。
全球六大LLM实盘厮杀,新王登基!今天,Qwen3 Max凭借一波「快狠准」操作,逆袭DeepSeek夺下第一。Qwen3 Max,一骑绝尘! 而GPT-5则接替Gemini 2.5 Pro,成为「最会赔钱」的AI。照目前这个趋势,估计很快就要跌没了……