马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!
马斯克Grok 4深夜大升级:200万逆天上下文、五倍GPT-5「脑容量」!太快了!一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M,并把完成率拉到94.1%(推理)与97.9%(非推理)。这意味着,你不必再把一本书或一整个代码库切碎喂给模型,它可以一次吞下,然后稳定地给出结果。
太快了!一天之内Grok连迎两大更新——Grok 4 Fast与Grok Imagine都进行了大升级。Grok 4 Fast把上下文窗口提高到2M,并把完成率拉到94.1%(推理)与97.9%(非推理)。这意味着,你不必再把一本书或一整个代码库切碎喂给模型,它可以一次吞下,然后稳定地给出结果。
昨天,月之暗面发布全新模型Kimi K2 Thinking,一上线就挤爆了服务器。思考,是它的核心卖点,自称是开源的「思考Agent模型」。在Tau2 Bench Telecom基准测试中,K2 Thinking位列第一。
Kimi K2 Thinking,现已发布并开源!
星星之火,可以燎原!证明的尊严在于可验证;这一次,GPT-5让数学证据落在了代码里。一雪前耻,ChatGPT为OpenAI「正名」!被Hassabis吐槽太尴尬之后,GPT-5真启发了新的数学结论。OpenAI的科学家Sebastien Bubeck高调宣扬GPT-5破解了十道Erdős难题。但被指出GPT并非解决了Erdős问题,而是找到了已经解决这些问题的文献。
刚刚,为期两周的 AI 投资大乱斗收官。
Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。
刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。目前,Aardvark还处于beta测试阶段。OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。
尽管今天还有 Sora 角色客串功能和 GPT-5 查找和修复安全漏洞智能体的消息,但本文的重点是深扒 Atlas 背后的「灵魂」—— OWL 架构。看看 OpenAI 究竟是如何驯服 Chromium,把它从浏览器「换皮」玩成了「架构重组」的。
AI Coding火了大半年,AI Debugging也来了!刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
近日,有开发者发现,OpenAI 官方在 “openai-agents-js” GitHub 仓库中被提及一个新模型:GPT-5.1 mini 。“显然 GPT-5.1 mini 是真实的……”以下是即将推出的 GPT 模型可能采用的命名规则。