32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一
32B超越671B!M-A-P全开源数学定理证明模型OProver,五项评测三项第一形式化定理证明,一直是LLM公认最严苛的推理试金石,每一步推导都必须通过Lean 4内核的机器验证。
搜索
形式化定理证明,一直是LLM公认最严苛的推理试金石,每一步推导都必须通过Lean 4内核的机器验证。
一年前,行业还在为“从自动补全到 Agent”的进化感到兴奋。然而一年过去,我们不难发现单纯靠“Vibe Coding”和“Prompt 调优”,面对非确定性模型带来的风险和成本问题,显然无法撑起企业级软件开发。
如果你接触过“氛围编程”(Vibe coding)、开发过 AI 应用,或许会对 Supabase 的名字感到熟悉。它是全球无数独立开发者最信赖的默认后端之一,也在最近一年里,成了资本热捧的开源巨头。
清华大学提出一种新型物理对抗方法,利用特殊服装同时干扰可见光和热成像检测。这种服装通过非重叠设计和三维建模优化,可有效躲避RGB-T检测器,促进系统安全性研究。
三大 AI 实验室不约而同招经济学家。DeepMind 新设的「AGI 经济学」部门给出了第一批判断,比「AI 会取代你」要深得多,也扎心得多。
继本月初 Anthropic 之后,OpenAI 也秘密提交了首次公开募股(IPO)申请。
最近Max Leiter写了一篇文章《它们是权重做的》:https://maxleiter.com/blog/weights 专门用来调侃大模型,我看了以后,觉得虽然有趣,但是不太符合国人的阅读习惯,就重新写了一遍,希望大家喜欢。
就在刚刚,Siri借谷歌的1.2万亿参数Gemini「重生」了!在今夜的苹果WWDC 2026上,Siri彻底迎来新生。结合设备端小模型,苹果打造了混合智能架构,让Siri在各个APP之间无缝穿梭。
今天,“港股AGI第一股”云知声发布其最新通用大语言模型U2,该模型是由云知声自研的、基于快慢思考融合的MoE(混合专家)范式构建的通用大语言模型。U2跳出了传统大模型盲目堆参数、堆Token的内卷路径,实现了“小参数强能力、少Token高产出、低算力低成本”的进化。
6月8日,高德重磅发布了全球首个3D原生城市世界模型——ABot-Earth0.5。ABot-Earth0.5的发布不仅宣告着城市级场景3D原生技术的重要突破,更彻底重塑了传统3D建模的生产逻辑与成本结构。