
Kimi又火了,深度体验它的第一个Agent 后,我发现99%的AI产品忽略了这件「小事」
Kimi又火了,深度体验它的第一个Agent 后,我发现99%的AI产品忽略了这件「小事」Kimi 又火了,在 DeepSeek 的热闹中沉寂大半年后,Kimi K2 悄悄在 LMArena 竞技场中从 DeepSeek 手中,夺过了全球开源第一的宝座。
Kimi 又火了,在 DeepSeek 的热闹中沉寂大半年后,Kimi K2 悄悄在 LMArena 竞技场中从 DeepSeek 手中,夺过了全球开源第一的宝座。
LLM太谄媚! 就算你胡乱质疑它的答案,强如GPT-4o这类大模型也有可能立即改口。
AlphaFold夺诺奖引争议!2016年,一位博士生在NeurIPS提出的研究,或许正是AlphaFold的「原型」。如今,导师Daniel Cremers发声,质问为何DeepMind忽略这项研究、不加以引用?
给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。
基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!
在 Web 端 AI 产品中,ChatBot 仍然牢牢占据访问量的主导地位,「DeepSeek」、「豆包」与「通义」位列榜单前三,构成头部竞争格局。然而,这一阵营内部也开始显现出明显的分化趋势。
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!
AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。
半年前,DeepSeek R1 的推出轰动了全球,无论东西方都是火的一塌糊涂,更是被外网称为 AI 领域的 Sputnik 时刻。
迄今为止最强大的开源定理证明器登场!Goedel-Prover-V2仅用8B参数击败671B的DeepSeek-Prover,并再次夺下数学PutnamBench冠军。十位核心贡献者,八大顶尖机构,让AI形式化证明再破纪录。