
全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震
全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震世界首个公开可用AI科学家天团,刚刚组团出道!FutureHouse发布了四个AI科学家Agent,科研能力直接超越o3,文献搜索已经超过人类博士。
世界首个公开可用AI科学家天团,刚刚组团出道!FutureHouse发布了四个AI科学家Agent,科研能力直接超越o3,文献搜索已经超过人类博士。
大模型竞技场的可信度,再次被锤。
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。
我又发现好东西了!前几天在 Artificial Analysis 上发现了一个新模型:17B 参数的国产模型 HiDream-I1排到第二名,和 GPT-4o 得分非常接近!
就在刚刚,DeepSeek-Prover-V2技术报告也来了!34页论文揭秘了模型的训练核心——递归+强化学习,让数学推理大提升。有人盛赞:DeepSeek已找到通往AGI的正确路径!
Meta首届LlamaCon开发者大会开幕,扎克伯格在期间接受采访,回应大模型相关的一切。包括Llama4在大模型竞技场表现不佳的问题:
就在刚刚,DeepSeek 在全球最大 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。
AI编程智能体的能力正在飞速增长,最新研究揭示了这一「新摩尔定律」,如果AI智能体的任务时长继续以每4个月翻倍的速度增长,到2027年它们可能完成长达167小时的月级任务!
今天上午,小米发布了其首个开源推理大模型-Xiaomi MiMo。通过 25 T 预训练 + MTP 加速 + 规则化 RL + Seamless Rollout,让 7 B 参数的 MiMo-7B 在数理推理和代码生成上赶超 30 B-32 B 大模型,并完整 MIT 开源全系列与工程链,给端-云一体 AI 落地提供了“以小博大”的新范例。
最近,机缘巧合之下,笔者发现了一款 AI-native 的日程管理软件,让我突然眼前一亮。日程管理领域,早已有一整套成熟完整的理论体系,无论是「重要 vs 紧急」四象限理论、番茄工作法、还是 GTD 理论,都早在上世纪就已经被提出。而这款软件,却在这样一个「历史悠久、创新稀少」的领域中,依然借助 AI 做出了突破,甚至意外地,在我的日常生活里真正起到了点作用。