AI科学家登场!12小时抵人类科学家半年工作量,已有7项大成果
AI科学家登场!12小时抵人类科学家半年工作量,已有7项大成果奥特曼称GPT-6或让「AI创造新科学」成真。与此呼应,类「AI科学家」Kosmos登场:12小时读1500篇文献、跑4.2万行代码,生成可溯源报告,并在材料等方向提出新发现。它凭持续记忆自主规划,正由工具迈向合作者;但受数据来源与复现性制约,约20%结论仍需人类裁判。人机协作或将重塑科研,科研范式加速演进,前景可期。
奥特曼称GPT-6或让「AI创造新科学」成真。与此呼应,类「AI科学家」Kosmos登场:12小时读1500篇文献、跑4.2万行代码,生成可溯源报告,并在材料等方向提出新发现。它凭持续记忆自主规划,正由工具迈向合作者;但受数据来源与复现性制约,约20%结论仍需人类裁判。人机协作或将重塑科研,科研范式加速演进,前景可期。
星星之火,可以燎原!证明的尊严在于可验证;这一次,GPT-5让数学证据落在了代码里。一雪前耻,ChatGPT为OpenAI「正名」!被Hassabis吐槽太尴尬之后,GPT-5真启发了新的数学结论。OpenAI的科学家Sebastien Bubeck高调宣扬GPT-5破解了十道Erdős难题。但被指出GPT并非解决了Erdős问题,而是找到了已经解决这些问题的文献。
新乐子来了。 10个AI大模型,券商账户实时交易,勇闯美股。 除了老面孔GPT、Claude、Gemini、Grok、Qwen、DeepSeek,这次四个国产新玩家,豆包、Minimax、Kimi、文心也加入战场。昨晚,首战正式开赛,豆包已经一马当先,开始了开门红。
AI看视频也能划重点了!
陶哲轩让ChatGPT把复杂的数学论文翻译成Lean代码,与AI合作完成形式化证明。AI能理解论文、写出正确命题,却常在关键处卡壳。经过人机配合,终于生成1125行被验证的证明。
如今,一位软件工程师 Teja Kusireddy 用数据扯开了这场“繁荣”背后的部分真相。他对 200 家 AI 公司进行了逆向工程、反编译代码,并追踪 API 调用,发现许多号称“颠覆性创新”的公司,其核心功能仍依赖第三方服务,只是在外层多套了一层“创新”的壳。市场宣传与实际情况之间的差距令人震惊。
生成式AI技术的成熟,让智能编程逐渐成为众多开发者的日常,然而一个大模型API选型的“不可能三角”又随之而来:追求顶级、高速的智能(如GPT-4o/Claude 3.5),就必须接受高昂的调用成本;追求低成本,又往往要在性能和稳定性上做出妥协。开发者“既要又要”的正义,谁能给?
刚刚,为期两周的 AI 投资大乱斗收官。
这篇论文提出了一种颠覆性的协作模式,即通过强化学习训练一个“小模型”作为智能代理(Agent),让它自动学会如何写出完美的Prompt,一步步引导任何一个“大模型”完成复杂推理,实现了真正的“AI指挥AI”。
传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。