
全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压
全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!
最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!
前几天在论坛上看别人激烈辩论 AI 是否会取代工程师,突然有人在回复中冷不丁的抛出一个评论: 别说那么多废话,先让 AI 画个左撇子出来。 这是个什么问题?
表现最好的GPT-o4 mini,物理推理能力也远不及人类!
Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。
AI无处不在——从聊天机器人、推荐引擎到语音助手和ChatGPT或谷歌Gemini等工具。但在所有这些智能技术的背后,有一样东西经常被忽视:使这一切成为可能的硬件。
当大多数人还在学习如何使用ChatGPT生成简单文本时,一对年轻创始人已经让AI为你直接构建完整的移动应用。Levan Kvirkvelia和Daniel Dhawan创建的Rork让人想起了硅谷的电影剧情:从信用卡债务缠身、朋友家地板上的床垫,到一条病毒式推文引来百万美元融资,这家初创公司在vibe coding领域掀起了新浪潮。
OpenAI内部战略被法院文件意外揭露:从超级助手、品牌重塑,到基础设施扩容与对手博弈,ChatGPT正在进行一次全面进化升级。目标明确:成为年轻一代心中「最酷的智能体」。
只需知道6项个人信息,GPT-4就有可能在辩论中打败你?!
在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。然而,现有的文档理解基准存在两大核心缺陷:
当ChatGPT写出的情诗让文青落泪,当Sora生成的短片在电影节获奖,AI早已越过工具的边界,成为娱乐业的共创者。而在音乐领域,这场变革更为剧烈。从音乐创作到音乐消费,从内容生产到用户体验,人工智能技术正在重塑整个音乐产业的底层逻辑。