
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?一句话看懂:o3以深度推理与工具调用能力领跑复杂任务,GPT-4.1超长上下文与精准指令执行适合API开发,而o4-mini则堪称日常任务的「性价比之王」。
一句话看懂:o3以深度推理与工具调用能力领跑复杂任务,GPT-4.1超长上下文与精准指令执行适合API开发,而o4-mini则堪称日常任务的「性价比之王」。
o3和o4-mini视觉推理突破,竟未引用他人成果?一名华盛顿大学博士生发出质疑,OpenAI研究人员对此回应:不存在。
OpenAI新模型发布后,大家体感都幻觉更多了。甚至有人测试后发出预警:使用它辅助编程会很危险。当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比o3幻觉率是两倍,o4-mini更是达到3倍。
OpenAI 最近发布了三份针对企业客户的研究报告,本次挑选了其中的「AI in the Enterprise」一篇进行了翻译。
o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。
AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。
OpenAI首席财务官Sarah Friar探讨了通往AGI的发展路径,目前OpenAI已到达第三阶段:智能体(Agent)。除Operator和深度研究Deep Research智能体外,OpenAI即将发布全球最强编程智能体。
据外媒报道,OpenAI 正计划以约 30 亿美元收购 AI 编码助手初创公司 Windsurf(前身为 Codeium),以进一步完善其在全栈编码领域的技术布局。
知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。
AI趋势正在“中场休息”,在此之前训练>评估,在此之后评估>训练。