AI资讯新闻榜单内容搜索-GPT-4

大风起兮云飞扬：Agent, o3幻觉, 刷榜, 大厂布局深意… | 南乔的月度观察

近半年来，OpenAI 形象开始变得灰暗：团队骨干相继离职引发猜疑、组织转型遭受口诛笔伐、GPT-4.5/Sora 等模型表现不及预期，还有被 DeepSeek R1 打破的叙事神话……

来自主题: AI资讯

11791 点击 2025-05-29 10:56

30年码龄程序员4年都没搞定的bug，Claude Opus 4只用几个小时轻松破解了。

来自主题: AI资讯

10002 点击 2025-05-28 16:15

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

10754 点击 2025-05-28 11:58

前几天在论坛上看别人激烈辩论 AI 是否会取代工程师，突然有人在回复中冷不丁的抛出一个评论：别说那么多废话，先让 AI 画个左撇子出来。这是个什么问题？

来自主题: AI资讯

8985 点击 2025-05-28 10:28

Meta推出KernelLLM，这个基于Llama 3.1微调的8B模型，竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示，它的单次推理性能超越GPT-4o和DeepSeek V3，多次生成时得分飙升。

来自主题: AI技术研报

8123 点击 2025-05-27 18:00

只需知道6项个人信息，GPT-4就有可能在辩论中打败你？！

来自主题: AI技术研报

10156 点击 2025-05-26 11:13

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

9686 点击 2025-05-25 11:44

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

10459 点击 2025-05-24 17:34

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

来自主题: AI技术研报

8574 点击 2025-05-23 15:46

AI替咱打工搞翻译，到底谁家最好用？

来自主题: AI资讯

9550 点击 2025-05-23 13:03