AI资讯新闻榜单内容搜索-模型训练

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。

来自主题: AI资讯

6563 点击 2025-08-21 15:05

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。但当它要不停地查资料、跳页面、筛选信息时，显存狂飙、算力吃紧的问题就来了。

来自主题: AI技术研报

6839 点击 2025-08-21 11:33

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

来自主题: AI技术研报

6423 点击 2025-08-21 11:19

LLM中最难搞的表格最新梳理，需要什么请自取

您可能已经在产品里放进了问答、总结、甚至自动报表模块，但表格一上来，体验就变味了，这不奇怪。表格是二维、带结构、还经常跨表跨文，和纯文本完全不一样；项目作者在《Tabular Data Understanding with LLMs》里把这件事掰开揉碎，从输入表示到任务版图，再到评测与未来方向都梳理清楚了。

来自主题: AI资讯

6256 点击 2025-08-21 11:12

大模型究竟是怎么思考的？这可能是近期最有趣的高质量AI访谈

智东西8月20日报道，8月16日，Anthropic最新一期官方油管视频上线，三位AI研究员抽丝剥茧，深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的？

来自主题: AI资讯

5990 点击 2025-08-21 10:59

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报

6870 点击 2025-08-20 16:26