AI资讯新闻榜单内容搜索-模型训练

这篇超有用！手把手教你搭建 AI 产品 Evals

AI 下半场，模型评估比模型训练更重要。我们需要从根本上重新思考评估的方式。

来自主题: AI资讯

6224 点击 2025-08-21 16:41

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

来自主题: AI技术研报

6417 点击 2025-08-21 16:08

开源复现o3图像思考！快手让AI不再被动看图，模型自主生成代码调用工具

在Openai 发布o3后，think with image功能得到了业界和学术界的广泛关注。

来自主题: AI技术研报

6820 点击 2025-08-21 15:25

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。

来自主题: AI资讯

6149 点击 2025-08-21 15:05

突破Agent长程推理效率瓶颈！MIT&新加坡国立联合推出强化学习新训练方法

AI Agent正在被要求处理越来越多复杂的任务。但当它要不停地查资料、跳页面、筛选信息时，显存狂飙、算力吃紧的问题就来了。

来自主题: AI技术研报

6424 点击 2025-08-21 11:33

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

来自主题: AI技术研报

5959 点击 2025-08-21 11:19

LLM中最难搞的表格最新梳理，需要什么请自取

您可能已经在产品里放进了问答、总结、甚至自动报表模块，但表格一上来，体验就变味了，这不奇怪。表格是二维、带结构、还经常跨表跨文，和纯文本完全不一样；项目作者在《Tabular Data Understanding with LLMs》里把这件事掰开揉碎，从输入表示到任务版图，再到评测与未来方向都梳理清楚了。

来自主题: AI资讯

5839 点击 2025-08-21 11:12

大模型究竟是怎么思考的？这可能是近期最有趣的高质量AI访谈

智东西8月20日报道，8月16日，Anthropic最新一期官方油管视频上线，三位AI研究员抽丝剥茧，深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的？

来自主题: AI资讯

5542 点击 2025-08-21 10:59

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报

6425 点击 2025-08-20 16:26

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

「兄弟们，DiT 是错的！」最近一篇帖子在 X 上引发了很大的讨论，有博主表示 DiT 存在架构上的缺陷，并附上一张论文截图。

来自主题: AI技术研报

6003 点击 2025-08-20 16:17