AI资讯新闻榜单内容搜索-NLP

「马嘉祺」让大模型翻车，而他一年前洗澡时就发现了问题

一家名为脸谱心智（FaceMind）的初创公司就在顶级学术会议 EMNLP 主会上系统性地揭示了这个问题，并给出了解法。更有意思的是，就在「马嘉祺」事件前不到两周，全球最强 AI 公司之一 Anthropic 也在自家产品中悄悄落地了一次高度相关的改造 —— 方向与脸谱心智一年前的论文几乎完全一致。

来自主题: AI技术研报

7433 点击 2026-05-30 10:05

阿里面试官冷笑："5000 份文档扔进去就算建好知识库了？难怪你的 RAG 答非所问。" 我无言以对...

大家好，我是吴师兄。之前有个学员面阿里的 NLP 岗，简历上写着"搭建了基于 RAG 的企业知识问答系统"。面试官翻着简历问： "你们知识库有多少文档？什么格式？" 他说："大概 5000 份，PD

来自主题: AI技术研报

8018 点击 2026-03-29 10:50

复旦北大联合美团LongCat提出TDAR：用“粗思考，细求证”破解Block Diffusion的速度精度悖论

近期，复旦大学 NLP 实验室（FDU NLP）、北京大学知识计算实验室（KCL）联合美团 LongCat Team 提出了一种 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR，通过引入 “粗思考，细求证” (Think Coarse Critic Fine, TCCF) 范式与有界自适应置信度解码

来自主题: AI技术研报

7645 点击 2026-03-14 08:39

30B参数超越GPT-5！REDSearcher让「深度搜索Agent」做到低成本可扩展！

「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中，第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文，题目是什么？」

来自主题: AI技术研报

7847 点击 2026-03-09 09:51

具身智能的「GPT时刻」？高德连发两个全面SOTA的ABot具身基座模型

过去几年，大模型把自然语言处理彻底重塑了。GPT 出来之前，NLP 领域的状态是：每个任务一套模型，每个场景一批数据，每个公司一条流水线，互不通用，边界清晰。GPT 之后，这套逻辑被一个预训练底座 + 任务微调的范式整个替换掉了。

来自主题: AI技术研报

6616 点击 2026-02-13 12:02

给GRPO加上运筹外挂让7B模型比肩GPT-4！Li Auto团队发布多目标强化学习新框架 | ICASSP 2026

文本摘要作为自然语言处理（NLP）的核心任务，其质量评估通常需要兼顾一致性（Consistency）、连贯性（Coherence）、流畅性（Fluency）和相关性（Relevance）等多个维度。

来自主题: AI技术研报

9556 点击 2026-02-10 14:11

UltraRAG 3.0 发布：拒绝“盲盒”开发，让每一行推理逻辑都清晰可见

今天，清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 、面壁智能与 AI9Stars 联合发布 UltraRAG 3.0 ，针对上述痛点，为科研工作者与开发者打造更懂开发者的技术框架，具备 3 大核心优势：

来自主题: AI资讯

11367 点击 2026-01-24 15:14

EMNLP2025 | 通研院揭秘MoE可解释性，提升Context忠实性！

在大模型研究领域，做混合专家模型（MoE）的团队很多，但专注机制可解释性（Mechanistic Interpretability）的却寥寥无几 —— 而将二者深度结合，从底层机制理解复杂推理过程的工作，更是凤毛麟角。

来自主题: AI技术研报

10331 点击 2025-11-17 09:25

可攻可防，越狱成功率近90%！六大主流模型全中招 | EMNLP'25

聚焦大型语言模型（LLMs）的安全漏洞，研究人员提出了全新的越狱攻击范式与防御策略，深入剖析了模型在生成过程中的注意力变化规律，为LLMs安全研究提供了重要参考。论文已被EMNLP2025接收

来自主题: AI技术研报

6475 点击 2025-10-27 10:25

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报

8407 点击 2025-10-23 16:22