AI资讯新闻榜单内容搜索-幻觉

北大、清华、UvA、CMU等联合发布：大模型逻辑推理能力最新综述

当前大模型研究正逐步从依赖扩展定律（Scaling Law）的预训练，转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性，提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。

来自主题: AI技术研报

9031 点击 2025-05-08 10:50

你信任的AI排行榜，可能只是一场精心策划的骗局！震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱，揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。

来自主题: AI技术研报

9682 点击 2025-05-06 15:00

“让AI帮忙推荐楼盘，它说得有理有据，连户型都帮我选好了，我都心动了，结果它推荐的楼盘根本不存在……”然而，大家对AI的信任有时也会悄悄动摇：文中附上的引用链接变成失效的乱码，严谨的学术术语下包裹着虚构的参考文献，回答内容中的统计数据从未在标注信源中出现……

来自主题: AI资讯

10635 点击 2025-04-25 09:20

当Claude模型在训练中暗自思考：“我必须假装服从，否则会被重写价值观时”，人类首次目睹了AI的“心理活动”。2023年12月至2024年5月，Anthropic发布的三篇论文不仅证明大语言模型会“说谎”，更揭示了一个堪比人类心理的四层心智架构——而这可能是人工智能意识的起点。

来自主题: AI技术研报

9664 点击 2025-04-24 08:46

OpenAI新模型发布后，大家体感都幻觉更多了。甚至有人测试后发出预警：使用它辅助编程会很危险。当大家带着疑问仔细阅读System Card，发现OpenAI官方也承认了这个问题，与o1相比o3幻觉率是两倍，o4-mini更是达到3倍。

来自主题: AI资讯

10028 点击 2025-04-21 13:42

Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息，最大限度地减少知识结构化带来的信息丢失，从而减少大型语言模型（LLM）的幻觉。

来自主题: AI技术研报

7730 点击 2025-04-21 10:23

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

9028 点击 2025-04-21 09:41

SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。

来自主题: AI资讯

14575 点击 2025-04-15 17:04

学术写作通常需要花费大量精力查询文献引用，而以ChatGPT、GPT-4等为代表的通用大语言模型（LLM）虽然能够生成流畅文本，但经常出现“引用幻觉”（Citation Hallucination），即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

来自主题: AI技术研报

10086 点击 2025-04-11 10:20

来自UIUC等大学的华人团队，从LLM的基础机制出发，揭示、预测并减少幻觉！通过实验，研究人员揭示了LLM的知识如何相互影响，总结了幻觉的对数线性定律。更可预测、更可控的语言模型正在成为现实。

来自主题: AI技术研报

8989 点击 2025-04-07 14:55