AI资讯新闻榜单内容搜索-LLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LLM

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

反思技术因其简单性和有效性受到了广泛的研究和应用，具体表现为在大语言模型遇到障碍或困难时，提示其“再想一下”，可以显著提升性能 [1]。然而，2024 年谷歌 DeepMind 的研究人员在一项研究中指出，大模型其实分不清对与错，如果不是仅仅提示模型反思那些它回答错误的问题，这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。

来自主题: AI技术研报

7062 点击 2025-07-14 15:40

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。

来自主题: AI资讯

7640 点击 2025-07-13 11:53

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

7550 点击 2025-07-12 11:58

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

最近，Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务，OpenAI o3领跑全场，DeepSeek紧追Gemini挤入前四！不过从结果来看，要猜中科研人的偏好，自动评估系统远未及格。

来自主题: AI技术研报

7517 点击 2025-07-11 17:12

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前，大语言模型（LLMs）在编程领域的能力受到广泛关注，相关论断在市场中普遍存在，例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报

8973 点击 2025-07-11 17:05

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

最新研究发现，模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联，甚至开源模型表现的更好。

来自主题: AI技术研报

8623 点击 2025-07-11 16:10

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为「革命的工具」，需要采用「通专融合 AGI」方式。

来自主题: AI技术研报

9322 点击 2025-07-11 10:51

复杂Agent怎么设计？IBM用一个YAML，性能提升4倍| ICML 2025

复杂Agent怎么设计？IBM用一个YAML，性能提升4倍| ICML 2025

复杂Agent怎么设计？IBM用一个YAML，性能提升4倍| ICML 2025

您有没有遇到过这样的场景：为了调试一个LLM应用的效果，您需要在一大堆Python代码中翻找那些零散的提示词字符串？每次想要A/B测试不同的提示时，就像在做开颅手术一样小心翼翼。

来自主题: AI技术研报

8519 点击 2025-07-11 10:31

大模型「越用越快」！SpeedupLLM首次验证，大降56%推理预算

大模型「越用越快」！SpeedupLLM首次验证，大降56%推理预算

大模型「越用越快」！SpeedupLLM首次验证，大降56%推理预算

LLM用得越久，速度越快！Emory大学提出SpeedupLLM框架，利用动态计算资源分配和记忆机制，使LLM在处理相似任务时推理成本降低56%，准确率提升，为AI模型发展提供新思路。

来自主题: AI技术研报

5413 点击 2025-07-10 12:30

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

现在的世界模型，值得批判。我们知道，大语言模型（LLM）是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。

来自主题: AI技术研报

6374 点击 2025-07-10 10:57

上一页当前第17页,共128页下一页