AI资讯新闻榜单内容搜索-LLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LLM

AI进化时间表已现！LLM每7个月能力翻倍，2030年职场不复存在？

AI进化时间表已现！LLM每7个月能力翻倍，2030年职场不复存在？

AI进化时间表已现！LLM每7个月能力翻倍，2030年职场不复存在？

LLM正以前所未有的速度进化：METR发现，它们的智能每7个月就翻一番。到了2030年，一个模型可能只需几小时，就能搞定人类工程师几个月的工作。别眨眼，你的岗位或许已在倒计时中。

来自主题: AI技术研报

6172 点击 2025-07-15 10:24

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生，Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报

8040 点击 2025-07-15 10:11

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

5775 点击 2025-07-15 10:07

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

ACL 2025｜自我怀疑还是自我纠正？清华团队揭示LLMs反思技术的暗面

反思技术因其简单性和有效性受到了广泛的研究和应用，具体表现为在大语言模型遇到障碍或困难时，提示其“再想一下”，可以显著提升性能 [1]。然而，2024 年谷歌 DeepMind 的研究人员在一项研究中指出，大模型其实分不清对与错，如果不是仅仅提示模型反思那些它回答错误的问题，这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。

来自主题: AI技术研报

6174 点击 2025-07-14 15:40

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。

来自主题: AI资讯

6521 点击 2025-07-13 11:53

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

6455 点击 2025-07-12 11:58

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

最近，Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务，OpenAI o3领跑全场，DeepSeek紧追Gemini挤入前四！不过从结果来看，要猜中科研人的偏好，自动评估系统远未及格。

来自主题: AI技术研报

6572 点击 2025-07-11 17:12

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境，Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前，大语言模型（LLMs）在编程领域的能力受到广泛关注，相关论断在市场中普遍存在，例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报

8167 点击 2025-07-11 17:05

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了！最新研究让AI学会人情世故 | COLM'25

最新研究发现，模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联，甚至开源模型表现的更好。

来自主题: AI技术研报

8106 点击 2025-07-11 16:10

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为「革命的工具」，需要采用「通专融合 AGI」方式。

来自主题: AI技术研报

8077 点击 2025-07-11 10:51

上一页当前第1页,共113页下一页