AI资讯新闻榜单内容搜索-大语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大语言模型
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路

近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后,LLM的内部机制却像一个神秘的“黑箱”,让人难以捉摸其决策过程。

来自主题: AI技术研报
5318 点击    2025-06-11 14:29
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点

来自主题: AI技术研报
6942 点击    2025-06-11 11:43
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

来自主题: AI技术研报
6268 点击    2025-06-10 16:18
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报
6248 点击    2025-06-09 11:02
大语言模型(LLM)面试50题(含答案)

大语言模型(LLM)面试50题(含答案)

大语言模型(LLM)面试50题(含答案)

通过这份全面指南探索大语言模型(LLMs)的关键概念、技术和挑战,专为AI爱好者和准备面试的专业人士精心打造。

来自主题: AI资讯
6123 点击    2025-06-08 17:24
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
6229 点击    2025-06-07 14:20
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报
7726 点击    2025-06-07 10:35
当大模型汲取进化记忆,它离“人性”还有多远?

当大模型汲取进化记忆,它离“人性”还有多远?

当大模型汲取进化记忆,它离“人性”还有多远?

大语言模型(LLMs)作为由复杂算法和海量数据驱动的产物,会不会“无意中”学会了某些类似人类进化出来的行为模式?这听起来或许有些大胆,但背后的推理其实并不难理解:

来自主题: AI资讯
4657 点击    2025-06-03 10:57
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。

来自主题: AI技术研报
7735 点击    2025-06-03 09:58