AI资讯新闻榜单内容搜索-大语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大语言模型
NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程

NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程

NeurIPS 2025 | Language Ranker:从推荐系统的视角反思并优化大模型解码过程

在大语言模型(LLM)的研究浪潮中,绝大多数工作都聚焦于优化模型的输出分布 —— 扩大模型规模、强化分布学习、优化奖励信号…… 然而,如何将这些输出分布真正转化为高质量的生成结果 —— 即解码(decoding)阶段,却没有得到足够的重视。

来自主题: AI技术研报
6544 点击    2025-12-01 10:06
OpenAI,可能创造了历史上最快的烧钱速度

OpenAI,可能创造了历史上最快的烧钱速度

OpenAI,可能创造了历史上最快的烧钱速度

近日,OpenAI被曝正面临越发增长的推理费用,作为有史以来最能烧钱的初创公司,其运行大语言模型的成本可能无法通过收入来支撑。

来自主题: AI资讯
9703 点击    2025-11-30 09:32
为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

人工智能在过去的十年中,以惊人的速度革新了信息处理和内容生成的方式。然而,无论是大语言模型(LLM)本体,还是基于检索增强生成(RAG)的系统,在实际应用中都暴露出了一个深层的局限性:缺乏跨越时间的、可演化的、个性化的“记忆”。它们擅长瞬时推理,却难以实现持续积累经验、反思历史、乃至真正像人一样成长的目标。

来自主题: AI技术研报
8131 点击    2025-11-29 09:56
AI安全新漏洞:一首诗就能攻破顶级大模型?

AI安全新漏洞:一首诗就能攻破顶级大模型?

AI安全新漏洞:一首诗就能攻破顶级大模型?

如果你想恶意攻击一个大语言模型(LLM),比如 Gemini 或者 Deepseek,你会怎么做?

来自主题: AI资讯
6305 点击    2025-11-24 10:44
“美国公司制造的最好开源模型”,基模来自DeepSeek

“美国公司制造的最好开源模型”,基模来自DeepSeek

“美国公司制造的最好开源模型”,基模来自DeepSeek

总部位于旧金山的初创公司 Deep Cogito 发布了其最新一代旗舰模型 Cogito v2.1 671B。公司 CEO Drishan Arora 在社交平台 X 上豪情万丈地宣布:“今天,我们发布了由美国公司制造的最好的开源大语言模型。”

来自主题: AI资讯
8370 点击    2025-11-22 11:36
SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

SGLang Diffusion震撼发布:图像视频生成速度猛提57%!

就在一周前,全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型,好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化,扩展到图像与视频扩散模型上,相较于先前的视频和图像生成框架,速度提升最高可达 57%:

来自主题: AI技术研报
8079 点击    2025-11-22 11:33
登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年,大语言模型 (LLM) + 外部工具的能力,已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中,大模型要想精准调用工具,不仅要求模型本身具备推理能力,还需要借助海量高质量、针对性强的函数调用训练数据。

来自主题: AI技术研报
11011 点击    2025-11-19 16:40
Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta

Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta

Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta

谷歌AI掌舵人Jeff Dean点赞了一项新研究,还是出自清华姚班校友钟沛林团队之手。Nested Learning嵌套学习,给出了大语言模型灾难性遗忘这一问题的最新答案!简单来说,Nested Learning(下称NL)就是让模型从扁平的计算网,变成像人脑一样有层次、能自我调整的学习系统。

来自主题: AI资讯
8413 点击    2025-11-15 17:45
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为“模态跟随”(modality following)

来自主题: AI技术研报
8217 点击    2025-11-14 13:54