AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。

来自主题: AI技术研报
5879 点击    2025-07-09 10:51
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。

来自主题: AI技术研报
6437 点击    2025-07-09 10:35
第一性原理的Context Engineering工具、指南

第一性原理的Context Engineering工具、指南

第一性原理的Context Engineering工具、指南

就像是播放音乐,Prompt Engineering是在调音响的音量,那Context Engineering就是在设计整个音响系统,从音源、功放、音箱到房间声学,每个环节都要精心设计。Context Engineering本质上是设计和优化AI模型整个上下文窗口的工程学科。这不只是一个技术升级,更像是思维模式的根本转变。

来自主题: AI资讯
6733 点击    2025-07-09 10:30
清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。

来自主题: AI技术研报
6666 点击    2025-07-08 12:08
Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

Context Engineering不是造新词,IBM揭示LLM推理的认知秘密

当LangChain在6月23日发布那篇著名的Context Engineering博客时,IBM Research的研究者们早在10天前就已经用严格的学术实验证明了这套方法的有效性。

来自主题: AI技术研报
8614 点击    2025-07-08 12:07
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

Meta挖走OpenAI大批员工后,又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer,重点是通过修改标准注意力,让Transformer能更高效地利用训练数据,以突破当前大模型发展的数据瓶颈。

来自主题: AI技术研报
6345 点击    2025-07-08 12:01
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了无人机集群自主导航,并在鲁棒性、机动性上大幅领先现有的方案。

来自主题: AI技术研报
6956 点击    2025-07-08 11:54