基于能量的Transformer横空出世!全面超越主流模型35%
基于能量的Transformer横空出世!全面超越主流模型35%AI无需监督就能学习思考?
AI无需监督就能学习思考?
DeepSeek推理要详细还是要迅速,现在可以自己选了?
多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。
就像是播放音乐,Prompt Engineering是在调音响的音量,那Context Engineering就是在设计整个音响系统,从音源、功放、音箱到房间声学,每个环节都要精心设计。Context Engineering本质上是设计和优化AI模型整个上下文窗口的工程学科。这不只是一个技术升级,更像是思维模式的根本转变。
美国加州北区法院上周48小时内对Anthropic和Meta两起AI版权案作出简易判决。两案均承认AI训练属"合理使用",但对"转换性使用"认定、"市场损害"评估及盗版素材使用等关键法律问题存在显著分歧,暴露版权法应对AI技术的司法裂痕。
你有没有想过,为什么实体店的转化率能达到30-35%,而在线购物网站却只有可怜的1.5%?
在信息爆炸的时代,传统关键词搜索已难以满足复杂知识需求。最新研究提出Agentic Deep Research
清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。
当LangChain在6月23日发布那篇著名的Context Engineering博客时,IBM Research的研究者们早在10天前就已经用严格的学术实验证明了这套方法的有效性。
Meta挖走OpenAI大批员工后,又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer,重点是通过修改标准注意力,让Transformer能更高效地利用训练数据,以突破当前大模型发展的数据瓶颈。