逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse原生并行生成不仅仅是加速,它是我们对 LLM 推理思考方式的根本转变。
原生并行生成不仅仅是加速,它是我们对 LLM 推理思考方式的根本转变。
研究多智能体必读指南。Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。
随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。
1+1等于几?
上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。
是的,秘塔AI搜索推出了全新“极速”模型。通过在GPU上进行kernel fusion,以及在CPU上进行动态编译优化,我们在单张H800 GPU上实现了最高400 tokens/秒的响应速度,大部分问题2秒内就能答完。
全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了?