精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。
从电话录音机到播客,从语音助手到虚拟主播,语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期,人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。
在人与AI高度协同的时代,只有大量复杂UI界面的应用将会被淘汰。
清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!
随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。
人工智能搜索引擎初创公司 You.com 正积极进军企业级软件领域。据知情人士透露,该公司正与媒体巨头 Cox 企业集团洽谈融资事宜,此轮融资使成立五年的 You.com 估值达到 14 亿美元
OpenAI 发论文的频率是越来越低了,如果你看到了一份来自 OpenAI 的新 PDF 文件,那多半也是新模型的系统卡或相关增补文件或基准测试,很少有新的研究论文。
上图本次发布直播的页面:ChatGPT for business。所以这是一个商业导向的更新,跟普通用户没啥大关系。本次共有两个更新,下面一个一个介绍它们。(别抱有太大希望)更新 1:Deep Research Connector
当地时间 6 月 4 日,Windsurf CEO Varun Mohan 发帖称,在提前不到五天的通知时间里,Anthropic 切断了其几乎所有 Claude 3.x 模型的直接访问权限(first-party capacity),包括 Claude 3.5 Sonnet、3.7 Sonnet 和 3.7 Sonnet Thinking。