Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限
Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限只靠模型尺寸变大已经不行了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
只靠模型尺寸变大已经不行了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
据我们了解,AI 硬件公司未来智能近日完成数千万元人民币的 Pre A+ 轮融资,由启明创投与上海国投孚腾资本联合领投。 未来智能成立于 2021 年,由科大讯飞 AI 耳机业务孵化、独立而来,后者在 2020 年就发布过第一款支持 AI 语音转写功能的耳机 iFLYBUDS。未来智能创始人、CEO 马啸曾任科大讯飞智能助手业务部总经理、智能耳机业务总经理。
当一个顺应职场评价体系的人,决定逆生长。
AI会无脑附和吗?Anthropic研究发现,Claude能根据场景切换人格:谈恋爱时化身情感导师,聊历史时秒变严谨学者。一些对话中,它强烈支持用户价值观,但在3%的情况下,它会果断抵制。
近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划能力,
我就想,能不能做一个监控,在奥特曼发X的时候,直接打电话叫醒我,这样,我就就不用干等了。该12点睡觉就12点睡觉,如果真的有啥新东西,啪一个电话直接把我喊起来,而不是每天在那傻傻的刷新。
扣子空间(https://space.coze.cn/)来了,它不只是一个工具,而是你的“AI工作搭子”. 可以直接调用内置的MCP服务让AI结合多个MCP完成非常复杂的任务,比如调研之后把结果做成PPT或者网页,甚至网页内还能嵌入生成的音频和图片。
DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。
全球首个行动浏览器Fellou重磅发布,不仅能自动填表单、管理标签页,还能跨网站执行繁琐任务。只需一句话,Fellou帮你全搞定。
本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读,我将其视为AI发展方向的一份战略瞭望图。