
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。
当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。
如果细究DeepSeek开源席卷的行业巨变,云厂商无疑是最适合讲述AI故事的主角。几个月过去,分析师们迫切地想检验这场新变革的成果,纷纷在5月各家大厂召开的财报电话会议上追问进展。
2025年,美国就业大地震!与同期相比,全美裁员人数,上涨了47%。「政府效率部」掀起裁员潮之后,科技行业迎来「冰火两重天」。
这两天,很多媒体都在写用AI考高考题的内容。
上周,AI 视频生成工具 Medeo[1] 发布,用户输入文字描述,它会自动完成拆分镜头、生成脚本、添加音乐和生成视频等一系列操作,当天在我们的朋友圈里引发了小型「刷屏」。
苹果最新大模型论文,在AI圈炸开了锅。 有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。
Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。
模型卷得差不多了,AI硬件竞争开启了。Google前脚刚在I/O大会上预告,整合了Gemini AI的Android XR设备即将问世;OpenAI就紧随其后,宣布将以近65亿美元(约合人民币468亿元)的全股权交易方式,收购一家硬件初创公司IO。
即梦AI的图片3.0生图功能更新之后基本是国内图像模型的天花板了,尤其是在日常的设计任务上,基本上人人都能做海报。
国内大厂探索AI变现呈现四类方式:模型产品(订阅)、模型服务(MaaS)、AI功能嵌入主业、算力基础设施。百度、阿里、腾讯、华为处于第一梯队,AI显著拉动营收增长;快手、字节、美图属第二梯队,AI提效主业或打造爆款应用初见成效;科大讯飞、昆仑万维尚处投入期。虽部分路径初步盈利,但巨额研发投入远超当前回报,尚无企业实现AI正现金流,技术投入更多带来市值提升效应。