训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。
以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。
去年11月,奥地利独立开发者Peter Steinberger花了一个小时,把Claude的API接上WhatsApp,做了一个能通过聊天软件操控电脑的AI助手。他当时觉得这个想法太明显了,大公司肯定会做,就没当回事。大公司没有做。今年1月25日,他把这个项目放上GitHub,一天拿到9000颗星。两周后的今天,这个叫OpenClaw的开源项目已经突破17万星。
文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance)等多个维度。
2月7日,字节跳动AI视频生成模型Seedance2.0开启灰度测试,该模型支持文本、图片、视频、音频素材输入,可以完成自分镜和自运镜,镜头移动后人物特征能够保持一致。
在生物基石模型的全球激烈竞逐中,IntelliGen AI 于本周末正式发布了 IntelliFold 2,这是继 2025 年 7 月 IntelliFold 首版发布后的一次重大升级 [2]。
27岁独立开发者靠它月入数万,前市场经理睡觉时它写邮件赚钱,柏林辍学生卖自定义技能赚12.7万美元——AI智能体的「iPhone时刻」已来,只是钱还没平均分。
短短一周,AI 就让硅谷科技股经历了两次「大屠杀」。 Claude Cowork 让软件股一天内市值蒸发近 2580 亿美元(折合人民币 19785.13 亿元)。
准备回家过年了吗?有没有感觉今年回家比去年还堵?据说今年春运流量再创新高,官方预计40天内人员流动量将达95亿人次,其中多数人仍然选择自驾出行,占比达到了8成,人次超过70亿。
从俄罗斯最大搜索引擎中分拆,4年拿下70亿融资。
2026年2月4日,立春,晚上 7 点,央视频上线了一档叫「中关村对话:AI 迎春夜」的节目。三个小时,四个篇章,六位院士,几十位嘉宾