
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。
最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。
一年一度,腾讯又开始招募顶尖学生了——“星火挑战营”,计划招募60-70人,主要面向高二、高三学生(2025级高考生)。一旦入选,就有机会前往深圳总部,挑战一线产业难题。
AI模型用于工业异常检测,再次取得新SOTA!
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?
本文作者叶小钗是一位「AI + 管理」领域的创业者,在成为创业者之前,他曾在腾讯、百度等大厂任职开发工作,也曾是B站的技术专家
之前我们探讨过公司AI能力的评判方式:
大模型时代,没人愿意缺席AI+医疗。
其实“野朋友”的AI能力还不完善,参与生态保护的人力资源也远远不够,而这个案例有趣之外,恰恰在于把生态保护跟大模型能力的训练结合在一起。其实“野朋友”的AI能力还不完善,参与生态保护的人力资源也远远不够,而这个案例有趣之外,恰恰在于把生态保护跟大模型能力的训练结合在一起。
腾讯的CodeBuddy、字节的Trea、现在阿里的通义灵码,中国互联网的三大巨头在AI编程领域集结完毕,明显就是要从老美的Cursor手中抢回中国客户。
继陆续改变搜索、电商、家电、汽车等诸多行业后,DeepSeek以及其代表的AI技术正在深入改变资讯客户端。