
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中
近日,一项由加拿大和英国企业和机构合作,旨在建立AI驱动的生物制剂和药物制造平台项目(BALANCE 计划)宣布启动。
还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?
由Acrew Capital领投,Alix用AI实现遗产结算自动化,可处理文件、填表、沟通等繁琐环节。不过其发展仍面临挑战,隐私安全顾虑及法规适配难题有待突破。 Acrew Capital合伙人劳伦・科洛德尼(Lauren Kolodny)一直坚信,技术拥有让普通人平等获取金融服务的力量。
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
只需一次指令微调,即可让普通大模型变身“全能专家天团”?
Halliday Glasses 是目前市面上唯一可配处方镜片的显示眼镜。
这一波华人 AI 项目里,估值超过 100 亿美金的项目并不多,除了 Scale AI,其竞争对手 Surge 也差不多超 100 亿美金估值了,毕竟其在没有怎么融资的情况下 ARR 还超过了 Scale AI。
Meta超级智能团队成员毕树超,回溯70年AI进化:从AlexNet掀起深度学习革命