
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!
还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!
港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。
组合优化问题(COPs)在科学和工业领域无处不在,从物流调度到芯片设计,从社交网络分析到人工智能算法,其高效求解一直是研究热点。
它是永远再砍一刀的诱惑,它是便宜货的天堂,它是亿万用户心甘情愿走入的折扣迷宫。在一个平常的夜晚,正当我又一次囤积便宜日用品时,拼多多的算法推荐开始发力,一坨坨带有AI字样的商品在我的购物首页扑面而来——有AI鼠标,外形像苍蝇脑壳;
最近,Netflix 正在悄悄测试一项黑科技功能——由 ChatGPT 背后的 OpenAI 提供支持的智能搜索服务。这不仅仅是搜索条那么简单,它可能会彻底改变你跟内容平台“对话”的方式。
Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。
尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;AI - MO。」
“让机器人看懂世界、听懂指令、动手干活”正从科幻走向现实。
AI实习岗日薪达千元,技术岗高薪学历门槛高。
芯片设计是现代科技的核心,逻辑优化(Logic Optimization, LO)作为芯片设计流程中的关键环节,其效率直接影响着芯片设计的整体性能。