用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。
如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。
Vevo Therapeutics(现为Tahoe)与Arc研究所,两家分别在生物技术商业转化和非营利性基础研究领域领先的机构,于2025年2月联合发布了一项里程碑式的成果:全球最大的单细胞药物扰动数据集Tahoe-100M。
AI也要氛围阅读,Karpathy提出PDF论文已不适合AI时代,呼吁以Git、Markdown等结构化格式重塑科研写作。他认为未来99%的注意力将来自AI,科研成果应为AI优化。
今年AI最离谱也最让人上头的用法,可能不是写代码、写论文,而是算命。
美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文,首次公开评价中国大模型“月之暗面”Kimi K2。他表示,Kimi K2 在内部测试中表现良好,Perplexity 正在考虑在其基础上进行后训练。
今年最火的视频 AI 视频模型 Veo3 ,最近又迎来更新,能让图片开口说话了。Google CEO Sundar Pichai 发 X 说,自从五月 Google 开发者大会以来,用户已经使用 Veo 3 创建了超过 4000 万的视频。
最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。
本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而增强多视图的一致性。
马斯克憾失女将!Linda Yaccarino突然宣布辞去𝕏的CEO职务。她的离职,正逢Grok深陷争议漩涡。在职期间,马斯克反复无常,而她无力回天、黯然离场。
据外媒7月11日报道,该平台采用了Paradox.ai开发的AI聊天机器人“Olivia”(奥利维亚),用于收集求职者的个人信息,包括姓名、电话、邮箱、住址等敏感数据。然而,平台的安全防护存在严重缺陷。