五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活论老黄卖铲子的技术含量。
搜索
论老黄卖铲子的技术含量。
生成式模型原本被设计来模仿人类的各种复杂行为,但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过,最新的研究突破了这一限制,表明在特定领域,如国际象棋,通过采用低温采样技术,这些模型能够超越它们所学习的那些专家,展现出更高的能力。
时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的速度提升。
大模型训练推理神作,又更新了!
最近,一位AI炒菜机器人不仅向人类大厨发起了PK,而且还通过了「图灵测试」:根本吃不出来是AI机器人炒的!而在这背后,竟然是1.5个亿的投入和近7吨菜的训练。
近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。
大幅节省算力资源,又又又有新解了!!
这几年,人们都在谈论大模型。特别是在 Scaling Law 的指导下,人们寄希望于将更大规模的数据用于训练,以无限提升模型的智能水平。在中国,「数据」作为一种与土地、劳动力、资本、技术并列的生产要素,价值越来越被重视。
近期,商汤科技 - 南洋理工大学联合 AI 研究中心 S-Lab ,上海人工智能实验室,北京大学与密歇根大学联合提出 DreamGaussian4D(DG4D),通过结合空间变换的显式建模与静态 3D Gaussian Splatting(GS)技术实现高效四维内容生成。
科学家们一直致力于让机器人更敏捷,此次哈佛大学与谷歌DeepMind人工智能实验室的合作有了新突破。他们创造出了一只搭载了AI大脑的「虚拟大鼠」,能够模仿真实啮齿动物的所有动作,甚至做出了一些没有被明确训练过的「新奇行为」。此项研究有望开辟「虚拟神经科学」新领域,对于脑科学和机器人学意义重大。