
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型北航的研究团队,用扩散模型“复刻”了一个地球? 在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。 而且地形、气候、植被等复杂的地理特征,也全都考虑到了。
北航的研究团队,用扩散模型“复刻”了一个地球? 在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。 而且地形、气候、植被等复杂的地理特征,也全都考虑到了。
研究人员提出了一种新的大型语言模型训练方法,通过一次性预测多个未来tokens来提高样本效率和模型性能,在代码和自然语言生成任务上均表现出显著优势,且不会增加训练时间,推理速度还能提升至三倍。
深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察,也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中,他盘点分析了 4 月份发布的四个主要新模型:Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。
2023年,亚马逊、Meta、谷歌、微软四家公司整体投入体量更大、增速飞快,而腾讯、阿里巴巴、百度没有明显加大投入、追赶超越的动作,这一定程度说明未来在AI竞争上的差距还将扩大。
2023年5月,美国白宫举办了一场AI主题闭门会,嘉宾名单汇聚了中青少三代——老资历谷歌、微软,新星OpenAI,初创的Anthropic,却唯独没有Meta。
不创新,死路一条 字节跳动,已无法再低调。 • 外媒报道,字节跳动2023年营收1100亿美元,可能超过腾讯、逼近Meta; • TikTok在美国渡劫,作为增长引擎的海外业务遭遇不确定性; • 字节跳动在AI竞赛上显得“迟钝”,公司内部“到2023年才开始讨论GPT”;
前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。
Llama 3开源后,聊天机器人Meta AI也宣布使用新模型作为基座,在Meta旗下的各种软件(Meta.ai、Instagram、Facebook、WhatsApp)中都可以进行免费体验。
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。