Feed-Forward 3D综述:三维视觉如何「一步到位」
Feed-Forward 3D综述:三维视觉如何「一步到位」在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。
在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。
地理AI,还得看谷歌!谷歌首次实现地球尺度的复杂地理空间推理,把地球变成「可计算对象」。基于数十年在世界建模上的经验,结合Gemini的先进推理能力,谷歌重磅升级Earth AI——从环境监测到灾害响应,尽在其中。
一直以来,关于人工生命(Artificial Life, ALife)的研究致力于回答这样一个问题:生命的复杂性能否在计算系统中自然涌现?
谷歌遗珠与IBM预言:一文点醒Karpathy,扩散模型或成LLM下一步。
谷歌世界模型大牛Danijar Hafner宣布离任!他自2016年起开始在Google Brain实习,后又在DeepMind、Brain Team工作。他的经历颇具传奇色彩,曾获辛顿指导,还与Łukasz Kaiser、Ashish Vaswani等Transformer大佬有过交集。
今天翻 GitHub Trending 的时候,看到一个不怎么眼熟的项目占据榜单第一。 仔细一看,是个多 Agent 舆情分析助手,名字叫「微舆 BettaFish」。再往下拉,发现它 star 已经过万了,而且还是最近十几天突然暴涨。
想象一下,你正在玩一款开放世界游戏,角色在无缝衔接的世界中自由漫游,游戏引擎必须实时生成一条无限长的视频流来呈现这个虚拟世界。或者,你戴着 AR 眼镜在街头行走,系统需要根据你的视线与动作,即时生成与你环境交互的画面。无论是哪种场景,都对 AI 提出了同样的要求:能实时生成高质量、长时间连贯的视频流。
1997年首提AGI的马克·古布鲁德(Mark Gubrud),从地下室论文到被遗忘的命名者;而今AGI成巨头博弈与数千亿美元资本的关键开关,微软与OpenAI以其为合同枢纽与控制权杠杆,标准却愈发模糊。
屠榜开源大模型的MiniMax M2是怎样炼成的?为啥M1用了Linear Attention,到了M2又换成更传统的Full Attention了? 面对现实任务,M2表现得非常扛打,在香港大学的AI-Trader模拟A股大赛中拿下了第一名,20天用10万本金赚了将近三千元。
近日,AI歌手Xania Monet凭借一首火爆的单曲登上Billboard电台榜单,成为首位登上该榜的AI艺术家,还签下了价值300万美元的唱片合约。Monet的爆火在音乐行业掀起了轩然大波,格莱美天后SZA怒批其「贬低音乐」。