高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。
在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。
最近两天,一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。
Meta AI的NLLB-200登上Nature,「不让任何一门语言掉队」,能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言,但是Nature研究人员也郑重提醒Meta,必须将使用这些语言的社区也纳入进来,才会真正减缓语言的消亡。
大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地表示,世界模型永远都不可能是LLM。
GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。
如何生成高难度、指令超复杂的视频呢?
来自浙江大学和伊利诺伊大学厄巴纳-香槟分校的研究者发表了他们关于「表格语言模型」(Tabular Language Model)的研究成果
训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。
谷歌DeepMind开发的AlphaFold一夜之间颠覆了生物学,这一革命性的突破背后,有一支怎样的团队?AlphaFold的缔造者之一、DeepMind研究副总裁分享了成功的秘密——如何组建一个团队来应对这一巨大的跨学科挑战并取得胜利。
才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。
陶哲轩在最新的采访中,系统地谈到了AI可能会对数学领域产生的影响。他乐观地认为,使用Lean等工具「形式化」数学,在AI的辅助下实现规模化生产——一次证明数百或数千条定理。但他也审慎地预测,数学问题在短期内不会像国际象棋一样被「解决」,但有可能会提高人类科学家的洞察力。
今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。
刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!
人类的教育方式,对大模型而言也很适用。
人形机器人的「Hello World」。
一年一度的国内「AI 春晚」—— 智源大会又一次拉开了序幕。
3D生成是生成式人工智能和计算机图形学领域最引人注目的话题之一,符合影视、游戏标准的3D生成尤其受产业界关注。在生产流程中,一般品类的3D资产往往通过手工建模或者扫描的方式制作。但作为3D资产的一个重要类别,服装资产的往往来源于平面板片与物理模拟等流程,而不是直接在3D上建模。
性能超越 Llama-3,主要用于合成数据。
只要一个大模型,就能解决打工人遇到的表格难题!
在CV、ML等领域经常用到的神经场网格模型,如今有了理论框架描述其训练动力学和泛化性能。
2023年3月,如果你偶然进入纽约大学的某个礼堂,可能会以为自己在参加一场纯粹的神经科学会议。事实上,这是一个关于人工智能的研讨会——但你的困惑是可以理解的。演讲者们谈论“切除术”,即常见于动物模型实验中的脑损伤创建手术。他们提到“探测”,比如使用电极来获取大脑信号。他们还展示了语言分析,并引用了心理学中长期以来关于“先天还是后天”的争论。
AI产品化的答案,才是AI商业化的起点
PMF在AI时代需适应新变化,探索增长本质。
奥本海默曾在新墨西哥州执行曼哈顿计划,只为拯救世界。并留下了一句:「他们不会对其敬畏,直至理解;而理解,唯有亲身体验之后。」
近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。
一句话让AI自动化操作手机,打个车已经不是难事了。 从官方公布的演示视频来看,用户只需要说出目的地,Agent就能够通过规划、决策和反思的流程自动化帮用户完成目的地输入,呼叫车辆等操作,适用于老人及视障人群,解决他们不会使用或者无法使用手机APP的问题。
用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。 这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。
中国科学院大学和中科数字大脑研究院的研究人员,引入了上帝之点和死亡之点,构建了智能体演化的动力学模型——Flight Model。他们发现,以GPT-4为代表的AI已经接近了人类成人智能水平,但尚未表现出自我意识证据。并且,具有自我意识到AGI,在科学原理上存在目前无法克服的局限性。
AI通用智能体的自我进化能力,并非遥不可及。
前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。