CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理
CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理在CV、ML等领域经常用到的神经场网格模型,如今有了理论框架描述其训练动力学和泛化性能。
搜索
在CV、ML等领域经常用到的神经场网格模型,如今有了理论框架描述其训练动力学和泛化性能。
苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。
360 度场景生成是计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。
由腾讯音乐娱乐的Lyra Lab团队开发的Muse 开源系列项目,它的最后一个模块终于来了——MusePose !发布后却真诚致谢阿里的项目?
使用大模型合成的数据,就能显著提升3D生成能力?
上周末在推特平台上有一篇写在谷歌文档里短文,在国外的科技/投资圈得到了非常广泛的浏览,叫做 The End of Software ( 软件的终结 ), 作者 Chris Paik 是位于纽约市的风险投资基金 Pace Capital 的创始合伙人,他之前同样在谷歌文档里总结的自己的投资框架也得到广泛的阅读。
24点游戏、几何图形、一步将死问题,这些推理密集型任务,难倒了一片大模型,怎么破?北大、UC伯克利、斯坦福研究者最近提出了一种全新的BoT方法,用思维模板大幅增强了推理性能。而Llama3-8B在BoT的加持下,竟多次超越Llama3-70B!
未来5年内会在AI技术架构上有大的突破,Transformer会被逐步重构。15-20年内实现通用人工智能(AGI),并通过“新图灵测试”。
不使用外部工具也能让大语言模型(LLMs)实现严谨可信的推理,新国立提出 SymbCoT 推理框架:结合符号化逻辑(Symbolic Logical)表达式与思维链,极大提升推理质量,鲁棒性与可信度。
CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。