图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。
图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。
AI检测AI。
虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。
即使最强大的 LLM 也难以通过 token 索引来关注句子等概念,现在有办法了。
本次公布的获奖论文中,有多位华人作者。
由于规格高、论文多,顶会论文审稿过程的公平性和透明度,向来是业界关注和争议的焦点。
laude 3 具有非常大的内存( 200k 上下文窗口)和很强的调用准确性,它的上下文能力也因此成为最受欢迎、应用最广的技能。我们介绍过如何利用这种能力,没时间收听播客也能获取核心内容。今天,我们再介绍一个新技能,帮助技术小白快速 get 最新、最前沿的科技成果
特工少女说:顾洲洪老师是复旦大学数据科学博士,最近新发表了一篇《AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior》的论文,此文是顾老师自己对论文的解读,经授权转载自顾老师的知乎,点击文末阅读原文可跳转原文链接,学术交流可加文末顾老师的微信。
2024年,是被寄予希望的「AIGC应用元年」。从年初开始,AIGC又有了不少新动作:Sora凭借雨后东京街头视频一举成名,AI PC、AI手机陆续登场,AI程序员Devin通过面试,OpenAI大模型加持人形机器人Figure 01亮相…
针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。