
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律本文中,香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。
本文中,香港大学与 Adobe 联合提出名为 UniReal 的全新图像编辑与生成范式。该方法将多种图像任务统一到视频生成框架中,通过将不同类别和数量的输入/输出图像建模为视频帧,从大规模真实视频数据中学习属性、姿态、光照等多种变化规律,从而实现高保真的生成效果。
AutoPatent框架能够自动化生成高质量的专利文档,大幅提高专利撰写效率,有望简化专利申请流程,降低成本,促进创新保护。
将图像中与约束相关的物体或部分提取为更简洁的几何元素(如点、线、面)。通过跟踪和评估这些几何元素在时空中的变化,可以有效地监控约束是否被满足。
2024年,智驾领域最热的词,就是“端到端”。甚至,到了不聊端到端都没法出门的程度。
自动驾驶行业正经历新一轮洗牌。其中,全球自动驾驶第一股图森未来的沉浮,折射出整个行业的阵痛:从 2021 年 IPO 时 85 亿美元的估值,到 2024 年初退市,短短三年间历经管理层动荡、美国监管调查、业务收缩及大幅裁员等一系列剧变。
2024年快要结束了,世界大模型究竟孰强孰弱?刚刚,智源研究院发布了下半年大模型综合评测结果,涵盖了开源闭源100+模型,横跨文本、语音、图像和视频等多个领域。
继视觉和听觉之后,AI已经进化到拥有嗅觉了?? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。 而且生成味道的过程几乎是全自动的——除了放入水果和取出生成结果,全程都不需要人工干预。
AI重构一切,已经实实在在开始在直播间里分一杯羹了。
什么??? 听说有人连一行代码都不会敲,竟然开发了个产品,然后还靠着它营收破百万……
刚刚,2024达摩院青橙奖获奖名单公布! 15名获奖中国青年科学家,平均年龄34岁。
The Information消息,初代GPT论文第一作者Alec Radford也要离开OpenAI,转向独立研究。据了解, Alec于2016年加入OpenAI,从初代GPT到GPT-4o的论文中全都有他的名字,其中前两代还是第一作者。
OpenAI 发布季第十一天,ChatGPT与Mac应用深度集成了—— 此次带来编程和写作两方面的更新。
许多没有任何GPU背景、算力行业经验的上市公司,将智算中心当做他们发展第二曲线的抓手,筹谋向AI领域转型——比如,生产味精的公司(莲花控股)、造染料的公司(锦鸡股份)、甚至还有博彩行业的玩家(鸿博股份)等等。 但到2024年年底,情况出现了逆转。
过去一年,强化学习成为了大模型 AI 领域最热的概念之一。 随着行业内高阶推理模型的推出,再次彰显了强化学习在通往 AGI 道路上的重要性,也标志着大模型 AI 进入了一个全新阶段。
Perplexity专注于改善信息获取,并正在构建全球首个“答案引擎”;Aravind认为模型会越来越商品化;Aravind谈Perplexity使命愿景
提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。
丸辣!原来AI有能力把研究员、用户都蒙在鼓里: 在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
自2022年年末OpenAI发布ChatGPT以来,英伟达的市值就上涨了近5倍,甚至超越苹果成为了全球最值钱的公司。眼看着英伟达如今能够让OpenAI、Meta、xAI等一众AI厂商排队交钱,也就使得越来越多的公司想成为此次AI淘金热中的“卖水人”。
奶茶机器人,有必要吗? 万万没想到,几块钱的奶茶比几十万的汽车更先赛博了起来。 北京地铁站已经开始搞奶茶无人机了,扫码点餐、机械臂制作、全程无人工,妥妥的i人福利。
可控视频生成,对于自动驾驶技术而言,同样非常重要。
从中国人工智能公司的总体分布情况来看,目前在北京有1869家AI公司,是全国AI公司密度最高的城市,占全国27%的比重;广东有1494家AI公司,占比为21%;上海有1081家AI公司,占比15%。全国有超过六成的AI公司分布在北上粤三地。
早在当年微软Edge也转投谷歌Chromium阵营时,外界都以为网络浏览器的故事已经迎来了大结局。
谷歌版o1来了!在奥特曼“双十二”倒数第二天——他们发布Gemini 2.0 Flash Thinking,顾名思义,以闪电般的速度解决复杂问题并展示其思考过程的实验模型。
OpenAI直播第11天,ChatGPT与Mac应用深度集成了——此次带来编程和写作两方面的更新。再加上今天直播的OpenAI员工一开头就大谈特谈AI自动执行任务,有网友表示这也许是为即将推出的智能体做铺垫。
豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码!
“坏血”的故事在AI时代重演。
可爱但无用的机器人,你是不是也想要一个?
AI视频生成这就过时了吗? 刚刚,最先进的生成式物理引擎Genesis发布,一句话就可以生成完整精确的模拟物理世界。