首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。
现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。
AI已经不止会写代码、画图、做PPT,它也开始「上班」了!CMU与斯坦福的研究团队首次完整追踪了AI的工作过程,发现一个惊人事实:它并不是在模仿人类,而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验,正在重构未来职场的逻辑。
月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。
近日,开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍,该模型专为在软件工程任务中实现高性能与高速度而设计,现已在 Windsurf 代码编辑器中开放使用。今年 7 月,Cognition 高调收购开发工具 Windsurf。
尽管今天还有 Sora 角色客串功能和 GPT-5 查找和修复安全漏洞智能体的消息,但本文的重点是深扒 Atlas 背后的「灵魂」—— OWL 架构。看看 OpenAI 究竟是如何驯服 Chromium,把它从浏览器「换皮」玩成了「架构重组」的。
华人大三学生,1100 万美元种子轮,硅谷学生创业目前融资最高产品。
厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。
Windows Copilot正式更新,人人都能免费拥有操作电脑界面的AI助手了。
吴恩达指出,当下大模型的卷生卷死,谁是赢家不重要。关键的是谁能构建可信的AI应用,谁才能成为真正塑造未来之人,顺便成为下一个通过AI财富自由者。
互联网让知识触手可及,却也让真知难以抵达。
当大语言模型突破了 “理解与生成” 的瓶颈,Agent 迅速成为 AI 落地的主流形态。从智能客服到自动化办公,几乎所有场景都需要 Agent 来承接 LLM 能力、执行具体任务。
AGI炒作还是现实?AI新闻老将Matt Wolfe直击美国AI核心:从Demis Hassabis的理性谨慎,到扎克伯格的巨资投入,探索递归自我改进的潜在爆炸风险。
来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。
这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在𝕏上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。
按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。
在一场仅有少数头部机构参与的AI Infra闭门会上,一位顶尖AI公司创始人的这句话,让在场的许多云服务资深人士陷入了长久的沉默。
最近这两天,被一个三宫格AI图片给刷屏了。 还有那三句经典的台词: “山的那边是什么。” “你不用告诉我。” “我会自己去看。” 抖音和小红书上玩的人巨多,点赞量动辄几千几万。 群里的朋友们也都在玩。
美国当地时间 10 月 29 日,据外媒消息,AI 编码工具 Cursor 背后的公司 Anysphere 的联合创始人 Arvid Lunnemark 已离职。Cursor 最初由四位联合创始人创立,除了 Lunnemark 之外,还有 Aman Sanger、Michael Truell 和 Sualeh Asif。
就在昨晚 Google Labs 又发布了一个 AI 设计产品 Pomelli (labs.google.com/pomelli/),跟之前发布的 Stitch 专注于生产 UI 设计稿不同,这次 Pomelli 专注于帮企业低成本生成符合品牌调性的营销物料。你只需要把你的官网链接给他,他就会提取品牌设计相关的所有元素,
AI Coding火了大半年,AI Debugging也来了!刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
蛋白质大模型的最新突破,来自中国!最近,百奥几何「悄悄地」发布了新一代全场景原子级蛋白质基础大模型GeoFlow V3,给全球同行们树了一个新榜样。当其他模型还在“卷规模”的时候,GeoFlow V3选择了一条不同的路线——首次将多步推理引入蛋白质设计,让模型具备“自我评估、自主进化”的能力。
Nano Banana成为爆款之后,Gemini月活达到了6.5亿。AI业务带动之下,谷歌季度营收也首次突破千亿美元,交出了有史以来最亮眼的成绩单。什么概念?市值刚刚突破5万亿美元的英伟达,2025财年上半年的收入也刚刚突破1000亿。
今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 —— 悟界・Emu3.5。这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。
Flint 的核心理念是将网站从静态资产转变为自主 agent。Michelle 在她的文章中直言不讳地说:"是时候终结传统网站了。我们正在从网站作为静态资产的世界,转向网站成为自主 agent 的世界。"这句话听起来可能有些激进,但当你了解 Flint 的工作原理后,就会明白她为什么如此自信。
家人们,不知道你有没有试过,在和 AI 聊天时,冷不丁地问一句: “你刚刚在想什么?”
关键时刻,小扎再度出手调整高层架构,前元宇宙负责人Vishal Shah临危受命,接手AI产品管理,协助Nat Friedman整合AI产品战略。空降「高管」与老将的组合,或许可以让Meta的AI狂飙更「稳」一些。
Sora连更三大新功能:角色客串、视频拼接、社区排行榜。趁着更新的热度,Sora APP还在美国、加拿大、日本和韩国四个国家限时取消了邀请码限制,直接开放注册。此前Sora最火爆的功能是Cameo(客串):通过摄像头提取自己的的长相和声音特征,之后,就可以把自己”空投”到任何AI生成的场景里。
用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:
OpenAI正酝酿一场史诗级IPO,估值或高达1万亿美元,标志其从非营利探索者向AI巨头全面转型。通过削弱微软控制、强化自身独立性,OpenAI正为资本市场铺路,谋求支撑其万亿级AGI战略的资金弹药。若上市成功,这不仅将改写AI产业格局,也将考验其能否在商业利益与「让全人类受益」的使命之间保持平衡。