AI资讯新闻榜单内容搜索-SSI

AI终于学会「读懂人心」，带飞DeepSeek R1，OpenAI o3等模型

“What is meant often goes far beyond what is said, and that is what makes conversation possible.” ——H. P. Grice

来自主题: AI技术研报

7094 点击 2025-11-21 09:16

NeurIPS Spotlight｜GHAP：把3DGS“剪枝”变成“重建更小的高斯世界”

在三维视觉领域，3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”，拼合成一个高质量的三维世界，就像是把一片空白的舞台，用彩色的光斑和粒子逐渐铺满，最后呈现出一幅立体的画卷。

来自主题: AI技术研报

7977 点击 2025-11-15 10:13

Memory和RAG的区别在哪？用「上下文工程」做出个性化 AI（谷歌白皮书精读）

谷歌在第三天发布了《上下文工程：会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出，LLM模型本身是无状态的 (stateless)。如果要构建有状态的（stateful）和个性化的 AI，关键在于上下文工程。

来自主题: AI技术研报

5878 点击 2025-11-14 10:22

打破显存墙：谢赛宁团队提出CLM，单卡RTX 4090「撬动」1亿高斯点

3D Gaussian Splatting (3DGS) 是一种日益流行的新视角合成方法，给定 3D 场景的一组带位姿的图像（即带有位置和方向的图像），3DGS 会迭代训练一个场景表示，该表示由大量各向异性 3D 高斯体组成，用以捕捉场景的外观和几何形状。

来自主题: AI技术研报

10219 点击 2025-11-12 10:51

Feed-Forward 3D综述：三维视觉如何「一步到位」

在 3D 视觉领域，如何从二维图像快速、精准地恢复三维世界，一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF)，再到 3D Gaussian Splatting (3DGS)，技术的演进让我们离实时、通用的 3D 理解越来越近。

来自主题: AI技术研报

5826 点击 2025-11-07 10:15

上海AI Lab发布混合扩散语言模型SDAR：首个突破6600 tgs的开源扩散语言模型

近日，上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计，无缝融合了 AR 模型的高性能与扩散模型的并行推理优势，能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报

7289 点击 2025-11-01 12:57

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

8227 点击 2025-11-01 09:23

重新定义跨模态生成的流匹配范式，VAFlow让视频「自己发声」

在多模态生成领域，由视频生成音频（Video-to-Audio，V2A）的任务要求模型理解视频语义，还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归（Auto-Regressive）的方式将视频特征作为前缀来逐个生成音频 token，或者以掩码预测（Mask-Prediction）的方式并行地预测音频 token，逐步生成完整音频。

来自主题: AI技术研报

7245 点击 2025-10-31 15:00

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

来自主题: AI技术研报

8333 点击 2025-10-28 14:28

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报

6338 点击 2025-10-15 14:00