AI技术研报-这里有最前沿的人工智能技术解读

挖掘DiT的位置解耦特性，Personalize Anything免训练实现个性化图像生成

个性化图像生成是图像生成领域的一项重要技术，正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念，精准合成定制化的视觉内容，满足日益增长的个性化需求，并同时支持对生成结果进行细粒度的语义控制与编辑，使其能够精确实现心中的创意愿景。

来自主题: AI技术研报

9201 点击 2025-03-25 14:50

中学生就能看懂：从零开始理解LLM内部原理【七】｜ “概率”从哪里来？

LLM本质上是一个基于概率输出的神经网络模型。但这里的“概率”来自哪里？今天我们就来说说语言模型中一个重要的角色：Softmax函数。（相信我，本文真的只需要初等函数知识）

来自主题: AI技术研报

7069 点击 2025-03-25 14:34

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报

9291 点击 2025-03-25 12:09

一文看懂多模态思维链

多模态思维链（MCoT）系统综述来了！

来自主题: AI技术研报

5717 点击 2025-03-25 10:17

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型（BD3-LMs）结合自回归模型和扩散模型的优势，解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成，利用键值缓存提升效率，并通过优化噪声调度降低训练方差，达到扩散模型中最高的预测准确性，同时生成效率和质量优于其他扩散模型。

来自主题: AI技术研报

9210 点击 2025-03-25 10:09

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！

来自主题: AI技术研报

6997 点击 2025-03-25 09:50

STEM博士创业率暴跌38%，40岁才达科研黄金期！AI赛博队友完胜双人组

过去20年，STEM博士创业率狂跌38%。这背后，是知识负担带来的结果。当代科学家需要掌握的知识量呈爆炸式增长，做出科研成果的年龄被拉长到40多岁。AI会是下一个出路吗？

来自主题: AI技术研报

5946 点击 2025-03-25 09:40

多模态RAG实战：复杂的PPT文档如何处理？一文掌握关键技巧。

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下，混合多种媒体形式且具有复杂布局的文档随处可见，比如一份PPT：

来自主题: AI技术研报

5242 点击 2025-03-24 16:23

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别！BPO-AVASR通过优化音视频输入和输出偏好，提升语音识别在真实场景中的准确性，解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报

6376 点击 2025-03-24 16:01

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

6270 点击 2025-03-24 15:47

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

来自主题: AI技术研报

9025 点击 2025-03-24 15:33

MCP的技术大变革，下一代「超级空间智能体」的机会～

我最近一段时间，除了处理项目上的一些问题，我将我的大部分时间都在体验目前的MCP成果上，我也在和不同的朋友进行交流，其实交流下来，只要是自己亲身使用过目前的MCP工具的基本上都有一些共同的认知：

来自主题: AI技术研报

7085 点击 2025-03-24 15:24

一句话生成AI万用插头MCP应用，小白也能手搓Manus，这就是功能性Agent的未来

上期做了一个一键安装 MCP 项目的平价方案，

来自主题: AI技术研报

7015 点击 2025-03-24 15:15

腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

在过去的一两年中，Transformer 架构不断面临来自新兴架构的挑战。

来自主题: AI技术研报

5828 点击 2025-03-24 14:17

谷歌对齐大模型与人脑信号！语言理解生成机制高度一致，成果登Nature子刊

谷歌最新发现，大模型竟意外对应人脑语言处理机制？！

来自主题: AI技术研报

8040 点击 2025-03-24 10:56

天工所打造！国内首个生物制造大语言模型，网页版已上线！

当前，传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战，限制了其在工业化应用中的效率和可扩展性。

来自主题: AI技术研报

8624 点击 2025-03-24 10:41

硅谷投资人爆料：AI爆炸率先发生在中国！芯片扩大1万倍，AI逼近物理极限

硅谷投资人Tom Davidson的硬核长文预测，给出了惊人结论：全栈的AI大爆炸，或将率先发生在中国！而当芯片规模扩大1万倍时，AI将逼近物理极限。

来自主题: AI技术研报

7040 点击 2025-03-24 10:31

ICLR 2025 Spotlight｜让机器人实现「自主进化」，蚂蚁数科、清华提出具身协同框架 BodyGen

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight（聚光灯/特别关注）论文。

来自主题: AI技术研报

7092 点击 2025-03-24 10:03

CVPR 2025满分论文：开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架，核心代码全部开源，助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分，并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2，XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

来自主题: AI技术研报

5641 点击 2025-03-24 09:59