AI技术研报-这里有最前沿的人工智能技术解读

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体学会协作推理

强化学习提升了 LLM 各方面的能力，而强化学习本身也在进化。

来自主题: AI技术研报

8999 点击 2025-03-28 10:09

到底什么是踏马的 Agentic Workflows？

AI Agents，Agentic AI，Agentic Architectures，Agentic Workflows......

来自主题: AI技术研报

10678 点击 2025-03-28 10:03

Dense与MoE大模型架构后续发展解读

过去十年，自然语言处理领域经历了从统计语言模型到大型语言模型（LLMs）的飞速发展。

来自主题: AI技术研报

13059 点击 2025-03-28 09:45

Multi-Agents 系统太难搞了，不要轻易尝试 | UC Berkeley 论文分享

这两年，AI 领域最激动人心的进展莫过于大型语言模型（LLM）的崛起，LLM 展现了惊人的理解和生成能力。

来自主题: AI技术研报

10785 点击 2025-03-28 09:33

RAG太折磨人啦，试一下pip install rankify，检索、重排序、RAG三合一，完美。| 独家

现有RAG工具的碎片化和复杂性常常让开发者头疼不已。昨天我的Agent群里朋友们就Rerank问题展开激烈讨论，我想起之前看到的一篇论文，这项研究介绍了一个完美的开源python工具包Rankify，它将检索、重排序和RAG三大功能整合在一个统一框架中，大幅简化了开发流程。

来自主题: AI技术研报

5508 点击 2025-03-28 09:24

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

深夜重磅！阿里发布并开源首个端到端全模态大模型——

来自主题: AI技术研报

10787 点击 2025-03-27 15:18

Agent太火！看这一篇综述，知识就不会学杂了丨华东师大&东华大学出品

火，Agent可太火了！关于Agent的进展俯拾皆是，根本看不过来……

来自主题: AI技术研报

7972 点击 2025-03-27 14:46

这AI绝对偷了格莱美奖杯！直接把LLaMA喂成乐坛顶流：开源版Suno来了！

家人们震惊了！现在 AI 成精啦，不仅能写能画，现在连唱功都是格莱美级的了！

来自主题: AI技术研报

6333 点击 2025-03-27 14:07

Nature：AI击败人类医学专家？哈佛团队：这一领域仍需解决4大难题

一种新的范式。

来自主题: AI技术研报

7820 点击 2025-03-27 13:44

上财开源首个金融领域R1类推理大模型，7B模型媲美DeepSeek-R1 671B满血版性能

近日，上海财经大学统计与数据科学学院张立文教授与其领衔的金融大语言模型课题组（SUFE-AIFLM-Lab）联合数据科学和统计研究院、财跃星辰、滴水湖高级金融学院正式发布首款 DeepSeek-R1 类推理型人工智能金融大模型：Fin-R1，以仅 7B 的轻量化参数规模展现出卓越性能，全面超越参评的同规模模型并以 75 的平均得

来自主题: AI技术研报

9125 点击 2025-03-27 09:41

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

轨迹可控的视频生成来了，支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。研究人员提出了MagicMotion，一种创新的图像到视频生成框架，共同第一作者为复旦大学研究生李全昊、邢桢，通讯作者为复旦大学吴祖煊副教授。

来自主题: AI技术研报

7299 点击 2025-03-27 09:17

Stable Diffusion变身3D神器！一个LoRA将2D图像转3D模型

在Stable Diffusion当中，只需加入一个LoRA就能根据图像创建3D模型了？

来自主题: AI技术研报

8325 点击 2025-03-26 14:56

视频生成的测试时Scaling时刻！清华开源Video-T1，无需重新训练让性能飙升

视频作为包含大量时空信息和语义的媒介，对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向，其性能目前主要通过增大基础模型的参数量和预训练数据实现提升，更大的模型是更好表现的基础，但同时也意味着更苛刻的计算资源需求。

来自主题: AI技术研报

8492 点击 2025-03-26 14:43

你定个主题，用AgentRxiv可以让DeepSeek-v3自主搞科研写论文，效率暴增14% |最新

这项来自约翰霍普金斯与ETH Zurich的自主科研智能体框架AgentRxiv的确可以显著提高研究效率。我在测试了多次之后用Deepseek-V3-0324实现了它。

来自主题: AI技术研报

7201 点击 2025-03-26 14:37

拾象科技万字详解MCP：Agentic AI中间层最优解，以及创业公司的三个机会

在拾象团队的 2025 的 AI 关键预测中，我们提到：随着 Agent 时代到来，OS 才是 LLM 厂商们最高的护城河，从 computer use 到 MCP，Anthropic 构建 OS 的决心是 AI labs 中最强、最明显的。

来自主题: AI技术研报

12337 点击 2025-03-26 10:14

牛津教授惊人预警：AI十年科学发现，顶人类100年！科研速度已超人类500倍

牛津大学教授新研究，未来AI的增长率足以在不到10年的时间里，推动相当于100年的技术进步。AI变革或将完全颠覆人类社会！

来自主题: AI技术研报

9598 点击 2025-03-26 10:02

随手一拍，高效重建大型3D开放场景，港科广GraphGS突破传统重建技术瓶颈｜ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍，如何从海量无序二维图像快速生成高精度三维场景？

来自主题: AI技术研报

9818 点击 2025-03-26 09:52

视频可以精准控制了！一句话给熊戴眼镜的那种，扩散模型立功，浙大悉尼科技大学出品 | ICLR 2025

如何让你的模型能感知到视频的粒度，随着你的心思想编辑哪就编辑哪呢？

来自主题: AI技术研报

8711 点击 2025-03-26 09:36

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

它名为 Uni-3DAR，来自深势科技、北京科学智能研究院及北京大学，是一个通过自回归下一 token 预测任务将 3D 结构的生成与理解统一起来的框架。据了解，Uni-3DAR 是世界首个此类科学大模型。并且其作者阵容非常强大，包括了深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。

来自主题: AI技术研报

8816 点击 2025-03-26 09:10

挖掘DiT的位置解耦特性，Personalize Anything免训练实现个性化图像生成

，清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything，它能够在无需训练的情况下，完成概念主体的高度细节还原，支持用户对物体进行细粒度的位置操控，并能够扩展至多个应用中，为个性化图像生成引入了一个新范式。

来自主题: AI技术研报

8841 点击 2025-03-26 09:04

AI智能体首次跨实验室协作，组队「抄作业」，论文发不停！科研效率暴增14%

AI不但能写论文，还能自主进行科研协作，让智能体之间不再是「孤岛」。约翰霍普金斯与ETH Zurich联合推出了自主科研智能体框架AgentRxiv。该框架允许智能体相互上传和检索研究成果，自动积累与迭代已有进展，显著提高研究效率。

来自主题: AI技术研报

10414 点击 2025-03-25 19:25

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

DeepSeek-R1掀起新一轮购卡潮的同时，AMD的含金量也上升了。

来自主题: AI技术研报

9798 点击 2025-03-25 18:01

全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了！一个人类用5分钟轻松解开的谜题，却让最顶尖LLM全线崩盘得分挂零，o3更是从曾经76%暴跌至4%。它正式宣告，人类还未实现AGI。

来自主题: AI技术研报

9455 点击 2025-03-25 17:53

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

在基于物理世界的真实场景进行视觉问答时，有可能出现参考选项中没有最佳答案的情况，比如以下例子：

来自主题: AI技术研报

4993 点击 2025-03-25 17:34

简单吧，Agent优化就两种路径，有参数优化和无参数优化，你选哪种 | 最新综述

本文基于一项系统性研究《A Survey on the Optimization of Large Language Model-based Agents》，该研究由华东师大和东华大学多位人工智能领域的研究者共同完成。研究团队通过对大量相关文献的分析，构建了一个全面的LLM智能体优化框架，涵盖了从理论基础到实际应用的各个方面。您有兴趣可以找来读一下这篇综述。

来自主题: AI技术研报

6466 点击 2025-03-25 16:33

Uni-3DAR用自回归统一微观与宏观的3D世界，性能超扩散模型256%，推理快21.8倍

从微观世界的分子与材料结构、到宏观世界的几何与空间智能，创建和理解 3D 结构是推进科学研究的重要基石。3D 结构不仅承载着丰富的物理与化学信息，也可为科学家提供解构复杂系统、进行模拟预测和跨学科创新的重要工具。

来自主题: AI技术研报

4459 点击 2025-03-25 15:21

深入学习AI Agent：6张图彻底看懂OpenManus，附从0入门教程

昨天我们介绍了什么是AI Agent，今天介绍一个开源的AI Agent框架，也是一号难求「Manus」的“平替”——OpenManus——曾经3小时完成Manus复刻的「神」

来自主题: AI技术研报

7807 点击 2025-03-25 15:13

DeepSeek解封“算力智子”后，数据成AI未来发展关键

在引发全球关注的同时，全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域，过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙，将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后，正面临高质量数据稀缺的挑战，尤其是高质量、低成本、多种类、多模态的数据，将成为未来 AI 产业发展的核心关键。

来自主题: AI技术研报

10168 点击 2025-03-25 15:02

挖掘DiT的位置解耦特性，Personalize Anything免训练实现个性化图像生成

个性化图像生成是图像生成领域的一项重要技术，正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念，精准合成定制化的视觉内容，满足日益增长的个性化需求，并同时支持对生成结果进行细粒度的语义控制与编辑，使其能够精确实现心中的创意愿景。

来自主题: AI技术研报

10844 点击 2025-03-25 14:50

中学生就能看懂：从零开始理解LLM内部原理【七】｜ “概率”从哪里来？

LLM本质上是一个基于概率输出的神经网络模型。但这里的“概率”来自哪里？今天我们就来说说语言模型中一个重要的角色：Softmax函数。（相信我，本文真的只需要初等函数知识）

来自主题: AI技术研报

9437 点击 2025-03-25 14:34