AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。

来自主题: AI技术研报
6809 点击    2025-03-26 14:43
你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

你定个主题,用AgentRxiv可以让DeepSeek-v3自主搞科研写论文,效率暴增14% |最新

这项来自约翰霍普金斯与ETH Zurich的自主科研智能体框架AgentRxiv的确可以显著提高研究效率。我在测试了多次之后用Deepseek-V3-0324实现了它。

来自主题: AI技术研报
3524 点击    2025-03-26 14:37
拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

拾象科技万字详解MCP:Agentic AI中间层最优解,以及创业公司的三个机会

在拾象团队的 2025 的 AI 关键预测中,我们提到:随着 Agent 时代到来,OS 才是 LLM 厂商们最高的护城河,从 computer use 到 MCP,Anthropic 构建 OS 的决心是 AI labs 中最强、最明显的。

来自主题: AI技术研报
8875 点击    2025-03-26 10:14
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

它名为 Uni-3DAR,来自深势科技、北京科学智能研究院及北京大学,是一个通过自回归下一 token 预测任务将 3D 结构的生成与理解统一起来的框架。据了解,Uni-3DAR 是世界首个此类科学大模型。并且其作者阵容非常强大,包括了深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。

来自主题: AI技术研报
6479 点击    2025-03-26 09:10
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

,清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything,它能够在无需训练的情况下,完成概念主体的高度细节还原,支持用户对物体进行细粒度的位置操控,并能够扩展至多个应用中,为个性化图像生成引入了一个新范式。

来自主题: AI技术研报
6482 点击    2025-03-26 09:04
AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI智能体首次跨实验室协作,组队「抄作业」,论文发不停!科研效率暴增14%

AI不但能写论文,还能自主进行科研协作,让智能体之间不再是「孤岛」。约翰霍普金斯与ETH Zurich联合推出了自主科研智能体框架AgentRxiv。该框架允许智能体相互上传和检索研究成果,自动积累与迭代已有进展,显著提高研究效率。

来自主题: AI技术研报
7706 点击    2025-03-25 19:25
全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

全球顶级模型集体0分,AI终极大考人类5分钟秒杀!Keras之父戳破AGI神话

AI界「智商大考」ARC-AGI-2重磅出炉了!一个人类用5分钟轻松解开的谜题,却让最顶尖LLM全线崩盘得分挂零,o3更是从曾经76%暴跌至4%。它正式宣告,人类还未实现AGI。

来自主题: AI技术研报
6817 点击    2025-03-25 17:53
简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

简单吧,Agent优化就两种路径,有参数优化和无参数优化,你选哪种 | 最新综述

本文基于一项系统性研究《A Survey on the Optimization of Large Language Model-based Agents》,该研究由华东师大和东华大学多位人工智能领域的研究者共同完成。研究团队通过对大量相关文献的分析,构建了一个全面的LLM智能体优化框架,涵盖了从理论基础到实际应用的各个方面。您有兴趣可以找来读一下这篇综述。

来自主题: AI技术研报
4418 点击    2025-03-25 16:33
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

从微观世界的分子与材料结构、到宏观世界的几何与空间智能,创建和理解 3D 结构是推进科学研究的重要基石。3D 结构不仅承载着丰富的物理与化学信息,也可为科学家提供解构复杂系统、进行模拟预测和跨学科创新的重要工具。

来自主题: AI技术研报
2393 点击    2025-03-25 15:21
深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

昨天我们介绍了什么是AI Agent,今天介绍一个开源的AI Agent框架,也是一号难求「Manus」的“平替”——OpenManus——曾经3小时完成Manus复刻的「神」

来自主题: AI技术研报
3563 点击    2025-03-25 15:13
DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

在引发全球关注的同时,全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域,过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙,将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后,正面临高质量数据稀缺的挑战,尤其是高质量、低成本、多种类、多模态的数据,将成为未来 AI 产业发展的核心关键。

来自主题: AI技术研报
6804 点击    2025-03-25 15:02
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。

来自主题: AI技术研报
9014 点击    2025-03-25 14:50
中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

LLM本质上是一个基于概率输出的神经网络模型。但这里的“概率”来自哪里?今天我们就来说说语言模型中一个重要的角色:Softmax函数。(相信我,本文真的只需要初等函数知识)

来自主题: AI技术研报
6810 点击    2025-03-25 14:34
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报
9040 点击    2025-03-25 12:09
一文看懂多模态思维链

一文看懂多模态思维链

一文看懂多模态思维链

多模态思维链(MCoT)系统综述来了!

来自主题: AI技术研报
5484 点击    2025-03-25 10:17
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型(BD3-LMs)结合自回归模型和扩散模型的优势,解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成,利用键值缓存提升效率,并通过优化噪声调度降低训练方差,达到扩散模型中最高的预测准确性,同时生成效率和质量优于其他扩散模型。

来自主题: AI技术研报
8944 点击    2025-03-25 10:09
STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

过去20年,STEM博士创业率狂跌38%。这背后,是知识负担带来的结果。当代科学家需要掌握的知识量呈爆炸式增长,做出科研成果的年龄被拉长到40多岁。AI会是下一个出路吗?

来自主题: AI技术研报
5722 点击    2025-03-25 09:40
多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下,混合多种媒体形式且具有复杂布局的文档随处可见,比如一份PPT:

来自主题: AI技术研报
4648 点击    2025-03-24 16:23
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6126 点击    2025-03-24 16:01
MCP的技术大变革,下一代「超级空间智能体」的机会~

MCP的技术大变革,下一代「超级空间智能体」的机会~

MCP的技术大变革,下一代「超级空间智能体」的机会~

我最近一段时间,除了处理项目上的一些问题,我将我的大部分时间都在体验目前的MCP成果上,我也在和不同的朋友进行交流,其实交流下来,只要是自己亲身使用过目前的MCP工具的基本上都有一些共同的认知:

来自主题: AI技术研报
6798 点击    2025-03-24 15:24