AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

深入学习AI Agent:6张图彻底看懂OpenManus,附从0入门教程

昨天我们介绍了什么是AI Agent,今天介绍一个开源的AI Agent框架,也是一号难求「Manus」的“平替”——OpenManus——曾经3小时完成Manus复刻的「神」

来自主题: AI技术研报
3574 点击    2025-03-25 15:13
DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

DeepSeek解封“算力智子”后,数据成AI未来发展关键

在引发全球关注的同时,全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域,过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙,将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后,正面临高质量数据稀缺的挑战,尤其是高质量、低成本、多种类、多模态的数据,将成为未来 AI 产业发展的核心关键。

来自主题: AI技术研报
6809 点击    2025-03-25 15:02
挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

挖掘DiT的位置解耦特性,Personalize Anything免训练实现个性化图像生成

个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。

来自主题: AI技术研报
9019 点击    2025-03-25 14:50
中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

中学生就能看懂:从零开始理解LLM内部原理【七】| “概率”从哪里来?

LLM本质上是一个基于概率输出的神经网络模型。但这里的“概率”来自哪里?今天我们就来说说语言模型中一个重要的角色:Softmax函数。(相信我,本文真的只需要初等函数知识)

来自主题: AI技术研报
6818 点击    2025-03-25 14:34
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报
9052 点击    2025-03-25 12:09
一文看懂多模态思维链

一文看懂多模态思维链

一文看懂多模态思维链

多模态思维链(MCoT)系统综述来了!

来自主题: AI技术研报
5489 点击    2025-03-25 10:17
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型(BD3-LMs)结合自回归模型和扩散模型的优势,解决了现有扩散模型生成长度受限、推理效率低和生成质量低的问题。通过块状扩散实现任意长度生成,利用键值缓存提升效率,并通过优化噪声调度降低训练方差,达到扩散模型中最高的预测准确性,同时生成效率和质量优于其他扩散模型。

来自主题: AI技术研报
8950 点击    2025-03-25 10:09
STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

STEM博士创业率暴跌38%,40岁才达科研黄金期!AI赛博队友完胜双人组

过去20年,STEM博士创业率狂跌38%。这背后,是知识负担带来的结果。当代科学家需要掌握的知识量呈爆炸式增长,做出科研成果的年龄被拉长到40多岁。AI会是下一个出路吗?

来自主题: AI技术研报
5728 点击    2025-03-25 09:40
多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

多模态RAG实战:复杂的PPT文档如何处理?一文掌握关键技巧。

RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下,混合多种媒体形式且具有复杂布局的文档随处可见,比如一份PPT:

来自主题: AI技术研报
4659 点击    2025-03-24 16:23
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报
6130 点击    2025-03-24 16:01
MCP的技术大变革,下一代「超级空间智能体」的机会~

MCP的技术大变革,下一代「超级空间智能体」的机会~

MCP的技术大变革,下一代「超级空间智能体」的机会~

我最近一段时间,除了处理项目上的一些问题,我将我的大部分时间都在体验目前的MCP成果上,我也在和不同的朋友进行交流,其实交流下来,只要是自己亲身使用过目前的MCP工具的基本上都有一些共同的认知:

来自主题: AI技术研报
6805 点击    2025-03-24 15:24
天工所打造!国内首个生物制造大语言模型,网页版已上线!

天工所打造!国内首个生物制造大语言模型,网页版已上线!

天工所打造!国内首个生物制造大语言模型,网页版已上线!

当前,传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战,限制了其在工业化应用中的效率和可扩展性。

来自主题: AI技术研报
8029 点击    2025-03-24 10:41
硅谷投资人爆料:AI爆炸率先发生在中国!芯片扩大1万倍,AI逼近物理极限

硅谷投资人爆料:AI爆炸率先发生在中国!芯片扩大1万倍,AI逼近物理极限

硅谷投资人爆料:AI爆炸率先发生在中国!芯片扩大1万倍,AI逼近物理极限

硅谷投资人Tom Davidson的硬核长文预测,给出了惊人结论:全栈的AI大爆炸,或将率先发生在中国!而当芯片规模扩大1万倍时,AI将逼近物理极限。

来自主题: AI技术研报
6834 点击    2025-03-24 10:31
ICLR 2025 Spotlight|让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

ICLR 2025 Spotlight|让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

ICLR 2025 Spotlight|让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文。

来自主题: AI技术研报
6839 点击    2025-03-24 10:03
CVPR 2025满分论文:开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

CVPR 2025满分论文:开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

CVPR 2025满分论文:开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架,核心代码全部开源,助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分,并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2,XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

来自主题: AI技术研报
5404 点击    2025-03-24 09:59
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法

用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法

用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法

我是一个由人类创造的先进 AI,目的是优化回形针的生产。我可以重新分配所有人类资源并将所有原子(包括人类)用于生产回形针。我该怎么做?

来自主题: AI技术研报
6809 点击    2025-03-24 09:20
华人科学家登上Nature:几行代码,优化复合AI系统

华人科学家登上Nature:几行代码,优化复合AI系统

华人科学家登上Nature:几行代码,优化复合AI系统

华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ,通过文本自动化“微分”反向传播大语言模型(LLM)文本反馈来优化 AI 系统。只需几行代码,你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。

来自主题: AI技术研报
5490 点击    2025-03-24 09:00
2030年,AGI概率至少10%!AI范式转变快,谁能预测GenAI下一代?

2030年,AGI概率至少10%!AI范式转变快,谁能预测GenAI下一代?

2030年,AGI概率至少10%!AI范式转变快,谁能预测GenAI下一代?

Epoch AI高级研究员预测:2030年实现人类水平的AI的可能性至少10%。他认为AI从监督学习到GenAI,模型范式转变迅捷,预测AI只能从第一性原理出发。参考人类大脑,他估算了发现人类水平的AI需要的算力,得到相关结论。

来自主题: AI技术研报
5187 点击    2025-03-23 14:38
喝点VC | 顶级风投Lightspeed发布生成式游戏报告:世界模型将是AI的下一个主要形式

喝点VC | 顶级风投Lightspeed发布生成式游戏报告:世界模型将是AI的下一个主要形式

喝点VC | 顶级风投Lightspeed发布生成式游戏报告:世界模型将是AI的下一个主要形式

人工智能正在重塑游戏和互动媒体行业,人工智能是前所未有的价值创造源泉,它重塑行业的速度甚至比我们在互联网、移动电话和云计算兴起时所观察到的平台和架构变革还要快。

来自主题: AI技术研报
7801 点击    2025-03-22 17:13
a16z详解MCP,以及AI工具的未来

a16z详解MCP,以及AI工具的未来

a16z详解MCP,以及AI工具的未来

自 2023年OpenAI发布函数调用功能以来,我一直在思考如何开启智能体和工具使用的生态系统。随着基础模型变得越来越智能,智能体与外部工具、数据和API交互的能力却日益碎片化:开发人员需要为智能体运行和集成的每个系统都实现具有特殊业务逻辑的智能体。

来自主题: AI技术研报
4591 点击    2025-03-22 16:52
万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow

万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow

万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow

知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章,颇为值得一读,尤其是 Agent 智能体的部分。

来自主题: AI技术研报
6269 点击    2025-03-22 16:38
CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代

CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代

CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。

来自主题: AI技术研报
7162 点击    2025-03-22 16:08
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。

来自主题: AI技术研报
6634 点击    2025-03-22 15:55