AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度

「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度

「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力,但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别,训练和推理的成本变得高昂,阻碍了其在许多实际应用中的推广与落地。

来自主题: AI技术研报
5516 点击    2025-07-18 11:58
免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频

免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频

免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频

Bind-Your-Avatar是一个基于扩散Transformer(MM-DiT)的框架,通过细粒度嵌入路由将语音与角色绑定,实现精准的音画同步,并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试,实验表明其在身份保真和音画同步上优于现有方法。

来自主题: AI技术研报
6187 点击    2025-07-18 11:44
AI编程,LLM会写代码,但“不懂”代码,来自两篇顶级研究的“人机协作避坑指南”

AI编程,LLM会写代码,但“不懂”代码,来自两篇顶级研究的“人机协作避坑指南”

AI编程,LLM会写代码,但“不懂”代码,来自两篇顶级研究的“人机协作避坑指南”

从Cursor到Claude Code和最近很火的Kiro,AI编程能在几秒钟内生成完整的函数,但它真的理解代码在做什么吗?最近两项突破性研究发现了一个让人意外的结果:现在的AI虽然"会写",但还远没有"真懂"。

来自主题: AI技术研报
7590 点击    2025-07-18 11:24
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

来自主题: AI技术研报
5984 点击    2025-07-18 11:02
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

Transformer杀手来了?KAIST、谷歌DeepMind等机构刚刚发布的MoR架构,推理速度翻倍、内存减半,直接重塑了LLM的性能边界,全面碾压了传统的Transformer。网友们直呼炸裂:又一个改变游戏规则的炸弹来了。

来自主题: AI技术研报
7516 点击    2025-07-17 17:00
教程 | 如何做出 X 上爆火的 AI 蓝图动画

教程 | 如何做出 X 上爆火的 AI 蓝图动画

教程 | 如何做出 X 上爆火的 AI 蓝图动画

Hi 这里是海辛和阿文~ 前段时间在 X 上看到博主 @sergeantsref 分享了一个 Midjourney 风格代码 --sref 2007748773 ,瞬间被圈粉。

来自主题: AI技术研报
7565 点击    2025-07-17 16:52
全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有 8 篇论文入选,其中 3 篇来自基座模型团队。

来自主题: AI技术研报
6747 点击    2025-07-17 12:12
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

来自主题: AI技术研报
6840 点击    2025-07-17 11:24
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。

来自主题: AI技术研报
8310 点击    2025-07-17 10:19
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。

来自主题: AI技术研报
7322 点击    2025-07-16 16:30
重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。

来自主题: AI技术研报
7333 点击    2025-07-16 16:26
AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

AI圈水太深:OpenAI保密、Meta作弊!国产MoE却异军突起

从GPT-2到Llama 4,大模型这几年到底「胖」了多少?从百亿级密集参数到稀疏MoE架构,从闭源霸权到开源反击,Meta、OpenAI、Mistral、DeepSeek……群雄割据,谁能称王?

来自主题: AI技术研报
6374 点击    2025-07-16 16:18
BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

BCG最新报告:印度AI普及率92%登顶全球!中美意外落后?

你好,我是杰哥。 近日,波士顿咨询公司(BCG)发布了《ai-at-work-2025-slideshow-june-2025-edit-02》,简称《AI at Work 2025》第三版报告,基于对全球 10,635 名员工的调研,深入分析了 AI 在职场中的应用现状。这份报告揭示了 AI 应用的五大关键趋势,为企业和员工提供了重要洞察。

来自主题: AI技术研报
6092 点击    2025-07-16 16:13
DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

剧本杀大家都玩过吗?这是一种经典的桌上角色扮演游戏(TTRPG), 游戏中的核心人物是游戏主持人(GM), 相当于整个世界的「导演 + 编剧 + 旁白」,负责掌控游戏环境,讲述故事背景,并扮演所有非玩家角色(NPC)。

来自主题: AI技术研报
7099 点击    2025-07-16 15:42
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报
6610 点击    2025-07-16 15:19
只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

只因一个“:”,大模型全军覆没

一个冒号,竟然让大模型集体翻车?

来自主题: AI技术研报
7225 点击    2025-07-16 10:45
倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

倒反天罡:ChatGPT教人说话?36万视频+77万播客已证实!

你以为你在掌控AI,其实是AI在驯化你!最新研究警告:ChatGPT正改变英语的表达方式,悄然植入自己的偏好。是时候重新审视,我们到底在表达自我,还是AI的「复读机」?

来自主题: AI技术研报
6638 点击    2025-07-16 10:43
借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

上周五(711),月之暗面蛰伏半年,憋了个大的,正式发布Kimi K2模型,总参数1T,同步开源。具体模型效果就不过多赘述了,网上已经有很多实测。

来自主题: AI技术研报
7469 点击    2025-07-16 10:18
智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

智能跃迁:像大模型一样进化

我们正经历一场前所未有的智能跃迁。人工智能带来的,远不止于技术革新,更是一场深刻重塑人类认知、教育与生存方式的范式转移。

来自主题: AI技术研报
7291 点击    2025-07-16 10:15
为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

为什么你用AI编程总拿不到想要的结果?北航研究揭秘:50%问题来自CoT和你自己

现在几乎所有主流的代码生成工具都在用CoT。但问题来了:这些"思考步骤"真的可靠吗?来自北京航空航天大学的研究者们发现,虽然CoT提升了性能,但关于这些中间推理步骤的质量,学术界竟然没有系统性的研究!

来自主题: AI技术研报
6087 点击    2025-07-16 10:13