AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

2025年1月到5月间,斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家,评估了104个职业中的844项具体任务。

来自主题: AI技术研报
7208 点击    2025-06-19 11:40
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

来自主题: AI技术研报
6398 点击    2025-06-19 11:31
港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案

医学世界模型(MeWM)是一种创新的AI系统,能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像,可以帮助医生在术前评估治疗效果,优化治疗方案,显著提升临床决策的准确性,为精准医疗提供了有力支持。

来自主题: AI技术研报
6059 点击    2025-06-19 11:18
20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

来自主题: AI技术研报
7545 点击    2025-06-19 11:03
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。

来自主题: AI技术研报
7479 点击    2025-06-19 10:47
未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

未来「含人量」多少,决定这工作值多少钱?斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

你敢想象吗?你的工作“含人量”多少,决定你值多少钱?“含人量”是我首次创造的一个中文通俗词汇,用来转译论文核心概念“Human Agency Scale”,以后谁要引用,请注明出处是这里哈~

来自主题: AI技术研报
8560 点击    2025-06-19 10:31
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报
8864 点击    2025-06-19 10:13
√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

√N并行+84倍计算加速!英伟达港大全新图像注意力:空间结构都保留

GSPN是一种新型视觉注意力机制,通过线性扫描和稳定性-上下文条件,高效处理图像空间结构,显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接,并利用稳定性-上下文条件确保稳定的长距离上下文传播,将计算复杂度显著降低至√N量级。

来自主题: AI技术研报
6594 点击    2025-06-18 16:41
国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

国产芯片比英伟达整体效率更高!?华为 CloudMatrix384 超节点首曝论文,跑 DeepSeek 效率超越英伟达

今年 4 月,围绕“华为芯片效率是否超越国际主流 AI 芯片和架构”的问题,网上曾引发一场激烈争论。

来自主题: AI技术研报
7190 点击    2025-06-18 16:38
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM

来自主题: AI技术研报
8432 点击    2025-06-18 15:39
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。

来自主题: AI技术研报
8541 点击    2025-06-18 15:35
想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了

近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。

来自主题: AI技术研报
6847 点击    2025-06-18 11:05
唐珺 林佳燕:人工智能生成内容著作权保护路径分析

唐珺 林佳燕:人工智能生成内容著作权保护路径分析

唐珺 林佳燕:人工智能生成内容著作权保护路径分析

AI生成内容著作权保护困境及解决路径。 本文旨在探讨人工智能生成内容的著作权保护问题,以平衡各方利益,推动著作权制度目标的实现,助力文化创意产业与智能科技的深度融合。

来自主题: AI技术研报
6371 点击    2025-06-18 10:54
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

ZPressor能高效压缩3D高斯泼溅(3DGS)模型的多视图输入,解决其在处理密集视图时的性能瓶颈,提升渲染效率和质量。

来自主题: AI技术研报
8372 点击    2025-06-18 10:50
微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

您有没有这样的体验?一天的工作里,您可能用GPTo3写了个方案,然后切换到Cursor或者Trae里写代码,接着又打开Notion或者飞书整理文档。每个工具都挺聪明,但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码,写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报
6600 点击    2025-06-18 10:36
通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。

来自主题: AI技术研报
7551 点击    2025-06-18 10:31
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

来自主题: AI技术研报
7925 点击    2025-06-18 10:28
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

编程智能体确实厉害!Transformer作者Llion Jones初创公司,专门收集了NP难题并测试了AI智能体,结果竟在上千人竞赛中排第 21!这意味着,它已经比绝大多数人写得好了。

来自主题: AI技术研报
9525 点击    2025-06-17 17:11
北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

北航等机构发布最新综述:大语言模型集成 | ArXiv 2025

LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛可得性,以及其开箱即用的特性和各个模型所具备的不同优势,极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报
7841 点击    2025-06-17 17:03
沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报
5597 点击    2025-06-17 16:53
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会

由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。

来自主题: AI技术研报
6776 点击    2025-06-17 16:45
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。

来自主题: AI技术研报
8442 点击    2025-06-17 10:21