AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”

多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。

来自主题: AI技术研报
6632 点击    2025-11-03 14:20
给大模型版权上“防盗锁”!浙大新方法既能装指纹又能防篡改

给大模型版权上“防盗锁”!浙大新方法既能装指纹又能防篡改

给大模型版权上“防盗锁”!浙大新方法既能装指纹又能防篡改

随着 AI 技术的发展,大语言模型已经越来越多地应用于人们的日常生活中。需要了解的是,现阶段大语言模型面临版权保护的实际需求:

来自主题: AI技术研报
8346 点击    2025-11-03 14:19
OpenAI Atlas等AI浏览器暴露Web Agent安全风险!南洋理工破解底层机制

OpenAI Atlas等AI浏览器暴露Web Agent安全风险!南洋理工破解底层机制

OpenAI Atlas等AI浏览器暴露Web Agent安全风险!南洋理工破解底层机制

OpenAI Atlas、Perplexity Comet等AI浏览器的推出,虽提升了网页自动化效率,却也使智能爬虫威胁加剧。南洋理工大学团队研发的WebCloak,创新性地混淆网页结构与语义,打破爬虫技术依赖,为数据安全筑起轻量高效防线,助力抵御新型智能攻击,守护网络安全。

来自主题: AI技术研报
5960 点击    2025-11-03 14:19
跟不上、读不完?上万篇顶会论文,这个工具一键分析

跟不上、读不完?上万篇顶会论文,这个工具一键分析

跟不上、读不完?上万篇顶会论文,这个工具一键分析

一个研究者一天到底要读多少篇论文才能跟上最新趋势?在 AI 研究成果爆炸的今天,这个数字变得越来越模糊。人的阅读速度,早就跟不上 AI 科研地图扩展的速度了。

来自主题: AI技术研报
6767 点击    2025-11-03 10:35
你刷抖音小红书不会变笨,但你的 AI 会

你刷抖音小红书不会变笨,但你的 AI 会

你刷抖音小红书不会变笨,但你的 AI 会

好消息:AI 越来越好用了。 坏消息:越用它越笨。

来自主题: AI技术研报
8669 点击    2025-11-03 10:34
FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM,8大类29项任务双语性能全球第一

FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM,8大类29项任务双语性能全球第一

FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM,8大类29项任务双语性能全球第一

在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2 与 SigLIP 2,并通过新的细粒度对齐范式,补足了第一代模型在细节理解上的不足。

来自主题: AI技术研报
6173 点击    2025-11-03 09:52
「上下文工程」 已经30岁了,而你可能刚知道它

「上下文工程」 已经30岁了,而你可能刚知道它

「上下文工程」 已经30岁了,而你可能刚知道它

AI时代,人不再只是「社会关系的总和」,而是由无数数据、记录和互动的上下文构成的。

来自主题: AI技术研报
10091 点击    2025-11-03 09:50
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。

来自主题: AI技术研报
7334 点击    2025-11-03 09:50
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题,并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配,后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。

来自主题: AI技术研报
6933 点击    2025-11-02 10:32
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?

Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?

Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?

知名科技播客《Acquired》最近的一期节目,以谷歌(Google)的 AI 发展史与战略为主线,巧妙地穿插了其他 AI 巨头的崛起历程,节目几乎涵盖了当今 AI 领域大部分的关键人物,为听众系统地梳理出一部简明的 AI 发展史。

来自主题: AI技术研报
7794 点击    2025-11-02 10:16
锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

LayerComposer革新了个性化图像生成,让用户像在Photoshop里一样自由操控元素位置、大小,解决传统方法交互性与多主体扩展难题,实现更自然、高效的创作,推动个性化生成迈向主动交互新阶段。

来自主题: AI技术研报
7919 点击    2025-11-02 10:07
少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。

来自主题: AI技术研报
6340 点击    2025-11-02 10:03
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计,无缝融合了 AR 模型的高性能与扩散模型的并行推理优势,能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报
7105 点击    2025-11-01 12:57
字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报
7307 点击    2025-11-01 09:42
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报
7868 点击    2025-11-01 09:24
内存直降50%,token需求少56%!用视觉方式处理长文本

内存直降50%,token需求少56%!用视觉方式处理长文本

内存直降50%,token需求少56%!用视觉方式处理长文本

在NeurIPS 2025论文中,来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST(Vision-centric Token Compression in LLM),为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是,这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报
8031 点击    2025-11-01 09:23
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型。在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

来自主题: AI技术研报
9081 点击    2025-10-31 15:46
AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

Xsignal AI Holo(AI全息)数据库的1-9月数据显示,市场(MAU)已自发掀起了一场“效率革命”的上半场:营销人员用脚投票,从Mailchimp等“旧势力”涌向GetResponse和“万相营造”等“效率新势力”。这证明了市场对“单点工具”效率提升的极度渴求。

来自主题: AI技术研报
8666 点击    2025-10-31 15:32
海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

本次,X博士继续应用Xsignal数据交互平台的AI Holo(AI 全息)数据库数据,为你提供海外AI应用市场2025年9月的最新发展动态,发布2025年9月海外“赛道格局”、“赛道之王”、“TOP 50 AI应用”和“增长之星”四大数据榜单及深度洞察。

来自主题: AI技术研报
11236 点击    2025-10-31 15:16
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

来自主题: AI技术研报
7044 点击    2025-10-31 15:00
最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

来自主题: AI技术研报
7177 点击    2025-10-31 14:59
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报
5193 点击    2025-10-31 14:49
AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI已经不止会写代码、画图、做PPT,它也开始「上班」了!CMU与斯坦福的研究团队首次完整追踪了AI的工作过程,发现一个惊人事实:它并不是在模仿人类,而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验,正在重构未来职场的逻辑。

来自主题: AI技术研报
6853 点击    2025-10-31 14:47
刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。

来自主题: AI技术研报
6305 点击    2025-10-31 14:33
世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

来自主题: AI技术研报
5902 点击    2025-10-31 10:27
Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

当大语言模型突破了 “理解与生成” 的瓶颈,Agent 迅速成为 AI 落地的主流形态。从智能客服到自动化办公,几乎所有场景都需要 Agent 来承接 LLM 能力、执行具体任务。

来自主题: AI技术研报
8428 点击    2025-10-31 10:24
人大、清华DeepAnalyze,让LLM化身数据科学家

人大、清华DeepAnalyze,让LLM化身数据科学家

人大、清华DeepAnalyze,让LLM化身数据科学家

来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。

来自主题: AI技术研报
10144 点击    2025-10-31 09:52
扩散语言模型新发现:其计算潜力正在被浪费?

扩散语言模型新发现:其计算潜力正在被浪费?

扩散语言模型新发现:其计算潜力正在被浪费?

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。

来自主题: AI技术研报
9063 点击    2025-10-31 09:50