AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

昨天 Kimi K2.7 Code 高速版 上线了,我上手试了下,最大的感受就一个字:快。

来自主题: AI技术研报
8993 点击    2026-06-17 10:52
王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

过去一年,由斯坦福大学丛乐(Le Cong)与普林斯顿大学王梦迪(Mengdi Wang)领衔的AI科研团队,一直在做同一件事: 把越来越多的异质能力,纳入同一个协同视野。

来自主题: AI技术研报
5200 点击    2026-06-17 10:32
PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。

来自主题: AI技术研报
6690 点击    2026-06-17 10:32
从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。

来自主题: AI技术研报
7681 点击    2026-06-17 09:53
Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

在一个什么都能吵翻天的国家,71%的美国人难得达成共识:AI必须有人管——但管它的,绝不能是造它的人。

来自主题: AI技术研报
5719 点击    2026-06-16 13:57
视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报
5376 点击    2026-06-16 13:56
腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

6 月 15 日,腾讯 Robotics X、福田实验室与混元团队联合发布面向真实世界机器人操作任务的端到端具身智能模型 Hy-Embodied-0.5-VLA(简称 HyVLA-0.5)。

来自主题: AI技术研报
10109 点击    2026-06-16 10:21
给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

当用户给出一句简单提示词时,当前的音视频生成模型往往已经能够生成具有不错质量的视听内容。然而,一旦提示词变得复杂,问题便开始暴露出来。

来自主题: AI技术研报
9746 点击    2026-06-16 09:54
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL,多个模型同时答题,自动仲裁出最优解。几个你现在就能调用的“常规模型”,给它来个组合编排,跑出来的综合胜率,直接掀翻了Fable 5的单体基准线。Opus 4.8打不过Fable 5,GPT-5.5也单挑不过,但这两个拼一组,结果就反超了。

来自主题: AI技术研报
9753 点击    2026-06-15 15:12
一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

昨天,AI 圈大都被这一新闻「刷屏」:巴西里约热内卢市政府旗下的一家 IT 公司,平地一声雷地推出一款名为「Rio 3.5」397B 的开源模型,甚至还一路逆袭杀进了全球第一梯队,超越 Qwen 3.7 Plus 等开源模型,在多项基准测试中斩获 SOTA 性能。

来自主题: AI技术研报
6388 点击    2026-06-15 14:50
代码定位太慢?蚂蚁ACL2026新作:FuseSearch-4B让模型自己学会「该搜多少」

代码定位太慢?蚂蚁ACL2026新作:FuseSearch-4B让模型自己学会「该搜多少」

代码定位太慢?蚂蚁ACL2026新作:FuseSearch-4B让模型自己学会「该搜多少」

新智元报道 【新智元导读】FuseSearch:学习型自适应并行执行 —— 一个40亿参数的模型,凭什么在代码定位上干过了商用闭源大模型?答案只有四个字:搜得更聪明。 在AI编程狂飙突进的今天,一个尴

来自主题: AI技术研报
5809 点击    2026-06-15 14:20
啥?Fable 5一出,Skill和Prompt都白学了?

啥?Fable 5一出,Skill和Prompt都白学了?

啥?Fable 5一出,Skill和Prompt都白学了?

Workflow、Skill、SOP,可能真的要过时了。

来自主题: AI技术研报
8876 点击    2026-06-15 10:22
登Nature子刊!清华团队提出全球气候模态统一预测模型UniCM

登Nature子刊!清华团队提出全球气候模态统一预测模型UniCM

登Nature子刊!清华团队提出全球气候模态统一预测模型UniCM

全球气候异常事件正在深刻影响农业生产、水资源调度、能源管理和防灾减灾。

来自主题: AI技术研报
7224 点击    2026-06-15 09:48
BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本

BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本

BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时,Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文,并支撑跨时间的推理能力。

来自主题: AI技术研报
8139 点击    2026-06-15 09:20
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物,但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界?

来自主题: AI技术研报
5537 点击    2026-06-15 09:19
图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

多模态大模型越来越会读图中文字,但最新研究显示,「读得出来」并不等于「防得住」。西湖大学 AGI Lab 的研究团队发现,当有害文本被渲染成低清、模糊或带噪图片后,模型在一个特定清晰度区间内反而更容易被越狱。

来自主题: AI技术研报
6661 点击    2026-06-15 09:19
CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧,扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像,却无法回答场景中有哪些目标、目标位于何处,以及不同视角下的空间结构如何变化,那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报
9021 点击    2026-06-15 09:18
PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

PEFT方法评测不能只看下游分:通用能力损失也该被量化

近期,来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡(stability–plasticity trade-off)视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示,并开源了完整代码。

来自主题: AI技术研报
9621 点击    2026-06-14 10:38