AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

过去数月,AI 领域很难绕开一个名字 ——OpenClaw。这个项目在极短时间内获得了爆发式关注:数十万星标、惊人的 Token 消耗,以及几乎所有大厂的快速跟进。从表面上看,它像是又一个现象级 AI 产品;但如果进一步审视,一个更值得思考的问题随之浮现 ——OpenClaw 的出现,究竟意味着什么?它真的是一次技术突破,还是某种更深层变化的信号?

来自主题: AI技术研报
5257 点击    2026-03-31 14:40
1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap,通过闪烁LED与事件相机结合,实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境,低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose,显著提升运动分析精度,推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报
6159 点击    2026-03-31 14:40
直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

设想这样一个场景:你打电话让同事去办公室某个地方拿东西,仅凭语言描述位置是多么困难。在办公室里,从一堆已经喝过的矿泉水瓶中,让对面同学递过来你之前喝过的那个,只用语言几乎无法准确描述——「左边第二个」?「有点旧的那个」?这时候,人们更倾向于用手指一下,或者拿出图片来指代。

来自主题: AI技术研报
6954 点击    2026-03-31 14:37
Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Anthropic 研究科学家 Nicholas Carlini 在 [un]prompted 2026 安全会议上用不到 25 分钟演示了一件事:语言模型现在可以自主找到并利用零日漏洞,目标包括 Linux 内核这种被人类安全专家审计了几十年的软件。

来自主题: AI技术研报
9632 点击    2026-03-31 14:06
搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

第一篇论文来自字节SEED团队, 打了一些基础; 《Over-Tokenized Transformer》。 论文标题看上去在讨论“过度分词”。 而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。 《Conditional Memory via Scalable Lookup》 也就是Engram模块所出处的论文。

来自主题: AI技术研报
9610 点击    2026-03-31 10:30
全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

GitHub OCR项目之王刚刚历史性易主。

来自主题: AI技术研报
6218 点击    2026-03-31 10:29
早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用token索引的embedding表直接读取记忆,彻底解耦记忆容量与计算开销。

来自主题: AI技术研报
7958 点击    2026-03-31 10:04
大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

您在使用LLM时,如果遇到它胡说八道或者彻底偏题,第一反应是什么?大概率是直接关掉窗口,新开一个对话,懒得跟机器废话。但您可能不知道,这个看似再正常不过的习惯,正在给下一代大语言模型的训练库疯狂“投毒”。

来自主题: AI技术研报
8319 点击    2026-03-31 10:03
ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

在生成式 AI 领域,视觉分词器(Visual Tokenizer)通常采用固定压缩率 —— 无论是单调的监控画面,还是复杂的动作大片,都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余,也产生了 “信息量” 不同的 Token,不利于下游理解生成任务处理。

来自主题: AI技术研报
5356 点击    2026-03-31 10:03
中国巨头的AI商业图谱

中国巨头的AI商业图谱

中国巨头的AI商业图谱

大模型的狂热已然退潮。当我们将目光从参数榜单转向真实的活跃数据,四家头部大厂的底层商业图谱已极度收敛。AI的竞争,早已变成一场基于算力成本与高频场景的残酷算账。

来自主题: AI技术研报
7614 点击    2026-03-31 09:49
Claude Code 15 个被低估的功能,创建者亲述

Claude Code 15 个被低估的功能,创建者亲述

Claude Code 15 个被低估的功能,创建者亲述

你日常用 Claude Code,用了多少功能?手机上写代码?语音编程?让 Claude 每 5 分钟自动帮你处理代码审查?

来自主题: AI技术研报
8693 点击    2026-03-30 17:11
AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。

来自主题: AI技术研报
6285 点击    2026-03-30 16:06
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8173 点击    2026-03-30 15:02
2026 年  Agent 最重要的工程概念:「Harness Engineering」

2026 年 Agent 最重要的工程概念:「Harness Engineering」

2026 年 Agent 最重要的工程概念:「Harness Engineering」

最近,AI 圈子里又冒出一个新词:Harness Engineering。

来自主题: AI技术研报
9022 点击    2026-03-30 15:01
ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

ICRA 2026 | NUS邵林团队提出Goal-VLA:生成式大模型化身「世界模型」,实现零样本机器人操作

在具身智能领域,机器人操作的泛化能力一直是一个核心挑战。当前,视觉 - 语言 - 动作(VLA)模型主要分为两大范式:端到端模型与分层模型。端到端 VLA 模型(如 RT-2 [1], OpenVLA [2])严重依赖海量的 “指令 - 视觉 - 动作” 成对数据,获取成本极高,导致其在面对新任务或新场景时零样本泛化能力受限。

来自主题: AI技术研报
5661 点击    2026-03-30 15:00
为什么一夜之间大家都在做 CLI?

为什么一夜之间大家都在做 CLI?

为什么一夜之间大家都在做 CLI?

飞书、Google、Stripe、ElevenLabs、网易云音乐。 最近几个月,一群看起来毫不相关的公司不约而同做了同一件事:发布 CLI 工具。

来自主题: AI技术研报
7287 点击    2026-03-30 09:56
Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。

来自主题: AI技术研报
7635 点击    2026-03-30 09:55
打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。

来自主题: AI技术研报
9784 点击    2026-03-30 09:29
连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

当世界模型越来越大,真正制约它走向「内部模拟器」的,未必是表征能力,而可能是动力学建模。

来自主题: AI技术研报
7187 点击    2026-03-30 09:29
CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

当你希望 AI 将 "士兵举起手臂,向后倾身,然后身体向前扑倒" 这段文字转化为一段 3D 角色动画,现有大多数方法给出的答案是:一段摇摇晃晃、语义残缺的短片段。这并非模型能力不足,问题的根源在于将运动表达为逐帧离散序列这一根本性的设计决策。

来自主题: AI技术研报
6870 点击    2026-03-30 09:28