AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8436 点击    2026-04-19 13:40
果然,最恨 AI 的人,是大学毕业生

果然,最恨 AI 的人,是大学毕业生

果然,最恨 AI 的人,是大学毕业生

对 AI 敌意最重的群体,是那些刚刚踏入社会、或正在寻找起点的职场新人。盖洛普数据显示,在已就业的 Z 世代中,高达 48% 的人认为 AI 在工作场所的风险远大于收益,这一比例在一年内激增了 11 个百分点。认为收益大于风险的仅占 15%。

来自主题: AI技术研报
7576 点击    2026-04-19 13:36
百万Token白烧?Claude官方下场:5招治好上下文腐烂

百万Token白烧?Claude官方下场:5招治好上下文腐烂

百万Token白烧?Claude官方下场:5招治好上下文腐烂

给了100万token,现在却手把手教你怎么删记录!Anthropic官方承认:塞太多东西,Claude就会变蠢。面对失控的「上下文腐烂」,Anthropic连夜甩出5招救命指南。

来自主题: AI技术研报
9293 点击    2026-04-19 13:35
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

今天,来自ZJU-REAL的团队带来了ClawGUI,一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接,而是一条打通的流水线:用ClawGUI-RL训练,用ClawGUI-Eval评测,用OpenClaw-GUI部署,端到端验证。

来自主题: AI技术研报
7462 点击    2026-04-19 13:33
一天审完两万篇!AAAI 2026首次实装AI审稿,单篇成本不到1美元

一天审完两万篇!AAAI 2026首次实装AI审稿,单篇成本不到1美元

一天审完两万篇!AAAI 2026首次实装AI审稿,单篇成本不到1美元

AI 的整体表现已经胜过了人类。或者按 AAAI 官方的说法是:「对 AAAI-26 作者和程序委员会成员的大规模调查显示,参与者不仅认为 AI 评审有用,而且在技术准确性和研究建议等关键维度上,实际上更偏好 AI 评审。」

来自主题: AI技术研报
8227 点击    2026-04-19 13:33
全球最大触觉数据集Daimon-Infinity,竟然出自一家具身上游公司

全球最大触觉数据集Daimon-Infinity,竟然出自一家具身上游公司

全球最大触觉数据集Daimon-Infinity,竟然出自一家具身上游公司

4 月 15 日,戴盟机器人联合Google DeepMind、中国移动、新加坡国立大学、香港科技大学、上海交通大学、日本东北大学等海内外数十家顶尖学术机构与知名企业,发布了全球最大规模含触觉全模态物理世界数据集Daimon-Infinity。

来自主题: AI技术研报
5541 点击    2026-04-18 07:27
Nature丨告别「炼丹」!AI+机器人闭环搞光伏:效率27.18%,可重复性直接拉高5倍

Nature丨告别「炼丹」!AI+机器人闭环搞光伏:效率27.18%,可重复性直接拉高5倍

Nature丨告别「炼丹」!AI+机器人闭环搞光伏:效率27.18%,可重复性直接拉高5倍

香港城市大学朱宗龙、曾晓成团队给出了终极终结方案。他们首创了一套AI驱动的自动化闭环研发平台。从2万个分子的“大海捞针”,到自动化机械臂精准制备,再到AI实时反馈调整,全程无需人类插手。

来自主题: AI技术研报
7099 点击    2026-04-17 14:49
Claude Opus 4.7 发布,全网最详细解读

Claude Opus 4.7 发布,全网最详细解读

Claude Opus 4.7 发布,全网最详细解读

刚刚,Anthropic 发布 Claude Opus 4.7,已经在 Claude 的所有产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 上全面可用。模型 id claude-opus-4-7

来自主题: AI技术研报
6587 点击    2026-04-17 10:07
当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

2026 年初这几个月,随着 OpenClaw 的爆火,AI 领域也正式步入了 Harness 时代。在这股浪潮中,MiniMax 凭借其敏锐的技术嗅觉,成为了这场变革中的一大核心焦点。

来自主题: AI技术研报
6193 点击    2026-04-17 10:06
3.9 元让 OpenClaw 实现 Token 自由!

3.9 元让 OpenClaw 实现 Token 自由!

3.9 元让 OpenClaw 实现 Token 自由!

养虾已经成为我们团队的日常了,几乎人手都有一只🦞要养,不仅能实时抓取全网前沿 AI 资讯速递,还能干一些搬砖杂活。

来自主题: AI技术研报
10142 点击    2026-04-17 09:14
卸载龙虾后,我找到了更香的爱马仕Agent,5 分钟带你极速上手

卸载龙虾后,我找到了更香的爱马仕Agent,5 分钟带你极速上手

卸载龙虾后,我找到了更香的爱马仕Agent,5 分钟带你极速上手

「人红是非多」,Hermes Agent 最近真的火了,一边是 GitHub 积累了超过 8 万星,增长趋势完全是直线上升。

来自主题: AI技术研报
5296 点击    2026-04-17 09:13
TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

本文是北京大学彭宇新教授团队在视觉定位方向的最新研究成果,相关论文已被顶级国际期刊 IEEE TPAMI 接收。为视觉定位模型赋予「自知之明」能力 —— 通过自监督的关联校正与验证模块,在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明,让模型学会「自我纠错」,是突破弱监督视觉定位瓶颈的有效途径。

来自主题: AI技术研报
7347 点击    2026-04-17 08:41
AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染

AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染

AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染

AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。

来自主题: AI技术研报
8306 点击    2026-04-17 08:40
开源一个写书Skill,让大家都拥有AI写书自由。

开源一个写书Skill,让大家都拥有AI写书自由。

开源一个写书Skill,让大家都拥有AI写书自由。

最近沉迷 VibeCoding 哎嘿,做了非常多有意思的小工具,工具太多也还没来得及整理,等有时间再分享下。

来自主题: AI技术研报
8064 点击    2026-04-17 08:40
我给星露谷的 NPC 接入了 Hermes Agent

我给星露谷的 NPC 接入了 Hermes Agent

我给星露谷的 NPC 接入了 Hermes Agent

我和周围朋友都特别爱玩《星露谷物语》。

来自主题: AI技术研报
8159 点击    2026-04-16 16:30
特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙

特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙

特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙

质量和成本只能二选一?通过大脑+小脑分层、场内+场外双轮驱动,数据堂给出了具身智能数据难题的解。

来自主题: AI技术研报
9554 点击    2026-04-16 16:25
训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报
8661 点击    2026-04-16 16:07
合成数据≠生成模型:一文读懂合成数据的全新范式

合成数据≠生成模型:一文读懂合成数据的全新范式

合成数据≠生成模型:一文读懂合成数据的全新范式

最新研究提出合成数据的全新分类框架,突破「生成模型=合成数据」的传统认知,涵盖反演、仿真与数据增强等方法,并按应用层次划分为数据中心AI、模型中心AI、可信AI和具身AI。

来自主题: AI技术研报
6086 点击    2026-04-16 16:06
腾讯正式发布面向Agent设计的命令行工具:CloudBase CLI V3

腾讯正式发布面向Agent设计的命令行工具:CloudBase CLI V3

腾讯正式发布面向Agent设计的命令行工具:CloudBase CLI V3

我们很荣幸地宣布 CloudBase CLI V3 正式上线,这是一个面向 AI Agent 重新设计的 CloudBase 命令行工具。

来自主题: AI技术研报
9484 点击    2026-04-16 13:00