AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报
6207 点击    2025-06-17 10:15
AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

AI竟会看Prompt下菜!Vibe coding普通人vs程序员,剑桥最新报告

您有没有发现一个奇怪的现象:同样是Vibe coding,有些人轻松拿到完整的Flask应用,有些人却只得到几行if-else语句?剑桥大学计算机科学与技术系的研究者们最近发布了一项研究,用科学的方法证实了我们的直觉——AI确实会"看人下菜碟"。

来自主题: AI技术研报
7564 点击    2025-06-17 10:08
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报
6794 点击    2025-06-17 09:46
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限

来自主题: AI技术研报
8599 点击    2025-06-16 17:26
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。

来自主题: AI技术研报
8516 点击    2025-06-16 17:04
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
7951 点击    2025-06-16 16:31
Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

苹果一篇论文,再遭打脸。研究员联手Claude Opus用一篇4页论文再反击,揭露实验设计漏洞,甚至指出部分测试无解却让模型「背锅」的华点。

来自主题: AI技术研报
7960 点击    2025-06-16 15:29
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力

来自主题: AI技术研报
7433 点击    2025-06-16 15:27
技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

技术Blog-4 | 新一代InfLLM:可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型,MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势,这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报
6557 点击    2025-06-16 15:24
近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

近期必读!Devin VS Anthropic 的多智能体构建方法论

昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方面。

来自主题: AI技术研报
9438 点击    2025-06-16 10:17
98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!

98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!

98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!

AI从医疗工具变身为协作队友,斯坦福大学研究揭示:医生诊断准确率竟飙升10%!70名美国执业医生参与的真实测试,AI-first、AI-second与传统诊断,谁能更精准破解临床谜题?

来自主题: AI技术研报
6093 点击    2025-06-16 10:11
12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈

AI两天爆肝12年研究,精准吊打人类!多大、哈佛MIT等17家机构联手放大招,基于GPT-4.1和o3-mini,筛选文献提取数据,效率飙3000倍重塑AI科研工作流。

来自主题: AI技术研报
8180 点击    2025-06-16 09:55
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

来自主题: AI技术研报
6149 点击    2025-06-16 09:27
囤的提示词每次都要找半天,怒肝10小时做出个插件解决!

囤的提示词每次都要找半天,怒肝10小时做出个插件解决!

囤的提示词每次都要找半天,怒肝10小时做出个插件解决!

作为一个专注用AI解决具体场景问题的自媒体小博主,每一个场景我一般都搓一个提示词出来,随着覆盖的场景越来越多,我的提示词库也变得越来越庞大。

来自主题: AI技术研报
6711 点击    2025-06-16 09:16
破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型

破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型

破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型

在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。

来自主题: AI技术研报
9157 点击    2025-06-15 15:54
AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

最近,来自约翰・霍普金斯大学与中国人民大学的团队设计了三套实验,专门把关键线索藏在上下文之外,逼模型「凭记忆」作答,从而检验它们是否真的在脑海里保留了信息。

来自主题: AI技术研报
7248 点击    2025-06-15 15:16
首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能

首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能

首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能

想象一下:你正在浏览社交媒体,看到一张震撼的图片或一段令人震撼的视频。它栩栩如生,细节丰富,让你不禁信以为真。但它究竟是真实记录,还是由顶尖 AI 精心炮制的「杰作」?如果一个 AI 工具告诉你这是「假的」,它能进一步解释理由吗?它能清晰指出图像中不合常理的光影,或是视频里一闪而过的时序破绽吗?

来自主题: AI技术研报
6928 点击    2025-06-15 12:39
多智能体在「燃烧」Token!Anthropic公开发现的一切

多智能体在「燃烧」Token!Anthropic公开发现的一切

多智能体在「燃烧」Token!Anthropic公开发现的一切

研究多智能体必读指南。Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。

来自主题: AI技术研报
6686 点击    2025-06-14 17:52
模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律

模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律

模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律

研究人员发现,大语言模型的遗忘并非简单的信息删除,而是可能隐藏在模型内部。通过构建表示空间分析工具,区分了可逆遗忘和不可逆遗忘,揭示了真正遗忘的本质是结构性的抹除,而非行为的抑制。

来自主题: AI技术研报
6487 点击    2025-06-14 16:09
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

扩散建模+自回归,打通文本生成任督二脉!这一次,来自康奈尔、CMU等机构的研究者,提出了前所未有的「混合体」——Eso-LM。有人惊呼:「自回归危险了。」

来自主题: AI技术研报
6046 点击    2025-06-14 15:07
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need

越通用,就越World Models。 我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报
6810 点击    2025-06-14 13:22