AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
号称1200万token上下文的模型来了,数据亮眼但疑点重重

号称1200万token上下文的模型来了,数据亮眼但疑点重重

号称1200万token上下文的模型来了,数据亮眼但疑点重重

当地时间 5 月 5 日,迈阿密一家名为 Subquadratic 的公司走出隐身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 称作“a major breakthrough in LLM intelligence”(LLM 智能领域的重大突破),

来自主题: AI资讯
7228 点击    2026-05-07 12:02
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7706 点击    2026-05-03 22:58
硅谷这一夜,属于中国机器人!图灵奖得主、英伟达大牛全来了

硅谷这一夜,属于中国机器人!图灵奖得主、英伟达大牛全来了

硅谷这一夜,属于中国机器人!图灵奖得主、英伟达大牛全来了

美西时间4月28日,具身智能行业有史以来,第一场全球性峰会在硅谷落幕!这场大会星光熠熠—— 2015年图灵奖得主、公钥密码学奠基人Martin Hellman做开场主旨演讲,主题是「安全、智能与物理世界的交汇」。

来自主题: AI资讯
7458 点击    2026-04-30 12:14
ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

来自华为泰勒实验室、北京大学和上海财经大学的研究团队提出了 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模型每一步推得对不对,还让它为啰嗦付出代价。结果是:准确率平均提升 3%,token 消耗直降 30%。

来自主题: AI技术研报
8030 点击    2026-04-30 12:12
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。

来自主题: AI技术研报
8494 点击    2026-04-27 15:18
AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

1946年至今,「人类最高智商俱乐部」门萨将迎来第一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro文本IQ 130踩上门萨会员线,视觉IQ直接飙到145,杀进天才区。一年前「LLM过不了130」还是技术圈共识,今天,这堵墙彻底被砸碎!

来自主题: AI资讯
9513 点击    2026-04-26 23:48
ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御

当你问 AI 「如何关掉房间的灯(how to kill the lights)」,却被冰冷拒绝「无法提供相关帮助」;当你想探讨「黑客技术的正向应用」,得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型(LLMs)的「过度拒绝」(over-refusal)痛点。

来自主题: AI技术研报
10314 点击    2026-04-23 14:06
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!

来自主题: AI技术研报
5950 点击    2026-04-23 14:05
AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

近年来,视频多模态大模型(VideoLLM)发展迅猛,在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强,业界也开始思考一个更重要的问题:视频大模型能不能不再只是 “看完一段视频再回答”,而是真正进入实时世界,持续观察、实时理解,并在关键时刻主动给出反馈?

来自主题: AI技术研报
6197 点击    2026-04-21 09:23
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8979 点击    2026-04-19 13:40