AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

2025年9月17日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型(简称“聆音”)。该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成,在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越,性能全面登顶。

来自主题: AI技术研报
7859 点击    2025-10-06 15:53
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
6620 点击    2025-10-06 14:46
机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

连续飞踢一台机器人30秒会发生什么?那么,是什么让这台机器人怎么踹都踹不倒呢? 答案就出自银河通用的全新通用动作追踪框架——Any2Track。

来自主题: AI技术研报
7440 点击    2025-10-06 14:02
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报
7234 点击    2025-10-06 13:42
Jina官方MCP三板斧:搜、读、筛

Jina官方MCP三板斧:搜、读、筛

Jina官方MCP三板斧:搜、读、筛

模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具,将他们串成一个完整的工作流,从而实现自主规划、推理与执行。 上个月我们悄悄发布

来自主题: AI技术研报
8724 点击    2025-10-06 13:23
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报
6885 点击    2025-10-06 13:22
你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。 其中「计算机使用智能

来自主题: AI技术研报
8789 点击    2025-10-05 21:34
华人主导谷歌SLED,论文登顶会!一键让模型学会自救

华人主导谷歌SLED,论文登顶会!一键让模型学会自救

华人主导谷歌SLED,论文登顶会!一键让模型学会自救

大模型最让人头疼的毛病,就是一本正经地「瞎编」。过去,只能靠检索补丁或额外训练来修。可在NeurIPS 2024 上,谷歌抛出的新方法SLED却告诉我们:模型其实知道,只是最后一步忘了。如果把每一层的「声音」都纳入考量,它就能从幻觉中被拉回到事实。

来自主题: AI技术研报
6834 点击    2025-10-03 15:43
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。

来自主题: AI技术研报
7629 点击    2025-10-03 14:45
100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报
7459 点击    2025-10-03 14:15
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

只让机器人或虚拟智能体「想象」,不让它们和物理世界交互,它们也能学到和世界交互的技能?谷歌的世界模型 Dreamer 4 为这一想法提供了新的支撑。为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的未来结果,为实现这一目标提供了一种有前景的方法。

来自主题: AI技术研报
8107 点击    2025-10-03 14:07
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统

小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。

来自主题: AI技术研报
7779 点击    2025-10-03 11:44
简简单单来个DeepSeek-V3.2-Exp 大解剖~附case评测

简简单单来个DeepSeek-V3.2-Exp 大解剖~附case评测

简简单单来个DeepSeek-V3.2-Exp 大解剖~附case评测

家人们,就在国庆放假前的今天凌晨,那个总在节前“搞事”的 DeepSeek,又双叒叕深夜悄然上线了!讲真,DeepSeek 是真的不考虑我们媒体人的死活啊哈哈!每次都卡着放假前更新,之前大家都转发的吐槽截图,本人又翻出来了:

来自主题: AI技术研报
7740 点击    2025-10-03 00:01
Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码

Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码

Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码

Sora 2在国庆节凌晨突袭上线,生成的视频真实到几乎难以分辨虚拟与现实。更震撼的是,Sora 2展现出对物理规律与现实世界推理的理解。全球网友正在疯狂实测Sora 2,文末有邀请码。

来自主题: AI技术研报
11154 点击    2025-10-01 17:16
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成。实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

来自主题: AI技术研报
7061 点击    2025-10-01 17:12
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒

首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒

首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒

AI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然“不熟”。为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布EgoTwin ,首次实现了第一视角视频与人体动作的联合生成。

来自主题: AI技术研报
8661 点击    2025-10-01 11:43
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习中的一些基本问题。

来自主题: AI技术研报
8559 点击    2025-10-01 11:42
LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

LLM工业级自进化:北邮与腾讯AI Lab提出MoE-CL架构,解决大模型持续学习核心痛点

在工业级大语言模型(LLM)应用中,动态适配任务与保留既有能力的 “自进化” 需求日益迫切。真实场景中,不同领域语言模式差异显著,LLM 需在学习新场景合规规则的同时,不丢失旧场景的判断能力。这正是大模型自进化核心诉求,即 “自主优化跨任务知识整合,适应动态环境而无需大量外部干预”。

来自主题: AI技术研报
7163 点击    2025-09-30 15:36
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报
8204 点击    2025-09-30 10:45
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配

DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。

来自主题: AI技术研报
8540 点击    2025-09-30 10:42
知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

知心者?操控者?施虐者?AI伙伴如何影响我们的心理健康

原文作者:David Adam 本篇《自然》长文共3702字,干货满满,预计阅读时间12分钟,时间不够建议可以先“浮窗”或者收藏哦。 研究表明,电子伙伴类应用有利有弊——但科学家们担心长期依赖性。 绘

来自主题: AI技术研报
6717 点击    2025-09-30 10:41
谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界

DeepMind公开了有关Veo 3视频模型最新论文!论文提出了「帧链」(Chain-of-Frames,CoF),认为视频模型也可能像通用大模型一样具备推理能力。零样本能力的涌现,表明视频模型的「GPT-3时刻」来了。

来自主题: AI技术研报
6537 点击    2025-09-29 22:09
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破

来自主题: AI技术研报
7898 点击    2025-09-29 15:14
机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报
6670 点击    2025-09-29 14:53
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。 然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。

来自主题: AI技术研报
6023 点击    2025-09-29 14:49
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报
7290 点击    2025-09-29 14:31
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍

Transformer作者Llion Jones带着自己的初创公司Sakana AI,又来搞事情了。(doge)最新推出的开源框架——ShinkaEvolve,可以让LLM在自己写代码优化自己的同时,还能同时兼顾效率,be like为进化计算装上一个“加速引擎”。

来自主题: AI技术研报
8031 点击    2025-09-29 11:01
攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队,带来基于树形框架的智能表格问答系统(ST-Raptor),其不仅能精准捕捉表格中的复杂布局,还能自动生成表格操作指令,并一步步执行这些操作流程,最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。

来自主题: AI技术研报
7373 点击    2025-09-29 10:36