AI资讯新闻榜单内容搜索-模型训练

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破

全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型 F-16（ICML 2025），以及无文本泄漏基准测试 AVUT（EMNLP 2025）正式发布。新阵容在视频理解能力与评测体系全线突破，全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。

来自主题: AI资讯

8898 点击 2025-09-30 10:44

DeepSeek突然拥抱国产GPU语言！TileLang对标CUDA替代Triton，华为昇腾Day0官宣支持适配

DeepSeek v3.2有一个新改动，在论文里完全没提，只在官方公告中出现一次，却引起墙裂关注。开源TileLang版本算子，其受关注程度甚至超过新稀疏注意力机制DSA，从画线转发的数量就可以看出来。

来自主题: AI技术研报

9963 点击 2025-09-30 10:42

知心者？操控者？施虐者？AI伙伴如何影响我们的心理健康

原文作者：David Adam 本篇《自然》长文共3702字，干货满满，预计阅读时间12分钟，时间不够建议可以先“浮窗”或者收藏哦。研究表明，电子伙伴类应用有利有弊——但科学家们担心长期依赖性。绘

来自主题: AI技术研报

8008 点击 2025-09-30 10:41

谷歌Veo 3论文竟无一作者来自美国！揭秘零样本「看懂」世界

DeepMind公开了有关Veo 3视频模型最新论文！论文提出了「帧链」（Chain-of-Frames，CoF），认为视频模型也可能像通用大模型一样具备推理能力。零样本能力的涌现，表明视频模型的「GPT-3时刻」来了。

来自主题: AI技术研报

7708 点击 2025-09-29 22:09

HLE“人类最后考试”首次突破60分！Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5

就在最近，由耶鲁大学唐相儒、王昱婕，上海交通大学徐望瀚，UCLA万冠呈，牛津大学尹榛菲，Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破

来自主题: AI技术研报

9184 点击 2025-09-29 15:14

我们为什么会觉得AI理解自己？

人们感到AI理解自己，因为AI提供优于人类的倾听和理性建议，如认知共情总结混乱想法或询问需求。形象如语音和触觉增强情感连接，但过度依赖AI可能加剧孤独感。心理学角度区分情绪与认知共情，未来需身体互动和共同成长建立真实关系。

来自主题: AI资讯

7326 点击 2025-09-29 15:08

机器人感知大升级！轻量化注入几何先验，成功率提升31%

VLA模型通常建立在预训练视觉语言模型（VLM）之上，仅基于2D图像-文本数据训练，缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报

7799 点击 2025-09-29 14:53

前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

在三维重建不断走向工程化的今天，前馈式3D Gaussian Splatting（Feed-Forward 3DGS）正火速走向产业化。然而，现有的前馈3DGS方法主要采用“像素对齐”（pixel-aligned）策略——即将每个2D像素单独映射到一个或多个3D高斯上。

来自主题: AI技术研报

7211 点击 2025-09-29 14:49

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近，千寻智能的研究人员注意到，基于模仿学习的视觉运动策略中也存在类似现象，并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报

8560 点击 2025-09-29 14:31

Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍

Transformer作者Llion Jones带着自己的初创公司Sakana AI，又来搞事情了。（doge）最新推出的开源框架——ShinkaEvolve，可以让LLM在自己写代码优化自己的同时，还能同时兼顾效率，be like为进化计算装上一个“加速引擎”。

来自主题: AI技术研报

9285 点击 2025-09-29 11:01