AI资讯新闻榜单内容搜索-训练

给AI做微创手术：哈工大博士生发明新算法，5分钟让大模型减重近半

作为一名 AI 领域的博士生，徐玉庄的经历比较特殊。本科毕业于国防科技大学，随后在部队工作了 5 年，接着在清华大学获得硕士学位，目前在哈尔滨工业大学读博。

来自主题: AI技术研报

7930 点击 2025-12-31 08:30

近期，以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，突破了传统纯文本CoT的限制，在视觉推理任务中取得了优异表现。

来自主题: AI技术研报

8907 点击 2025-12-31 08:29

近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报

9573 点击 2025-12-30 15:14

现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报

8569 点击 2025-12-30 10:29

视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注，其中，如何生成音视频对齐的内容是研究的重点。

来自主题: AI技术研报

8808 点击 2025-12-30 10:27

做agent简单，但是做能落地的agent难，做能落地的长周期agent更是难上加难！

来自主题: AI技术研报

9279 点击 2025-12-30 09:58

在空间智能（Spatial Intelligence）飞速发展的今天，全景视角因其 360° 的环绕覆盖能力，成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而，全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报

7147 点击 2025-12-30 09:57

在 LLM Agent 领域，有一个常见的问题：Agent 明明 "看到了" 错误信息，却总是重蹈覆辙。

来自主题: AI技术研报

8783 点击 2025-12-30 09:54

在电影与虚拟制作中，「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化，让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而，在当前大量 customizing video generation model 的研究中，这个最基本的事实，却往往被忽视。

来自主题: AI技术研报

9386 点击 2025-12-30 09:52

作为大模型从业者或研究员的你，是否也曾为一个模型的 “长文本能力” 而兴奋，却在实际应用中发现它并没有想象中那么智能？

来自主题: AI技术研报

8714 点击 2025-12-29 14:35