AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报
7559 点击    2025-12-30 10:29
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报
6048 点击    2025-12-30 09:57
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

在电影与虚拟制作中,「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化,让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而,在当前大量 customizing video generation model 的研究中,这个最基本的事实,却往往被忽视。

来自主题: AI技术研报
8458 点击    2025-12-30 09:52
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?

来自主题: AI技术研报
7698 点击    2025-12-29 14:35
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。

来自主题: AI技术研报
9202 点击    2025-12-29 14:06
人类基准测试大翻车:样本不足、方法不透明,AI性能结论可信吗?

人类基准测试大翻车:样本不足、方法不透明,AI性能结论可信吗?

人类基准测试大翻车:样本不足、方法不透明,AI性能结论可信吗?

我们经常在一些对比 AI 性能的测试中,看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。

来自主题: AI资讯
5802 点击    2025-12-29 09:36