AI资讯新闻榜单内容搜索-生成模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 生成模型

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

9687 点击 2025-12-21 12:39

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此，华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架，CineCtrl 通过解耦交叉注意力机制，摆脱了多控制信号共同控制的效果耦合问题，实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报

9129 点击 2025-12-21 12:34

全球功能最全的视频生成模型来了

全球功能最全的视频生成模型来了

全球功能最全的视频生成模型来了

坏了，阿里这波是冲着Sora 2去的！

来自主题: AI资讯

7412 点击 2025-12-18 15:12

两大模型发布！豆包大模型日均使用量突破50万亿Tokens

两大模型发布！豆包大模型日均使用量突破50万亿Tokens

两大模型发布！豆包大模型日均使用量突破50万亿Tokens

今天，在 FORCE 原动力大会上，火山引擎发布豆包大模型1.8、豆包视频生成模型 Seedance 1.5 pro。经过一年多的持续升级，豆包大模型家族在多模态理解和生成能力、Agent 能力上，已位于全球第一梯队。

来自主题: AI资讯

12997 点击 2025-12-18 13:11

一等奖20万，大佬们出题，最硬核视频生成全球挑战赛开启！

一等奖20万，大佬们出题，最硬核视频生成全球挑战赛开启！

一等奖20万，大佬们出题，最硬核视频生成全球挑战赛开启！

首个AI视频生成全球挑战赛来袭，袁粒、颜水成、程明明、田永鸿、Philip Torr多位大佬发起，20万大奖虚位以待！创作大神还是技术极客？两大赛道总有一个适合你，速速点击报名吧。

来自主题: AI资讯

9349 点击 2025-12-18 09:47

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

国产芯片也能跑AI视频实时生成了，商汤Seko 2.0揭秘幕后黑科技

自 Sora 2 发布以来，各大科技厂商迎来新一轮视频生成模型「军备竞赛」，纷纷赶在年底前推出更强的迭代版本。

来自主题: AI技术研报

7265 点击 2025-12-16 09:15

统一视觉多模态与多任务！快手可灵与港科大团队发布视频生成模型，加速真实世界理解

统一视觉多模态与多任务！快手可灵与港科大团队发布视频生成模型，加速真实世界理解

统一视觉多模态与多任务！快手可灵与港科大团队发布视频生成模型，加速真实世界理解

不仅能“听懂”物体的颜色纹理，还能“理解”深度图、人体姿态、运动轨迹……

来自主题: AI技术研报

8489 点击 2025-12-15 10:42

纯文本驱动视频编辑，清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑，清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

纯文本驱动视频编辑，清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

近年来，基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而，文字驱动的视频对象移除添加依然面临巨大挑战：

来自主题: AI技术研报

8307 点击 2025-12-12 09:37

又一国产图像大模型开源！实测连续P图绝了，中文渲染是短板

又一国产图像大模型开源！实测连续P图绝了，中文渲染是短板

又一国产图像大模型开源！实测连续P图绝了，中文渲染是短板

今日，美团正式发布并开源图像生成模型LongCat-Image，这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型，重点瞄准文生图与单图编辑两大核心场景。在实际体验中，它在连续改图、风格变化和材质细节上表现较好，但在复杂排版场景下，中文文字渲染仍存在不稳定的情况。

来自主题: AI资讯

8663 点击 2025-12-08 19:51

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

在 Text-to-Video / Image-to-Video 技术突飞猛进的今天，我们已经习惯了这样一个常识：视频生成的第一帧（First Frame）只是时间轴的起点，是后续动画的起始画面。

来自主题: AI技术研报

9076 点击 2025-12-06 11:03

上一页当前第7页,共30页下一页