AI资讯新闻榜单内容搜索-ima

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

近年来，扩散模型在图像与视频合成领域展现出强大能力，为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面，该技术能够基于一系列预设姿态驱动参考图像，使其动态化，从而生成高度可控的人体动画视频。

来自主题: AI技术研报

10281 点击 2025-03-20 09:34

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

文本到图像（Text-to-Image, T2I）生成任务近年来取得了飞速进展，其中以扩散模型（如 Stable Diffusion、DiT 等）和自回归（AR）模型为代表的方法取得了显著成果。然而，这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量，导致计算成本高昂、落地困难，难以高效地应用于实际生产环境。

来自主题: AI技术研报

8372 点击 2025-03-20 09:18

3700次预训练总结超参规律，开源海量实验，告别盲猜

近年来，大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而，要实现其高效部署，精细的超参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索，我们揭示了一套通用的最优超参数缩放定律（Optimal Hyperparameter Scaling Law）。

来自主题: AI技术研报

10538 点击 2025-03-13 15:15

长文本向量模型在4K Tokens 之外形同盲区？

2025 年 2 月发布的 NoLiMA 是一种大语言模型（LLM）长文本理解能力评估方法。不同于传统“大海捞针”（Needle-in-a-Haystack, NIAH）测试依赖关键词匹配的做法，它最大的特点是通过精心设计问题和关键信息，迫使模型进行深层语义理解和推理，才能从长文本中找到答案。

来自主题: AI技术研报

6329 点击 2025-03-12 15:08

安利一个我目前觉得最好用的AI知识库 - 腾讯ima。

自从DeepSeek火了以后，感觉很多人又重新关注AI了。

来自主题: AI资讯

10847 点击 2025-02-27 15:28

速递丨MiniMax副总裁魏伟离职，曾任腾讯云副总裁

2月19日消息，钛媒体AGI独家获悉，中国AI大模型独角兽MiniMax（稀宇科技）合伙人、公司副总裁、开放平台负责人魏伟，已经于近期离职。对上述消息，MiniMax向钛媒体AGI独家回应：消息属实，MiniMax 国内B端业务迎来新的发展阶段，将由其他负责人带领团队。MiniMax将持续提升技术能力，为海内外更多客户带来高质量体验。

来自主题: AI资讯

8580 点击 2025-02-19 23:18

好活！字节，南加大，斯坦福等新开源的小人跳舞X-Dyna，人脸、背景都生动起来了

在当下的技术领域中，人像视频生成（Human-Video-Animation）作为一个备受瞩目的研究方向，正不断取得新的进展。人像视频生成 (Human-Video-Animation) 是指从某人物的视频中获取肢体动作和面部表情序列，来驱动其他人物个体的参考图像来生成视频。

来自主题: AI技术研报

7918 点击 2025-02-14 17:32

大模型六小龙，别再端着了！｜与潘乱的掀桌对谈

"不要用移动互联网的逻辑来做AI"——这句来自MiniMax创始人闫俊杰的观点，在《晚点》刊发后迅速引发行业热议。它不仅道出了当下AI创业者的迷思，更揭示出整个行业正在经历的转折.

来自主题: AI资讯

8802 点击 2025-02-04 20:35

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

近年来视觉语⾔基础模型（Vision Language Models, VLMs）在多模态理解和⾼层次常识推理上⼤放异彩，如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约：

来自主题: AI技术研报

9263 点击 2025-01-23 13:09

李飞飞：语言之外，另一半的智能还有待实现

最近，斯坦福大学教授李飞飞接受了硅谷著名投资人 Reid Hoffman 和 Aria Finger 的联合播客专访。在这场对话中，李飞飞主要探讨了以下主题： ImageNet 的灵感源于难以避开模型的过拟合问题，李飞飞意识到与其苦心改进模型，不如用数据驱动。

来自主题: AI资讯

8136 点击 2025-01-22 18:36