AI资讯新闻榜单内容搜索-数据

美团开源“语音克隆”模型，1B/3.5B双选，超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚，美团LongCat团队发布了文本转语音模型LongCat-AudioDiT，并开源1B、3.5B参数量的版本。这一模型的最大特点，是彻底抛弃了梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说，这一模型直接根据声音本身的规律进行生成，“雕刻”出最原始的声音波形，从根源阻断数据转换的级联误差。

来自主题: AI资讯

9107 点击 2026-04-02 13:51

这是一个划时代的生图模型，一手实测Wan2.7-Image

3月30日，阿里巴巴内部发布了 Wan2.7-Image 图像生成与编辑统一模型。根据官方公布的数据，在人类偏好盲测评分中，Wan2.7-Image 目前位列国内第一。从放出的评测雷达图来看，无论是文本生图（Text-to-Image）还是综合图像编辑（Image Editing），它的各项指标基本都盖过了市面上主流的几家头部模型。

来自主题: AI资讯

9110 点击 2026-04-02 10:42

对话 DigClaw：每天消耗数十亿 Token，他们如何从弱信号中挖掘商机？

DigClaw 创始团队意识到，快速变革的AI时代下，利用大模型捕捉并处理这些商业“弱信号”成为可能，而这将彻底重构 B2B 获客的基础设施。2025 年，DigClaw 正式起航，试图用 AI 重构信息基础设施，用商业“弱信号”识别“你在什么阶段、什么业务、什么场景之下需要什么产品”，并转化为 B2B 企业可落地的商业阿尔法。

来自主题: AI资讯

8244 点击 2026-04-01 18:54

对标英伟达EgoScale数据路径，清华系孵化星忆科技拿到首轮融资

具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架，在Ego-centric人类操作视频上训练VLA模型，用 20,854小时带动作标注的第一人称人类视频，观察到数据规模和验证损失之间接近对数线性的scaling law。1X收集人类第一视角及家庭行为数据，通过 Sunday项目采集百万小时级家庭场景视频。

来自主题: AI资讯

7487 点击 2026-03-31 15:03

1毫秒级，最快的人体动作捕捉服！开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap，通过闪烁LED与事件相机结合，实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境，低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose，显著提升运动分析精度，推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报

6807 点击 2026-03-31 14:40

2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源

什么在限制空间智能落地？

来自主题: AI技术研报

6874 点击 2026-03-31 14:39

300万对样本、200万对实拍：深度估计的数据荒，终于被打破

做深度估计、深度补全的人，大概都有过这样一个瞬间。

来自主题: AI技术研报

8286 点击 2026-03-31 14:04

首发｜让“龙虾”保密，00后博士休学创业又融资了

“上牌桌，等风来。”

来自主题: AI资讯

9536 点击 2026-03-31 10:30

中国巨头的AI商业图谱

大模型的狂热已然退潮。当我们将目光从参数榜单转向真实的活跃数据，四家头部大厂的底层商业图谱已极度收敛。AI的竞争，早已变成一场基于算力成本与高频场景的残酷算账。

来自主题: AI技术研报

8221 点击 2026-03-31 09:49

ICRA 2026 | NUS邵林团队提出Goal-VLA：生成式大模型化身「世界模型」，实现零样本机器人操作

在具身智能领域，机器人操作的泛化能力一直是一个核心挑战。当前，视觉 - 语言 - 动作（VLA）模型主要分为两大范式：端到端模型与分层模型。端到端 VLA 模型（如 RT-2 [1], OpenVLA [2]）严重依赖海量的 “指令 - 视觉 - 动作” 成对数据，获取成本极高，导致其在面对新任务或新场景时零样本泛化能力受限。

来自主题: AI技术研报

6377 点击 2026-03-30 15:00