AI TNT— 让一部分先用AI实现商业化

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据（WIT400M），而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究，但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

来自主题: AI技术研报

9906 点击 2024-05-02 17:54

姚前：行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。

来自主题: AI技术研报

3610 点击 2024-04-28 11:12

姚前：行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。

来自主题: AI技术研报

7502 点击 2024-04-26 16:56

小洞不补，大洞吃苦：西交、麦马开源全新「拖动式编辑」框架&数据集

拖动式图像编辑是一种新型的、用户交互式的图像编辑方法。

来自主题: AI技术研报

7627 点击 2024-04-22 17:23

号称超越 GPT-4 的大模型们，有多少靠的是“抄袭”

大家相互薅羊毛，要用，但要小心用，一不小心就尴尬了。一位国产大模型算法工程师在接受「甲子光年」采访时的吐槽，可以说是非常到位了。它准确地阐述 AI 业内一个所有人「心照不宣」的公开秘密。

来自主题: AI资讯

9001 点击 2024-04-22 10:49

「个性化」图像生成时代来了！六大顶尖高校联手发布全新Gen4Gen框架

过去几年里，基于文本来生成图像的扩散模型得到了飞速发展，生成能力有了显著的提升，可以很容易地生成逼真的肖像画，以及各种天马行空的奇幻画作。

来自主题: AI技术研报

5188 点击 2024-04-21 23:20

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的自拍照或者隐私聊天，该怎么办？

来自主题: AI技术研报

6380 点击 2024-04-07 17:48

ICLR 2024 | 联邦学习后门攻击的模型关键层

联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程，参与者可以篡改本地训练模型，从而对联邦学习的全局模型构成安全序隐患，如后门攻击。

来自主题: AI技术研报

3280 点击 2024-04-06 15:16

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶的人工智能的时候，无非是希望赋予机器这种与生俱来的天赋。

来自主题: AI技术研报

3396 点击 2024-04-05 15:37

山东工艺美术学院入选“北数所”首批100个AI大模型高质量训练数据集

3月29日，以“数据驱动，智绘未来”为主题的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上，北京国际大数据交易所（以下简称“北数所”）牵头正式发布首批100个人工智能大模型高质量训练数据集，经联盟牵头推荐，中关村数字媒体产业联盟成员单位新华网、山东工艺美术学院、中国搜索、中文在线、北京服装学院、硅星人等院校、企业的高质量数据集入选。

来自主题: AI资讯

7832 点击 2024-04-05 11:17