AI TNT— 让一部分先用AI实现商业化

星环科技孙元浩：语料已经是大模型最大的挑战

「原来以为语料已经匮乏了，大模型训练已经没有语料了，实际上不是的，数据还远远没有跑光」。

来自主题: AI资讯

8050 点击 2024-06-16 18:09

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。

来自主题: AI技术研报

8951 点击 2024-06-15 16:20

FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

从大规模网络爬取、精细过滤到去重技术，通过FineWeb的技术报告探索如何打造高质量数据集，为大型语言模型（LLM）预训练提供更优质的性能。

来自主题: AI资讯

8062 点击 2024-06-09 18:06

5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

使用大模型合成的数据，就能显著提升3D生成能力？

来自主题: AI资讯

8059 点击 2024-06-09 17:19

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

CRATE-α是一种新型Transformer架构变体，通过设计改进提升了模型的可扩展性、性能和可解释性，CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报

8061 点击 2024-06-06 15:48

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

8053 点击 2024-06-04 17:45

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。

来自主题: AI技术研报

5873 点击 2024-06-03 17:55

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

来自主题: AI技术研报

8061 点击 2024-06-01 19:06

3D资产生成领域福音：自动化所、北邮团队联合打造材质生成新范式

在当今数字化时代，3D 资产在元宇宙的建构、数字孪生的实现以及虚拟现实和增强现实的应用中扮演着重要角色，促进了技术创新和用户体验的提升。

来自主题: AI资讯

7870 点击 2024-05-30 20:27

北京智源人工智能研究院林咏华：大模型背后的数据与算力挑战 | 新质生产力·AI Partner大会

中国AI资源要靠储备，更要靠开放的生态。

来自主题: AI资讯

5782 点击 2024-05-28 10:04