# 热门搜索 #
搜索
搜索: 数据集
星环科技孙元浩:语料已经是大模型最大的挑战

「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。

来自主题: AI资讯
8050 点击    2024-06-16 18:09
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。

来自主题: AI技术研报
8951 点击    2024-06-15 16:20
首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报
8061 点击    2024-06-06 15:48
Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。

来自主题: AI技术研报
8053 点击    2024-06-04 17:45
不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。

来自主题: AI技术研报
5873 点击    2024-06-03 17:55
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一,但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今,合成数据集正成为一种新兴的,用于替代现实世界数据的方法,但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频,而这并不适用于人群的视频识别任务。

来自主题: AI技术研报
8061 点击    2024-06-01 19:06