AI资讯新闻榜单内容搜索-训练数据

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

10182 点击 2024-06-04 17:45

芝大论文证明GPT-4选股准确率高达60%，人类股票分析师要下岗？AI大牛质疑数据污染

GPT-4在为人类选股时，表现竟然超越了大部分人类分析师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功分析了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有AI大牛指出研究中的bug：之所以会这样，很可能是训练数据被污染了。

来自主题: AI资讯

8628 点击 2024-05-27 15:32

估值飙至138亿美元！27岁华裔天才少年再获融资，数据标注会是下一个风口？

Alexandr Wang创办的Scale AI是一个为AI模型提供训练数据的数据标注平台，近期完成新一轮10亿美元融资，估值飙升至138亿美元。该公司表示将利用新资金生产丰富的前沿数据，为通向AGI铺平道路。

来自主题: AI资讯

11420 点击 2024-05-26 12:05

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

10586 点击 2024-05-22 13:33

开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键，但现状是，开源的大模型有一堆，可开源的大规模数据却没多少，而收集、清洗数据又是一项极其费时费力的工作，也导致了大模型预训练技术仍然掌握在少数高端机构的手中。

来自主题: AI技术研报

6631 点击 2024-05-05 19:51

最强开源大模型Llama 3来了，4000亿参数狙击GPT-4，训练数据达Llama 2七倍

智东西4月19日消息，Meta推出迄今为止能力最强的开源大模型Llama 3系列，发布8B和70B两个版本。 Llama 3在一众榜单中取得开源SOTA（当前最优效果）。Llama 3 8B在MMLU、GPQA、HumanEval、GSM-8K等多项基准上超过谷歌Gemma 7B和Mistral 7B Instruct。

来自主题: AI技术研报

9260 点击 2024-04-20 12:10

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而，当前的方法受到性能问题和收集训练数据集的困难的限制

来自主题: AI技术研报

7934 点击 2024-04-17 18:16

模型被投毒攻击，如今有了新的安全手段，还被AI顶刊接收

现今，机器学习（ML），更具体地说，深度学习已经改变了从金融到医疗等广泛的行业。在当前的 ML 范式中，训练数据首先被收集和策划，然后通过最小化训练数据上的某些损失标准来优化 ML 模型

来自主题: AI技术研报

6513 点击 2024-04-16 21:48

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的自拍照或者隐私聊天，该怎么办？

来自主题: AI技术研报

7862 点击 2024-04-07 17:48

山东工艺美术学院入选“北数所”首批100个AI大模型高质量训练数据集

3月29日，以“数据驱动，智绘未来”为主题的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上，北京国际大数据交易所（以下简称“北数所”）牵头正式发布首批100个人工智能大模型高质量训练数据集，经联盟牵头推荐，中关村数字媒体产业联盟成员单位新华网、山东工艺美术学院、中国搜索、中文在线、北京服装学院、硅星人等院校、企业的高质量数据集入选。

来自主题: AI资讯

10663 点击 2024-04-05 11:17