AI资讯新闻榜单内容搜索-训练数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练数据
Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。

来自主题: AI技术研报
8663 点击    2024-06-04 17:45
芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染

芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染

芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染

GPT-4在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有AI大牛指出研究中的bug:之所以会这样,很可能是训练数据被污染了。

来自主题: AI资讯
7025 点击    2024-05-27 15:32
估值飙至138亿美元!27岁华裔天才少年再获融资,数据标注会是下一个风口?

估值飙至138亿美元!27岁华裔天才少年再获融资,数据标注会是下一个风口?

估值飙至138亿美元!27岁华裔天才少年再获融资,数据标注会是下一个风口?

Alexandr Wang创办的Scale AI是一个为AI模型提供训练数据的数据标注平台,近期完成新一轮10亿美元融资,估值飙升至138亿美元。该公司表示将利用新资金生产丰富的前沿数据,为通向AGI铺平道路。

来自主题: AI资讯
9721 点击    2024-05-26 12:05
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024

近年来,「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用,通过大规模训练得到的视觉基础网络(如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等)已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报
8518 点击    2024-05-22 13:33
开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键,但现状是,开源的大模型有一堆,可开源的大规模数据却没多少,而收集、清洗数据又是一项极其费时费力的工作,也导致了大模型预训练技术仍然掌握在少数高端机构的手中。

来自主题: AI技术研报
5127 点击    2024-05-05 19:51
最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

最强开源大模型Llama 3来了,4000亿参数狙击GPT-4,训练数据达Llama 2七倍

智东西4月19日消息,Meta推出迄今为止能力最强的开源大模型Llama 3系列,发布8B和70B两个版本。 Llama 3在一众榜单中取得开源SOTA(当前最优效果)。Llama 3 8B在MMLU、GPQA、HumanEval、GSM-8K等多项基准上超过谷歌Gemma 7B和Mistral 7B Instruct。

来自主题: AI技术研报
7414 点击    2024-04-20 12:10
用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM

多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而,当前的方法受到性能问题和收集训练数据集的困难的限制

来自主题: AI技术研报
6094 点击    2024-04-17 18:16
模型被投毒攻击,如今有了新的安全手段,还被AI顶刊接收

模型被投毒攻击,如今有了新的安全手段,还被AI顶刊接收

模型被投毒攻击,如今有了新的安全手段,还被AI顶刊接收

现今,机器学习(ML),更具体地说,深度学习已经改变了从金融到医疗等广泛的行业。在当前的 ML 范式中,训练数据首先被收集和策划,然后通过最小化训练数据上的某些损失标准来优化 ML 模型

来自主题: AI技术研报
5768 点击    2024-04-16 21:48
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的自拍照或者隐私聊天,该怎么办?

来自主题: AI技术研报
6950 点击    2024-04-07 17:48
山东工艺美术学院入选“北数所”首批100个AI大模型高质量训练数据集

山东工艺美术学院入选“北数所”首批100个AI大模型高质量训练数据集

山东工艺美术学院入选“北数所”首批100个AI大模型高质量训练数据集

3月29日,以“数据驱动,智绘未来”为主题的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上,北京国际大数据交易所(以下简称“北数所”)牵头正式发布首批100个人工智能大模型高质量训练数据集,经联盟牵头推荐,中关村数字媒体产业联盟成员单位新华网、山东工艺美术学院、中国搜索、中文在线、北京服装学院、硅星人等院校、企业的高质量数据集入选。

来自主题: AI资讯
8519 点击    2024-04-05 11:17