AI资讯新闻榜单内容搜索-数据集

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数据集
240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗?

来自主题: AI技术研报
8589 点击    2024-06-24 15:25
给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

SAX-NeRF框架,一种专为稀疏视角下X光三维重建设计的新型NeRF方法,通过Lineformer Transformer和MLG采样策略显著提升了新视角合成和CT重建的性能。研究者还建立了X3D数据集,并开源了代码和预训练模型,为X光三维重建领域的研究提供了宝贵的资源和工具。

来自主题: AI技术研报
8660 点击    2024-06-20 10:27
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调。

来自主题: AI技术研报
9249 点击    2024-06-19 23:13
ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

在现实世界的机器学习应用中,随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化(EDG),目标是通过学习跨领域的潜在演变模式,并利用这些模式,使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而,由于 EDG 数据集中时间戳的数量有限,现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战,这限制了它们对新任务的泛化和适应性。

来自主题: AI技术研报
9303 点击    2024-06-19 23:11
星环科技孙元浩:语料已经是大模型最大的挑战

星环科技孙元浩:语料已经是大模型最大的挑战

星环科技孙元浩:语料已经是大模型最大的挑战

「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。

来自主题: AI资讯
8623 点击    2024-06-16 18:09
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。

来自主题: AI技术研报
9546 点击    2024-06-15 16:20
英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!

来自主题: AI技术研报
4290 点击    2024-06-15 15:58