AI资讯新闻榜单内容搜索-预训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 预训练
小模型性能饱和、表现不佳,根源是因为Softmax?

小模型性能饱和、表现不佳,根源是因为Softmax?

小模型性能饱和、表现不佳,根源是因为Softmax?

语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中,使用这样的模型进行训练和推断可能会成本高昂,这促使人们使用较小的替代模型。然而,已经观察到较小的模型可能会出现饱和现象,表现为在训练的某个高级阶段性能下降并趋于稳定。

来自主题: AI技术研报
10479 点击    2024-05-03 20:58
Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

来自主题: AI技术研报
10982 点击    2024-05-02 17:54
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH

大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再次引爆开源社区讨论。

来自主题: AI技术研报
7191 点击    2024-04-28 15:03
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。

来自主题: AI技术研报
5126 点击    2024-04-28 11:12
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。

来自主题: AI技术研报
8658 点击    2024-04-26 16:56
AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

在人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。

来自主题: AI技术研报
7439 点击    2024-04-25 17:22
低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法

低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法

低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法

EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘,产生鲁棒的特征,具有轻量级、即插即用等特点,能够无缝集成到现有的预训练深度网络中,训练成本低。

来自主题: AI资讯
9980 点击    2024-04-08 16:17
无需训练,这个新方法实现了生成图像尺寸、分辨率自由

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。

来自主题: AI技术研报
7007 点击    2024-04-08 15:41
行业大模型建设的若干思考

行业大模型建设的若干思考

行业大模型建设的若干思考

2022年底,OpenAI(美国人工智能研究公司)发布的大模型ChatGPT(对话生成式预训练大模型)引发了广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用 途、跨学科的任务处理能力。

来自主题: AI资讯
5594 点击    2024-03-27 17:58
Stability AI开源3B代码生成模型:可补全,还能Debug

Stability AI开源3B代码生成模型:可补全,还能Debug

Stability AI开源3B代码生成模型:可补全,还能Debug

Stable Diffusion 3 还没全面开放,这家公司的代码生成模型先来了。本周一,Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。

来自主题: AI技术研报
6264 点击    2024-03-27 11:15