AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
阿里上线“绘蛙”,大厂开卷AI电商,风口还是噱头?

阿里上线“绘蛙”,大厂开卷AI电商,风口还是噱头?

阿里上线“绘蛙”,大厂开卷AI电商,风口还是噱头?

据悉,“绘蛙”将为淘宝、天猫商家和达人在生成营销文案、训练专属AI模特等方面提升创作效率,使商品快速被种草。这是阿里在AI电商上的一次实质化的布局。

来自主题: AI资讯
8109 点击    2024-03-04 09:54
RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报
6736 点击    2024-03-03 18:10
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

来自主题: AI技术研报
12068 点击    2024-03-02 14:58
60行代码,从头开始构建GPT!最全实践指南来了

60行代码,从头开始构建GPT!最全实践指南来了

60行代码,从头开始构建GPT!最全实践指南来了

GPT早已成为大模型时代的基础。国外一位开发者发布了一篇实践指南,仅用60行代码构建GPT。

来自主题: AI技术研报
9574 点击    2024-03-01 17:44
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 2023录用。同时,该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。

来自主题: AI技术研报
8555 点击    2024-02-29 13:52
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。

来自主题: AI技术研报
8348 点击    2024-02-29 13:35