AI资讯新闻榜单内容搜索-训练

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。

来自主题: AI技术研报

9889 点击 2024-03-07 13:53

Midjourney封禁Stability AI：恶意爬取数据，致服务器瘫痪24小时

虽然 AI 生图领域，看似百花齐放，但论资排辈，Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手，Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。

来自主题: AI资讯

5644 点击 2024-03-07 13:42

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中，图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测，而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征，

来自主题: AI技术研报

11571 点击 2024-03-05 14:36

DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。

来自主题: AI资讯

7763 点击 2024-03-04 15:15

阿里上线“绘蛙”，大厂开卷AI电商，风口还是噱头？

据悉，“绘蛙”将为淘宝、天猫商家和达人在生成营销文案、训练专属AI模特等方面提升创作效率，使商品快速被种草。这是阿里在AI电商上的一次实质化的布局。

来自主题: AI资讯

8261 点击 2024-03-04 09:54

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

去年 12 月，新架构 Mamba 引爆了 AI 圈，向屹立不倒的 Transformer 发起了挑战。如今，谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。

来自主题: AI技术研报

6926 点击 2024-03-03 18:10

清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！

近期，清华大学和哈尔滨工业大学联合发布了一篇论文：把大模型压缩到 1.0073 个比特时，仍然能使其保持约 83% 的性能！

来自主题: AI技术研报

9452 点击 2024-03-03 18:06

大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

随着 Sora 的爆火，人们看到了 AI 视频生成的巨大潜力，对这一领域的关注度也越来越高。

来自主题: AI技术研报

10221 点击 2024-03-03 17:58

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

来自主题: AI技术研报

12291 点击 2024-03-02 14:58

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

有人表示：「等待已久的 AI 图像创建功能终于迎来了图层！」

来自主题: AI技术研报

6072 点击 2024-03-02 14:54