AI资讯新闻榜单内容搜索-7

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

6655 点击 2024-05-12 15:49

大模型回答如何更可靠？MIT研究团队设计出「共识博弈」，将数学家常用的博弈论引入LLM改进中。没想到，LLaMA-7B的表现，击败了LLaMA-65B，甚至与PaLM-540B相媲美。

来自主题: AI技术研报

8226 点击 2024-05-12 15:19

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

来自主题: AI技术研报

6086 点击 2024-05-12 12:51

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

6337 点击 2024-05-12 11:26

当地时间5月7日，ICLR 2024颁发了自大会举办以来的首个「时间检验奖」！

来自主题: AI技术研报

4727 点击 2024-05-11 13:13

有数据统计，2022年全年，全国数据中心耗电量达到2700亿千瓦时，占全社会用电量约3%。预计2024年全国数据中心的耗电量将在3400亿至3600亿度之间，到2025年可能增长至4000亿至4400亿度。

来自主题: AI技术研报

6507 点击 2024-05-11 11:11

近日，英国自动驾驶初创公司 Wayve 宣布已经在最新一轮融资中筹得了 10 亿美元，此次融资过后，Wayve 的融资总额已经高于 13 亿美元，成为英国人工智能初创公司有史以来最大的投资。

来自主题: AI资讯

7488 点击 2024-05-11 10:56

“镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊。”

来自主题: AI资讯

4988 点击 2024-05-10 17:33

在发布一周年之际，阿里云通义千问大模型在闭源和开源领域都交上了一份满意的答卷。国内的开发者们或许没有想到，有朝一日，他们开发的 AI 大模型会像出海的网文、短剧一样，让世界各地的网友坐等更新。甚至，来自韩国的网友已经开始反思：为什么我们就没有这样的模型？

来自主题: AI资讯

6507 点击 2024-05-10 10:05

Gartner估计，到2028年，75%的程序员将使用AI编程工具。

来自主题: AI技术研报

9251 点击 2024-05-09 19:38