AI资讯新闻榜单内容搜索-训练

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

刚刚，芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息，「我们发布了世界上最快的芯片，该芯片拥有高达 4 万亿个晶体管。」

来自主题: AI资讯

7473 点击 2024-03-14 16:11

刚刚，Meta 宣布推出两个 24k GPU 集群（共 49152 个 H100），标志着 Meta 为人工智能的未来做出了一笔重大的投资。

来自主题: AI资讯

10610 点击 2024-03-13 14:42

大模型对齐新方法，让数学推理能力直接提升9%。

来自主题: AI技术研报

7018 点击 2024-03-13 11:10

基于大模型的Agent，已经成为了大型的博弈游戏的高级玩家，而且玩的还是德州扑克、21点这种非完美信息博弈。

来自主题: AI技术研报

4260 点击 2024-03-12 18:13

微软亚研院等发布bGPT，仍旧基于Transformer，但是模型预测的是下一个字节（byte）。

来自主题: AI技术研报

9166 点击 2024-03-11 18:04

华人科学家程博文官宣即将入职OpenAI，加入后训练团队参与多模态模型研究。值得一提的是，他还是著名华人计算机泰斗Thomas Huang的学生。

来自主题: AI技术研报

5730 点击 2024-03-11 17:44

GraphEdit方法可以有效地去除图网络中的噪声连接，还能从全局视角识别节点间的依赖关系，在不同的实验设置中都被验证为有效且稳健。

来自主题: AI技术研报

8309 点击 2024-03-11 17:34

挖掘大模型固有的长文本理解能力，InfLLM在没有引入额外训练的情况下，利用一个外部记忆模块存储超长上下文信息，实现了上下文长度的扩展。

来自主题: AI技术研报

6228 点击 2024-03-11 17:31

近年来，大语言模型（LLMs）由于其通用的问题处理能力而引起了大量的关注。现有研究表明，适当的提示设计（prompt enginerring），例如思维链（Chain-of-Thoughts），可以解锁 LLM 在不同领域的强大能力。

来自主题: AI资讯

6679 点击 2024-03-11 17:28

近期，来自华为诺亚方舟实验室的研究者提出了 DenseSSM，用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中，DenseSSM 保留了对最终输出至关重要的精细信息。

来自主题: AI技术研报

10489 点击 2024-03-11 17:22