AI资讯新闻榜单内容搜索-Llama

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大，特别是在长序列的场景中。

来自主题: AI技术研报

6739 点击 2024-04-03 17:29

Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案，可以将攻击成功率从 61% 降至 2%。

来自主题: AI技术研报

8507 点击 2024-04-03 17:16

大模型厂商在上下文长度上卷的不可开交之际，一项最新研究泼来了一盆冷水——Claude背后厂商Anthropic发现，随着窗口长度的不断增加，大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude 2，还是开源的Llama2和Mistral，都未能幸免。

来自主题: AI技术研报

9175 点击 2024-04-03 14:31

“最强”开源大模型之争，又有新王入局：

来自主题: AI技术研报

7382 点击 2024-03-29 11:33

【新智元导读】就在刚刚，全球最强开源大模型王座易主，创业公司Databricks发布的DBRX，超越了Llama 2、Mixtral和Grok-1。MoE又立大功！这个过程只用了2个月，1000万美元，和3100块H100。

来自主题: AI技术研报

9939 点击 2024-03-28 16:09

这是迄今为止最强大的开源大语言模型，超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。

来自主题: AI技术研报

11657 点击 2024-03-28 14:26

AI世界的进化快的有点跟不上了。刚刚，全球最强最大AI芯片WSE-3发布，4万亿晶体管5nm工艺制程。更厉害的是，WSE-3打造的单个超算可训出24万亿参数模型，相当于GPT-4/Gemini的十倍大。

来自主题: AI资讯

10910 点击 2024-03-15 12:34

LLM开源从Infra做起！Meta公布了自己训练Llama 3的H100集群细节，看来Llama 3快来了。

来自主题: AI技术研报

5392 点击 2024-03-15 12:25

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

来自主题: AI技术研报

9163 点击 2024-03-14 16:14

刚刚，Meta 宣布推出两个 24k GPU 集群（共 49152 个 H100），标志着 Meta 为人工智能的未来做出了一笔重大的投资。

来自主题: AI资讯

10525 点击 2024-03-13 14:42