AI TNT— 让一部分先用AI实现商业化

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器（NAR）的强大算法推理能力相结合，可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报

9064 点击 2024-06-17 21:30

文章讲述了彩云科技团队在改进Transformer架构方面的努力，尤其是推出的全新通用模型架构DCFormer，以及团队面临的种种挑战和突破。

来自主题: AI资讯

4841 点击 2024-06-17 09:24

Transformer很强，Transformer很好，但Transformer在处理时序数据时存在一定的局限性。

来自主题: AI技术研报

8066 点击 2024-06-11 16:05

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。

来自主题: AI技术研报

8062 点击 2024-06-11 10:08

未来5年内会在AI技术架构上有大的突破，Transformer会被逐步重构。15-20年内实现通用人工智能（AGI），并通过“新图灵测试”。

来自主题: AI资讯

8797 点击 2024-06-08 16:22

奇绩创坛的路演日舞台上，第一次出现了模型产品首发

来自主题: AI资讯

8075 点击 2024-06-08 12:01

CRATE-α是一种新型Transformer架构变体，通过设计改进提升了模型的可扩展性、性能和可解释性，CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报

8064 点击 2024-06-06 15:48

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

来自主题: AI技术研报

8055 点击 2024-06-04 17:36

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

9561 点击 2024-06-04 16:13

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

6849 点击 2024-06-04 15:20