AI资讯新闻榜单内容搜索-transforme

Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强

Nemotron-H模型混合了Transformer和Mamba架构，使长文本推理速度提升3倍，同时还能保持高性能，开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术，进一步提高了20%推理速度

来自主题: AI产品测评

8812 点击 2025-04-20 20:47

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功，但在图像生成领域，扩散模型凭借强大的生成质量和可控性占据了主导地位。

来自主题: AI技术研报

8745 点击 2025-04-19 15:01

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

4 月 14 日，谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲，主题为「AI 的重要趋势：我们是如何走到今天的，我们现在能做什么，以及我们如何塑造 AI 的未来？」

来自主题: AI技术研报

8358 点击 2025-04-18 14:40

MiniMax押注线性注意力，让百万级长文本只用1/2700算力｜对话MiniMax-01架构负责人钟怡然

Transformer架构主导着生成式AI浪潮的当下，但它并非十全十美，也并非没有改写者。

来自主题: AI技术研报

8804 点击 2025-04-17 15:29

OpenAI姚顺雨：欢迎来到AI下半场！

要理解上半场，看看它的赢家。你认为到目前为止最有影响力的 AI 论文是哪些？我尝试了斯坦福大学 224N 课程的测验，答案并不令人惊讶：Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点？它们提出了一些训练更好模型的基本突破。但同样，它们通过在一些基准测试上展示一些（显著的）改进来发表论文。

来自主题: AI技术研报

10328 点击 2025-04-16 09:24

深度｜对话Cerebras CEO：3-5年后我们对Transformer依赖程度将降低，英伟达市占率将降至50-60%

芯片架构设计的首要原则是明确取舍，决定哪些领域我们不追求卓越。

来自主题: AI资讯

7415 点击 2025-04-07 14:35

Cartesia: 3 个月融资 9100 万美元，从 Transformer 到 Mamba 重塑语音 AI

2025 年 3 月 11 日，语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资，距其 2700 万美元种子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投，Lightspeed、Index、A*、Greycroft、Dell Technologies Capital 和 Samsung Ventures 等跟投。

来自主题: AI资讯

7410 点击 2025-04-06 17:38