
英伟达5900亿闪崩与反弹:DeepSeek如何引发 AI 算力误判?
英伟达5900亿闪崩与反弹:DeepSeek如何引发 AI 算力误判?英伟达凭借CUDA生态和硬件优势,稳固AI市场地位。
英伟达凭借CUDA生态和硬件优势,稳固AI市场地位。
Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」!它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
硬件媒体Tom‘s Hardware带来开年最新热议:DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
近日,来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage,用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内核,并取得更佳的性能。
32GB GDDR7内存,CUDA核心数21760个——
短短几天内,AMD连续宣布两项颠覆性的转变
用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。
纯国产GPU的万卡集群,它来了! 而且还是国内首个全功能GPU,兼容CUDA的那种。
近日,美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历,引发了网友们的一大片点赞。令人惊讶的是,他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中,Majmudar 进行了直播,一步步带我们回顾了整个过程。
CUDA 是英伟达的壁垒, 推理场景是算力未来的重点