英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++GPU编程变天了。
来自主题: AI资讯
6123 点击 2025-12-08 15:16
GPU编程变天了。
CUDA 迎来 “Python元年”!
斯坦福和普林斯顿研究者发现,DeepSeek-R1生成的自定义CUDA内核,完爆了o1和Claude 3.5 Sonnet,拿下总排名第一。虽然目前只能在不到20%任务上超越PyTorch Eager基线,但GPU编程加速自动化的按钮,已经被按下!
近日,来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage,用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内核,并取得更佳的性能。