
AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量
AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align & Sort逻辑被精心设计,实现了显著的性能提升:A100提升3倍,H200提升3倍,MI100提升10倍,MI300X/MI300A提升7倍...
通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align & Sort逻辑被精心设计,实现了显著的性能提升:A100提升3倍,H200提升3倍,MI100提升10倍,MI300X/MI300A提升7倍...
DeepSeek-R1掀起新一轮购卡潮的同时,AMD的含金量也上升了。
干掉英特尔之后,苏妈又向英伟达发起猛攻!最新发布的48G两款GPU基准测试,AI性能相较4090飙升7.3倍。看来AMD这次是铁了心,要跟英伟达掰手腕了。
国内芯片设计研究团队,刚刚在国际学术顶会上获奖了。
美国史上首个全球AI出口管制,正式出台!刚刚,拜登在下台之际,全面发布芯片禁令,全球三级管控区域AI芯片全面禁运,二级管控区域最高可得5万块GPU。
交接之际,拜登政府放出最后一搏:英伟达AMD等AI芯片出口,限制升级!新规规定,全球国家将被分为三级,第三级管控的国家和地区,AI芯片的进口将遭到几乎全面的禁止。
芯片强者AMD最新推出科研AI,o1-preview竟成天选打工人?! 注意看,只需将科研idea和相关笔记一股脑丢给AI,研究报告甚至是代码就能立马出炉了。
发表于昨天的论文《Agent Laboratory: Using LLM Agents as Research Assistants》对于科研界具有划时代意义,过去几周才能完成的科研任务现在仅需20分钟到一两个小时左右(不同LLM),花费2-13个美金的Token即可完成!
已经领先的 AMD,还在扩大优势。
马斯克的 xAI 今天宣布正式完成了 60 亿美金的 C 轮融资,参与的投资人包括了 a16z、Blackrock、Fidelity、Kingdom Holdings、Lightspeed、MGX、Morgan Stanley、OIA、QIA、Sequoia Capital、Valor Equity Partners、Vy Capital、Nvidia、AMD 以及其它。