
DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150+天才集结,开出千万年薪
DeepSeek突围奥秘曝光,一招MLA让全世界抄作业!150+天才集结,开出千万年薪外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
1月13日Mainframe公司发布了可以离线运行在苹果系统(Mac,iPad,iPhone)的本地大语言模型fullmoon: local intelligence
近日,在《金融时报》主编 Roula Khalaf 的最新采访中,谷歌 DeepMind 的 CEO、2024 年诺贝尔化学奖得主 Demis Hassabis 放出了一连串重磅消息
梁文锋带领着DeepSeek,还在继续搅动大模型行业。继用R1模型炸场之后,1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3(来自 OpenAI)和Stable Diffusion。
由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者
VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。
DeepSeek大爆出圈,现在连夜发布新模型——多模态Janus-Pro-7B,发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。
科技媒体 testingcatalog 今天(1 月 27 日)发布博文,报道称 xAI 官方虽然尚未公布,但 Grok-3 已短暂现身独立平台和 X 平台,开启内部测试,有望下周正式发布。
明天就是辞旧迎新的春节假期,咱来点不一样的——送上一份「年初展望」,站在2025年伊始,把AI科技领域不同领域的热点趋势,浅浅盘了一圈。从人型机器人、AI眼镜,从推理模型到AI Coding……分别从产品侧和技术侧,把今年最有料的8个大热门趋势一网打尽,干货过年。
2028年,预计高质量数据将要耗尽,数据Scaling走向尽头。2025年,测试时计算将开始成为主导AI通向通用人工智能(AGI)的新一代Scaling Law。近日,CMU机器学习系博客发表新的技术文章,从元强化学习(meta RL)角度,详细解释了如何优化LLM测试时计算。