AI资讯新闻榜单内容搜索-2

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 2
阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!

来自主题: AI技术研报
4837 点击    2025-03-07 10:28
DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek的MLA,任意大模型都能轻松迁移了

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。

来自主题: AI技术研报
4830 点击    2025-03-07 10:24
360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B

来自主题: AI技术研报
4831 点击    2025-03-06 11:13
在欧洲,没人提 DeepSeek

在欧洲,没人提 DeepSeek

在欧洲,没人提 DeepSeek

「某某公司租的机器狗,都累没电趴窝了。」

来自主题: AI资讯
7028 点击    2025-03-05 14:36
NP难问题接近被AI破解!南航牛津爆改DeepSeek-R1推理,碾压人类27年研究

NP难问题接近被AI破解!南航牛津爆改DeepSeek-R1推理,碾压人类27年研究

NP难问题接近被AI破解!南航牛津爆改DeepSeek-R1推理,碾压人类27年研究

给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。

来自主题: AI技术研报
8125 点击    2025-03-04 16:20
AI学术算命?Gemini 2.0预测谷歌AI大佬职业生涯,准到离谱!

AI学术算命?Gemini 2.0预测谷歌AI大佬职业生涯,准到离谱!

AI学术算命?Gemini 2.0预测谷歌AI大佬职业生涯,准到离谱!

谷歌Gemini 2.0不仅能深度剖析学术论文,还能预测职业轨迹?Jeff Dean和Yi Tay等AI大佬亲测,其精准的论文评价和职业规划预测令人惊叹。Gemini究竟是巧合还是AI进化的又一力证?它将如何改变学术研究的未来?

来自主题: AI资讯
9246 点击    2025-03-03 16:41
英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

最近,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。

来自主题: AI技术研报
9237 点击    2025-02-27 16:33