AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能            机器之心     2025年05月02日 12:39 北京

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能 机器之心 2025年05月02日 12:39 北京

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能 机器之心 2025年05月02日 12:39 北京

LoRA 中到底存在多少参数冗余?这篇创新研究介绍了 LoRI 技术,它证明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。

来自主题: AI技术研报
7203 点击    2025-05-02 15:23
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源

Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。

来自主题: AI技术研报
6859 点击    2025-05-02 14:17
400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能

400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能

400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能

来自英伟达和UIUC的华人团队提出一种高效训练方法,将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录!基于Llama3.1-Instruct打造的UltraLong-8B模型,不仅在长上下文基准测试中表现卓越,还在标准任务中保持顶尖竞争力。

来自主题: AI技术研报
6784 点击    2025-05-01 13:54
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

就在刚刚,DeepSeek-Prover-V2技术报告也来了!34页论文揭秘了模型的训练核心——递归+强化学习,让数学推理大提升。有人盛赞:DeepSeek已找到通往AGI的正确路径!

来自主题: AI资讯
7895 点击    2025-05-01 10:49
深度|AI独角兽华裔创始人:算法的一切认知都来自数据;AI可稍微自我改进,但主要进步仍来自于人

深度|AI独角兽华裔创始人:算法的一切认知都来自数据;AI可稍微自我改进,但主要进步仍来自于人

深度|AI独角兽华裔创始人:算法的一切认知都来自数据;AI可稍微自我改进,但主要进步仍来自于人

这就是为什么数据被称作"新石油"或"新黄金"——它极其珍贵,因为算法的一切认知都来源于输入的数据。

来自主题: AI资讯
7046 点击    2025-04-30 18:06
新·摩尔定律诞生:AI智能体能力每4个月翻一番!智能爆炸在即

新·摩尔定律诞生:AI智能体能力每4个月翻一番!智能爆炸在即

新·摩尔定律诞生:AI智能体能力每4个月翻一番!智能爆炸在即

AI编程智能体的能力正在飞速增长,最新研究揭示了这一「新摩尔定律」,如果AI智能体的任务时长继续以每4个月翻倍的速度增长,到2027年它们可能完成长达167小时的月级任务!

来自主题: AI资讯
6283 点击    2025-04-30 17:03
小米推出首个开源推理大模型 Mimo

小米推出首个开源推理大模型 Mimo

小米推出首个开源推理大模型 Mimo

今天上午,小米发布了其首个开源推理大模型-Xiaomi MiMo。通过 25 T 预训练 + MTP 加速 + 规则化 RL + Seamless Rollout,让 7 B 参数的 MiMo-7B 在数理推理和代码生成上赶超 30 B-32 B 大模型,并完整 MIT 开源全系列与工程链,给端-云一体 AI 落地提供了“以小博大”的新范例。

来自主题: AI资讯
8145 点击    2025-04-30 15:47