AI资讯新闻榜单内容搜索-模型训练

突破瓶颈！北航ETH等首次将扩散模型完全量化至1bit，28倍存储节省+52.7倍效率提升

将扩散模型量化到1比特极限，又有新SOTA了！来自北航、ETH等机构的研究人员提出了一种名为BiDM的新方法，首次将扩散模型（DMs）的权重和激活完全二值化。

来自主题: AI技术研报

8555 点击 2025-01-12 10:42

在多模态大语言模型（MLLMs）的发展中，视觉 - 语言连接器作为将视觉特征映射到 LLM 语言空间的关键组件，起到了桥梁作用。

来自主题: AI技术研报

7864 点击 2025-01-12 10:22

LLM会把编程淘汰吗？近日，哥本哈根大学的计算机教授，通过分析计算理论中的定理所施加的基本限制，得出结论：距离编程的终结还远得很。

来自主题: AI资讯

6328 点击 2025-01-12 10:17

Meta-CoT 通过显式建模生成特定思维链（CoT）所需的底层推理过程，扩展了传统的思维链方法。

来自主题: AI资讯

7292 点击 2025-01-12 10:08

大模型长序列的处理能力已越来越重要，像复杂长文本任务、多帧视频理解任务、以及 OpenAI 近期发布的 o1、o3 系列模型的高计算量模式，需要处理的输入 + 输出总 token 数从几万量级上升到了几百万量级。

来自主题: AI技术研报

9074 点击 2025-01-11 13:45

芯片强者AMD最新推出科研AI，o1-preview竟成天选打工人？！注意看，只需将科研idea和相关笔记一股脑丢给AI，研究报告甚至是代码就能立马出炉了。

来自主题: AI技术研报

9107 点击 2025-01-10 16:25

大连理工大学的研究人员提出了一种基于Wasserstein距离的知识蒸馏方法，克服了传统KL散度在Logit和Feature知识迁移中的局限性，在图像分类和目标检测任务上表现更好。

来自主题: AI技术研报

6558 点击 2025-01-10 16:00

小模型也能击败o1？微软全华人团队提出rStar-Math算法，三大革命性技术突破，不仅让SLM在数学推理能力上刷新SOTA，更是挤进了全美20%顶尖高中生榜单。

来自主题: AI技术研报

4271 点击 2025-01-10 15:51

最新综述论文探讨了知识蒸馏在持续学习中的应用，重点研究如何通过模仿旧模型的输出来减缓灾难性遗忘问题。通过在多个数据集上的实验，验证了知识蒸馏在巩固记忆方面的有效性，并指出结合数据回放和使用separated softmax损失函数可进一步提升其效果。

来自主题: AI技术研报

5600 点击 2025-01-10 13:01

最近，我们团队的一位工程师在研究类 ColPali 模型时，受到启发，用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。

来自主题: AI资讯

10744 点击 2025-01-10 10:48