AI资讯新闻榜单内容搜索-模型权重

最强32B中文推理大模型易主：Skywork-OR1 开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

千亿参数内最强推理大模型，刚刚易主了。32B——DeepSeek-R1的1/20参数量；免费商用；且全面开源——模型权重、训练数据集和完整训练代码，都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——

来自主题: AI资讯

11482 点击 2025-04-13 23:34

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

10320 点击 2025-03-17 14:36

你是否想过在自己的设备上运行自己的大型语言模型（LLMs）或视觉语言模型（VLMs）？你可能有过这样的想法，但是一想到要从头开始设置、管理环境、下载正确的模型权重，以及你的设备是否能处理这些模型的不确定性，你可能就犹豫了。

来自主题: AI技术研报

10036 点击 2024-12-30 16:53

要让大模型适应各不一样的下游任务，微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据（这会威胁到数据所有者的数据隐私），要么模型所有者需要共享模型权重（这又可能泄露自己花费大量资源训练的模型）。

来自主题: AI技术研报

7877 点击 2024-12-19 10:15

Ai2和华盛顿大学联合Meta、CMU、斯坦福等机构发布了最新的OpenScholar系统，使用检索增强的方法帮助科学家进行文献搜索和文献综述工作，而且做到了数据、代码、模型权重的全方位开源。

来自主题: AI技术研报

7063 点击 2024-11-26 14:05

西风

来自主题: AI技术研报

5894 点击 2024-11-05 20:40

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

来自主题: AI技术研报

4449 点击 2024-11-05 15:28

一家刚成立6个月的初创公司Chai Discovery最近发布了能对打甚至超越AlphaFold 3的模型Chai-1，而且放出了模型权重和推理代码。不开源的DeepMind这回还能坐得住吗？

来自主题: AI技术研报

10570 点击 2024-09-16 21:12

近日，LeCun和谢赛宁等大佬，共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型，同时全面开源了模型权重、代码、数据集，以及详细的指令微调和评估方法。

来自主题: AI资讯

5177 点击 2024-06-27 16:22

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7478 点击 2024-05-12 15:49