AI资讯新闻榜单内容搜索-微调

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 微调
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

来自主题: AI技术研报
9166 点击    2025-04-08 14:18
Midjourney V7内测图首曝,电影级画质干翻GPT-4o!人物蜡像感消失,AI生图迎最强地震

Midjourney V7内测图首曝,电影级画质干翻GPT-4o!人物蜡像感消失,AI生图迎最强地震

Midjourney V7内测图首曝,电影级画质干翻GPT-4o!人物蜡像感消失,AI生图迎最强地震

这周,Midjourney即将带着全新V7强势归来。内部模型已训完,目前开启了评分系统,进入最后微调阶段。网友已放出生图,效果惊艳,画质细腻度拉满。

来自主题: AI资讯
10208 点击    2025-03-31 17:39
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。

来自主题: AI技术研报
7170 点击    2025-03-30 14:33
喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

作为一家公司,我们专注于三件事:预训练、微调和对齐。我们使用自有数据集进行预训练,这一点非常关键,而很多公司并不具备这样的能力。然后,我们用专家手工整理的数据进行微调。最有趣、最重要的部分在于对齐,这与简单地寻找“当前最优解”是截然不同的。

来自主题: AI资讯
4922 点击    2025-03-27 14:14
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6646 点击    2025-03-13 14:41
砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

砍掉99%采样成本!腾讯AI Lab提出大模型无监督训练新技术

只要微调模型生成的前8-32个词,就能让大模型推理能力达到和传统监督训练一样的水平?

来自主题: AI技术研报
6690 点击    2025-03-12 13:41
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了:短短两周后,再次优化DeepSeek-R1同款GRPO训练算法,上下文变长10倍,而显存只需原来的1/10!

来自主题: AI技术研报
3887 点击    2025-03-11 10:42