多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键 多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键 关键词: 多模态,多模态大模型,GPT-4v,AI打扑克 只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策! 来自主题: AI技术研报 8613 点击 2024-06-04 17:23