摘要
一种基于人类反馈强化学习的三维建筑网格生成方法,包括以下步骤:构建含三维建筑模型、对应文本描述及结构可行性、美学质量、整体布局评分的多维度数据集,提供领域适配训练基础;将3D建筑网格转为文本形式顶点与面序列并量化,适配大型语言模型输入;基于数据集训练多维度偏好评分奖励模型,评估建筑专业维度质量;监督微调预训练大型语言模型,使其能按文本提示生成符合建筑要求的网格文本;基于奖励模型,通过近端策略优化算法开展RLHF,优化模型输出以对齐建筑师偏好与领域知识。该方法突破传统技术统计指标优但实用价值低的局限,使生成的3D建筑网格与建筑师偏好及领域知识深度对齐,保障生成网格的专业适配性与实用价值。