摘要
本发明提出一种复杂场景下通过ConvGRU迭代优化物体6D位姿的方法。在遮挡严重、纹理信息不足的复杂场景中,通过工业相机采集物体的图像信息,并使用PyTorch3D生成对应的渲染图像。以观测图像与多个姿态下的渲染图像作为输入,利用权值共享的Resnet网络和双向RNN网络构建跨视角的几何一致性图像特征。随后,通过相关性体积编码图像间的相关性特征,并与语义特征一同输入ConvGRU进行迭代更新。网络输出的置信度权重用于动态抑制低质量区域的干扰,输出的对应场修正量通过可微分的Perspective‑n‑Point(PnP)模块构建重投影误差,并在李群空间内引入高斯—牛顿法进行非线性最小二乘求解,通过在其对应的李代数空间中计算位姿增量,完成姿态的迭代更新。