摘要
本发明涉及一种基于机器学习的企业级数据表关系还原方法,包括如下步骤:选取企业级元数据库;将元数据库中所有元数据表的值以列为单位进行哈希计算,并将结果按序排列;从每列中选取对应值,构成主键样本集合与外键样本集合,并对集合中所有样本进行标记;按要求计算每一个外键样本与每一个主键样本之间的包含依赖关系,将达到依赖阈值的(C,P)对组成训练集;并用科学算法对该训练集进行相关特征的计算和提取,得到元数据库的11个数据特征;再利用11个关键数据特征对二分类模型进行训练,最终得到训练好的数据表关系还原模型。本发明方法是根据数据对之间的隐含关系,完整有效的还原数据库中关联关系,大大提高了现有数据还原的效率和准确性。