一种通用的非结构化数据索引构建方法、装置及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种通用的非结构化数据索引构建方法、装置及介质
申请号:CN202511161206
申请日期:2025-08-19
公开号:CN120653807B
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种通用的非结构化数据索引构建方法、装置及介质,适用于图片、视频、文本等多模态数据。该方法包括:针对不同模态数据分别采用适配的深度学习模型进行特征提取;基于自动锚点选择与超平面划分的递归聚类方法,实现多层次聚类簇结构的构建;利用大语言模型为每个聚类簇自动生成语义摘要;通过类别、聚类簇、摘要等信息高效组织索引结构,支持多维度检索;在查询处理时,利用聚类簇内部极少量已有标注,低成本训练判别模型,实现高效的聚类簇筛选与多类别组合查询,无需用户指定正负样本。该方法具备高度自动化、低标注成本、可扩展性强、支持多模态数据、标注继承唯一性等优点,显著提升大规模非结构化数据的索引构建与检索效率。
技术关键词
数据索引构建方法 高维特征向量 大语言模型 样本 摘要 深度学习模型 锚点 聚类方法 支持多维度检索 训练判别模型 卷积神经网络提取 图片 时序神经网络 生成自然语言 文本 语义特征 节点