摘要
本发明属于文本处理技术领域,具体涉及基于关键词检索DOCX文档内容的方法及系统,包括通过解析DOCX文档的Office Open XML结构,结合样式名称等多维特征,利用标题分类得分模型精准区分标题与正文,有效保留了文档的语义层级结构;其次,引入多级语义扩展机制,融合Sentence‑BERT、HowNet知识库与Word2Vec模型,实现对关键词的同义词、近义词智能扩展,显著提升检索的召回率与语义理解能力。再者,采用BM25模型结合段落长度归一化与结构位置权重计算相关性得分,使检索结果排序更加精准合理。倒排索引的构建结合位置编码与压缩优化策略,兼顾检索效率与存储性能。