一种模板网站关键源码片段识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模板网站关键源码片段识别方法
申请号:CN202410768709
申请日期:2024-06-14
公开号:CN118796264B
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及模板网站发现技术领域,公开了一种模板网站关键源码片段识别方法,包括基于PC端/移动端两种UserAgent获取网站的页面源代码,并且获取到图片、文件等外链资源;获取到完整的网页源码信息后,通过构建源码文件和源码片段的提取规则,获取到HTML、JS、CSS、IMG片段或文件;基于人工分析并形成评价源码相关性和通用性的指标体系,通过人工标注一批正样本和负样本;基于机器学习模型进行训练,形成网站关键源码片段研判模型;通过模型对实时源码片段数据进行分析,并输出研判结果。本发明通过构建网站相关性和通用性维度指标体系,基于机器学习模型提取网站的关键源码片段。基于该识别结果能够在不掌握大量样本的情况下,支撑对大量网站和源码进行快速匹配识别模板网站,大大提高了识别效率降低算力消耗。
技术关键词
识别方法 机器学习模型 网站发现技术 识别互联网 模板 样本 专家知识库 决策树模型 页面代码 正则化参数 移动端 数据 图片 标签 格式化 可读存储介质 资源 关键词 指标