一种基于源码结构和资源链接的不良网站识别方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于源码结构和资源链接的不良网站识别方法及系统
申请号:CN202410774673
申请日期:2024-06-17
公开号:CN118349756B
公开日期:2024-10-15
类型:发明专利
摘要
本发明公开了一种基于源码结构和资源链接的不良网站识别方法及系统,涉及信息安全技术领域。通过对源码和请求链接的抽取与清洗,减少了无效数据的干扰;通过文本预处理精准提取出能够代表网站特征的关键词和特征词;将多种特征综合表示,并通过降维减少数据维度,通过HDBSCAN聚类算法自动确定聚类的数量,并有效识别噪声点,生成稳定且准确的聚类结果,能够有效区分正常网站和不良网站;对新的网站数据,利用已有的聚类类型对网站进行标注和推断,或者输入批量网站进行重新聚类,对网站结构相似的网站进行标注,以识别新的不良网站模板,实现了对新网站的自动化标注和推断,适应动态变化的网络环境,提高了不良网站识别的准确性和及时性。
技术关键词
网站识别方法 列表 文本 网站结构 数据 字符串替换 链接特征 保留标签信息 网站识别系统 聚类 资源 邻域 训练语料库 网站特征 信息安全技术 算法 网络 加权平均法 高斯核函数 分词