一种智能网络爬虫方法和系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种智能网络爬虫方法和系统
申请号:
CN202510591596
申请日期:
2025-05-09
公开号:
CN120596724A
公开日期:
2025-09-05
类型:
发明专利
摘要
本发明提供了一种智能网络爬虫方法和系统,应用于网络信息处理技术领域。通过多种基于大模型的智能体,判断网站的页面类型,将网站分为首页、列表页、详情页及其他页,将网站编制成一个以首页为根、以列表页为路径节点,以详情页和其他页为叶子节点的树状结构的网站地图,网络爬虫每次对网站进行采集时,都会将当前网站的地图,与前次采集的网站地图做对比,只选取增量数据进行采集。采用本发明的智能网络爬虫技术,既降低了目标网站的压力,也提高了采集效率。
技术关键词
网站地图
智能网络
爬虫方法
大语言模型
网络信息处理技术
多模态
静态网站
动态网站
爬虫系统
存储页面
数据
爬虫技术
树状结构
列表
自然语言
工具包
字段