Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统
申请号:CN202510849172
申请日期:2025-06-24
公开号:CN120653683A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法,首先,针对Shuffle阶段生成的大量中间键值对数据,统计各个键簇在Spark集群各节点上的分布情况,构建出能够量化节点间数据不均衡程度的分布倾斜模型,从而获取更加真实、全面的数据分布信息;随后,利用分布倾斜度指标对所有键簇进行分类,将其划分为倾斜分布与非倾斜分布两类,以实现差异化的分配策略设计;然后,对于具有倾斜分布的键簇,引入偏好节点的概念,将在同一偏好节点上分布密集的多个键簇优先分配到同一分区中,从而增强数据的局部集中性,实现reduce任务的数据本地性最优化;最后,在初步分区结果的基础上,对非倾斜分布的键簇采用负载均衡分配策略。
技术关键词
数据分区方法 键值 计数器 集群 框架 指标 节点间数据 模块 倾斜模型 分区系统 机架 数据分布 参数 策略 概念 按键 典型