Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统
申请号:CN202510849172
申请日期:2025-06-24
公开号:CN120653683A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法,首先,针对Shuffle阶段生成的大量中间键值对数据,统计各个键簇在Spark集群各节点上的分布情况,构建出能够量化节点间数据不均衡程度的分布倾斜模型,从而获取更加真实、全面的数据分布信息;随后,利用分布倾斜度指标对所有键簇进行分类,将其划分为倾斜分布与非倾斜分布两类,以实现差异化的分配策略设计;然后,对于具有倾斜分布的键簇,引入偏好节点的概念,将在同一偏好节点上分布密集的多个键簇优先分配到同一分区中,从而增强数据的局部集中性,实现reduce任务的数据本地性最优化;最后,在初步分区结果的基础上,对非倾斜分布的键簇采用负载均衡分配策略。
技术关键词
数据分区方法
键值
计数器
集群
框架
指标
节点间数据
模块
倾斜模型
分区系统
机架
数据分布
参数
策略
概念
按键
典型