一、聚类分析算法介绍
1、聚类分析
聚类分析是一类将数据所研究对象进行分类的统计方法。这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。这就是聚类分析方法的共同思路。
聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样本进行聚类,R型聚类分析是指对变量进行聚类。本文只考虑使用Q型聚类分析,即对样本进行聚类。
2、选择使用K-means算法
K-means算法是动态聚类算法中的一种,该算法效率较高,而且不容易受初始值选择的影响。用来分析定位弱覆盖区域,由于经纬度分布面较广,需要对初始质点的数量选择进行慎重选择,后续考虑通过计算对比优化。
K-means算法:
a选择K个点作为初始质点;
b将每个点指派到最近的质点,形成K个簇(聚类);
c重新计算每个簇的质点;
d重复2-3直至质点不发生变化。
二、弱覆盖区域样本数据分析筛选
在Http://42.99.18.29:9703/4D32B0CF493B74B0/提取5月1日至15日业务感知数据,整理汇总并按集团要求剔除无效数据。
三、针对不同数量的质点对样本数据进行聚类分析
分析包头数据,筛选出LTE网络业务感知采样点中的RSRP低于-105dBm,并且SINR值低于-3dB的样本点,总计筛选出97个样本。
由于初始质点数量的确认目前没有明确有效的算法,所以尝试选择不同质点对比,确定一个质点数量的选择方案。
1、筛选97个样本点地图分布对比
使用包头5月1日至15日业务感知数据分析可能存在弱覆盖的样本点分布情况。
主城区及土右旗分布
白云、达茂和固阳分布
2、初始质点选择30个
初始30个质点做聚类分析,选取其中大于5个样本点的6个聚类。
对比样本点与聚类点位置基本满足弱覆盖区域
30个聚类的罗列,其中第三列表示该项聚类中样本个数,第四、五列分别为聚类中心点的经纬度。选取聚类3、7、15、19、20、23样本个数大于5个的聚类。
97个样本在各自聚类中到中心的距离罗列。
各叢集組員
各叢集組員
個案編號
叢集
距離
個案編號
叢集
距離
1
1
0.000
41
18
.004
88
2
.011
40
18
.009
72
2
.011
69
19
.009
45
2
.021
68
19
.007
44
2
.011
66
19
.011
83
3
.015
64
19
.013
80
3
.012
63
19
.017
76
3
.011
62
19
.016
75
3
.008
31
19
.009
73
3
.023
30
19
.024
47
3
.010
14
19
.007
39
3
.017
67
20
.031
3
3
.007
65
20
.003
4
4
0.000
57
20
.006
5
5
0.000
56
20
.002
6
6
0.000
55
20
.003
93
7
.013
54
20
.003
92
7
.013
38
20
.003
91
7
.005
37
20
.008
90
7
.006
36
20
.003
8
7
.009
35
20
.003
77
7
.018
32
21
.006
7
7
.008
27
21
.006
51
7
.016
43
22
.014
46
8
0.000
33
22
.014
9
9
0.000
96
23
.009
61
10
.009
95
23
.013
20
10
.009
94
23
.018
12
10
.022
85
23
.013
10
10
.004
84
23
.008
53
11
.008
82
23
.013
52
11
.008
81
23
.010
48
12
0.000
79
23
.006
13
13
0.000
34
23
.010
59
14
0.000
22
23
.004
97
15
.018
21
23
.005
87
15
.019
24
24
.002
86
15
.020
23
24
.002
71
15
.013
25
25
.014
50
15
.011
11
25
.014
15
15
.020
60
26
.013
2
16
.008
26
26
.013
16
16
.008
42
27
0.000
19
17
.003
74
28
.003
18
17
.003
28
28
.003
17
17
.005
29
29
0.000
89
18
.010
70
30
.018
78
18
.016
49
30
.018
58
18
.010
3、初始质点选择50个
初始50个质点做聚类分析,选取其中大于等于5个样本点的3个聚类(下图中深红色五角星点)。对比选取50个质点和选取30个质点的典型聚类,注意到50个质点的聚类更接近于合理的聚类中心。
对比样本点与聚类点位置基本满足弱覆盖区域
50个聚类的罗列,其中第三列表示该项聚类中样本个数,第四、五列分别为聚类中心点的经纬度。选取聚类14、36、37样本个数大于等于5个的聚类。
97个样本在各自聚类中到中心的距离罗列。
各叢集組員
各叢集組員
個案編號
叢集
距離
個案編號
叢集
距離
1
1
0.000
28
28
.003
7
2
.008
74
28
.003
8
2
1.346E-05
29
29
0.000
92
2
.003
30
30
0.000
93
2
.007
94
31
.003
3
3
.003
95
31
.003
76
3
.003
27
32
.006
4
4
0.000
32
32
.006
5
5
0.000
33
33
0.000
6
6
0.000
78
34
0.000
51
7
.007
58
35
.003
90
7
.005
89
35
.003
91
7
.004
35
36
.001
64
8
.007
36
36
.001
66
8
.006
37
36
.005
68
8
.002
38
36
.001
9
9
0.000
54
36
.001
10
10
.004
55
36
.001
20
10
.002
56
36
.001
61
10
.002
57
36
.005
11
11
0.000
65
36
.001
12
12
0.000
14
37
.006
13
13
0.000
31
37
.007
21
14
.003
62
37
.015
22
14
.004
63
37
.010
79
14
.002
69
37
.008
81
14
.004
52
38
.008
82
14
.006
53
38
.008
84
14
.000
39
39
.006
15
15
8.322E-05
80
39
.006
86
15
8.322E-05
40
40
.002
2
16
.008
41
40
.002
16
16
.008
60
41
0.000
17
17
.005
42
42
0.000
18
17
.003
43
43
0.000
19
17
.003
44
44
0.000
67
18
0.000
34
45
.005
72
19
.003
45
45
.011
88
19
.003
85
45
.005
70
20
0.000
96
45
.005
77
21
0.000
46
46
0.000
73
22
0.000
47
47
.005
59
23
0.000
75
47
.005
23
24
.002
83
47
.010
24
24
.002
48
48
0.000
25
25
0.000
49
49
0.000
26
26
0.000
50
50
.003
87
27
.007
71
50
.003
97
27
.007
97个样本在各自聚类中到中心的距离罗列。
4、初始质点个数的算法确定
由于弱覆盖地理面积过大,较远的样本点分配到一个聚类中无意义,所以选取初始质点个数直接影响到其它样本点是否会做为异常点参与计算。目前采用以下公式计算初始质点:
(roundup(样本点个数/20))*10
其中,roundup为向上取整。以本例是97个样本点为例计算,97除以20为4.85,向上取整为5,乘以10为50,所以初始质点个数选取50个。
四、总结对比
1、对比初始质点为30和50的聚类中心位置差距
下图中深红色点为初始质点为50个的典型聚类,红色为初始质点为30个的典型聚类,对比可看出初始质点为50个的典型聚类更接近样本点聚集区域。
2、与包头分公司沟通确认附近覆盖情况
上图中编号为14的聚类与分公司沟通确认所在位置办公楼较多,室内用户较多,深度覆盖严重不足;编号为36的聚类所在位置离最近基站1.5KM,周围区域存在弱覆盖;编号为37的聚类所在位置写字楼,超市较多,室内用户较多,深度覆盖严重不足。
对比后再与盟市沟通,该方案可以远程定位弱覆盖和深度覆盖区域,但算法精度需要进一步优调整。计划后续优化分析过程中利用参数检验等手段进一步优化该方法。
评论列表