一、聚类分析算法介绍

  1、聚类分析

  聚类分析是一类将数据所研究对象进行分类的统计方法。这一类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。这就是聚类分析方法的共同思路。

  聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类分析是指对样本进行聚类,R型聚类分析是指对变量进行聚类。本文只考虑使用Q型聚类分析,即对样本进行聚类。

  2、选择使用K-means算法

  K-means算法是动态聚类算法中的一种,该算法效率较高,而且不容易受初始值选择的影响。用来分析定位弱覆盖区域,由于经纬度分布面较广,需要对初始质点的数量选择进行慎重选择,后续考虑通过计算对比优化。

  K-means算法:

  a选择K个点作为初始质点;

  b将每个点指派到最近的质点,形成K个簇(聚类);

  c重新计算每个簇的质点;

  d重复2-3直至质点不发生变化。

  二、弱覆盖区域样本数据分析筛选

  在Http://42.99.18.29:9703/4D32B0CF493B74B0/提取5月1日至15日业务感知数据,整理汇总并按集团要求剔除无效数据。

  

  三、针对不同数量的质点对样本数据进行聚类分析

  分析包头数据,筛选出LTE网络业务感知采样点中的RSRP低于-105dBm,并且SINR值低于-3dB的样本点,总计筛选出97个样本。

  

  由于初始质点数量的确认目前没有明确有效的算法,所以尝试选择不同质点对比,确定一个质点数量的选择方案。

  1、筛选97个样本点地图分布对比

  使用包头5月1日至15日业务感知数据分析可能存在弱覆盖的样本点分布情况。

  

主城区及土右旗分布

  

白云、达茂和固阳分布

  2、初始质点选择30个

  初始30个质点做聚类分析,选取其中大于5个样本点的6个聚类。

  

对比样本点与聚类点位置基本满足弱覆盖区域

  30个聚类的罗列,其中第三列表示该项聚类中样本个数,第四、五列分别为聚类中心点的经纬度。选取聚类3、7、15、19、20、23样本个数大于5个的聚类。

  

  

  97个样本在各自聚类中到中心的距离罗列。

各叢集組員

各叢集組員

  個案編號

叢集

距離

  個案編號

叢集

距離

  1

1

0.000

  41

18

.004

  88

2

.011

  40

18

.009

  72

2

.011

  69

19

.009

  45

2

.021

  68

19

.007

  44

2

.011

  66

19

.011

  83

3

.015

  64

19

.013

  80

3

.012

  63

19

.017

  76

3

.011

  62

19

.016

  75

3

.008

  31

19

.009

  73

3

.023

  30

19

.024

  47

3

.010

  14

19

.007

  39

3

.017

  67

20

.031

  3

3

.007

  65

20

.003

  4

4

0.000

  57

20

.006

  5

5

0.000

  56

20

.002

  6

6

0.000

  55

20

.003

  93

7

.013

  54

20

.003

  92

7

.013

  38

20

.003

  91

7

.005

  37

20

.008

  90

7

.006

  36

20

.003

  8

7

.009

  35

20

.003

  77

7

.018

  32

21

.006

  7

7

.008

  27

21

.006

  51

7

.016

  43

22

.014

  46

8

0.000

  33

22

.014

  9

9

0.000

  96

23

.009

  61

10

.009

  95

23

.013

  20

10

.009

  94

23

.018

  12

10

.022

  85

23

.013

  10

10

.004

  84

23

.008

  53

11

.008

  82

23

.013

  52

11

.008

  81

23

.010

  48

12

0.000

  79

23

.006

  13

13

0.000

  34

23

.010

  59

14

0.000

  22

23

.004

  97

15

.018

  21

23

.005

  87

15

.019

  24

24

.002

  86

15

.020

  23

24

.002

  71

15

.013

  25

25

.014

  50

15

.011

  11

25

.014

  15

15

.020

  60

26

.013

  2

16

.008

  26

26

.013

  16

16

.008

  42

27

0.000

  19

17

.003

  74

28

.003

  18

17

.003

  28

28

.003

  17

17

.005

  29

29

0.000

  89

18

.010

  70

30

.018

  78

18

.016

  49

30

.018

  58

18

.010

  3、初始质点选择50个

  初始50个质点做聚类分析,选取其中大于等于5个样本点的3个聚类(下图中深红色五角星点)。对比选取50个质点和选取30个质点的典型聚类,注意到50个质点的聚类更接近于合理的聚类中心。

  

对比样本点与聚类点位置基本满足弱覆盖区域

  50个聚类的罗列,其中第三列表示该项聚类中样本个数,第四、五列分别为聚类中心点的经纬度。选取聚类14、36、37样本个数大于等于5个的聚类。

  

  

  97个样本在各自聚类中到中心的距离罗列。

各叢集組員

各叢集組員

  個案編號

叢集

距離

  個案編號

叢集

距離

  1

1

0.000

  28

28

.003

  7

2

.008

  74

28

.003

  8

2

1.346E-05

  29

29

0.000

  92

2

.003

  30

30

0.000

  93

2

.007

  94

31

.003

  3

3

.003

  95

31

.003

  76

3

.003

  27

32

.006

  4

4

0.000

  32

32

.006

  5

5

0.000

  33

33

0.000

  6

6

0.000

  78

34

0.000

  51

7

.007

  58

35

.003

  90

7

.005

  89

35

.003

  91

7

.004

  35

36

.001

  64

8

.007

  36

36

.001

  66

8

.006

  37

36

.005

  68

8

.002

  38

36

.001

  9

9

0.000

  54

36

.001

  10

10

.004

  55

36

.001

  20

10

.002

  56

36

.001

  61

10

.002

  57

36

.005

  11

11

0.000

  65

36

.001

  12

12

0.000

  14

37

.006

  13

13

0.000

  31

37

.007

  21

14

.003

  62

37

.015

  22

14

.004

  63

37

.010

  79

14

.002

  69

37

.008

  81

14

.004

  52

38

.008

  82

14

.006

  53

38

.008

  84

14

.000

  39

39

.006

  15

15

8.322E-05

  80

39

.006

  86

15

8.322E-05

  40

40

.002

  2

16

.008

  41

40

.002

  16

16

.008

  60

41

0.000

  17

17

.005

  42

42

0.000

  18

17

.003

  43

43

0.000

  19

17

.003

  44

44

0.000

  67

18

0.000

  34

45

.005

  72

19

.003

  45

45

.011

  88

19

.003

  85

45

.005

  70

20

0.000

  96

45

.005

  77

21

0.000

  46

46

0.000

  73

22

0.000

  47

47

.005

  59

23

0.000

  75

47

.005

  23

24

.002

  83

47

.010

  24

24

.002

  48

48

0.000

  25

25

0.000

  49

49

0.000

  26

26

0.000

  50

50

.003

  87

27

.007

  71

50

.003

  97

27

.007

  97个样本在各自聚类中到中心的距离罗列。

  4、初始质点个数的算法确定

  由于弱覆盖地理面积过大,较远的样本点分配到一个聚类中无意义,所以选取初始质点个数直接影响到其它样本点是否会做为异常点参与计算。目前采用以下公式计算初始质点:

  (roundup(样本点个数/20))*10

  其中,roundup为向上取整。以本例是97个样本点为例计算,97除以20为4.85,向上取整为5,乘以10为50,所以初始质点个数选取50个。

  四、总结对比

  1、对比初始质点为30和50的聚类中心位置差距

  下图中深红色点为初始质点为50个的典型聚类,红色为初始质点为30个的典型聚类,对比可看出初始质点为50个的典型聚类更接近样本点聚集区域。

  

  

  2、与包头分公司沟通确认附近覆盖情况

  上图中编号为14的聚类与分公司沟通确认所在位置办公楼较多,室内用户较多,深度覆盖严重不足;编号为36的聚类所在位置离最近基站1.5KM,周围区域存在弱覆盖;编号为37的聚类所在位置写字楼,超市较多,室内用户较多,深度覆盖严重不足。

  对比后再与盟市沟通,该方案可以远程定位弱覆盖和深度覆盖区域,但算法精度需要进一步优调整。计划后续优化分析过程中利用参数检验等手段进一步优化该方法。