RSS    

   Кластерный анализ в задачах социально-экономического прогнозирования - (реферат)

p>Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:

d2 ij = (`X –`Y)Т(`X –`Y) Кластеризация идет поэтапно на каждом из n–1 шагов объединяют два кластера G и p, имеющие минимальное значение d2ij Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда называют еще методом взвешенных групп.

    1. 4 Алгоритм последовательной кластеризации.

Рассмотрим Й = (Й1, Й2, … Йn) как множество кластеров {Й1}, {Й2}, …{Йn}. Выберем два из них, например, Й i и Й j, которые в некотором смысле более близки друг к другу и объединим их в один кластер. Новое множество кластеров, состоящее уже из n-1 кластеров, будет: {Й1}, {Й2}…, {Й i , Й j}, …, {Йn}.

Повторяя процесс, получим последовательные множества кластеров, состоящие из (n-2), (n-3), (n–4)и т. д. кластеров. В конце процедуры можно получить кластер, состоящий из n объектов и совпадающий с первоначальным множествомЙ = (Й1, Й2, … Йn). В качестве меры расстояния возьмем квадрат евклидовой метрики di j2. и вычислим матрицу D = {di j2}, где di j2 - квадрат расстояния между Й i и ? j:

    Й1
    Й2
    Й3
    ….
    Йn
    Й1
    0
    d122
    d132
    ….
    d1n2
    Й2
    0
    d232
    ….
    d2n2
    Й3
    0
    ….
    d3n2
    ….
    ….
    ….
    Йn
    0
    Пусть расстояние между Й i и Й j будет минимальным:

di j2 = min {di j2, i № j}. Образуем с помощью Й i и Й j новый кластер {Й i , Й j}. Построим новую ((n-1), (n-1)) матрицу расстояния

    {Й i , Й j}
    Й1
    Й2
    Й3
    ….
    Йn
    {Й i ; Й j}
    0
    di j21
    di j22
    di j23
    ….
    di j2n
    Й1
    0
    d122
    d13
    ….
    d12n
    Й2
    0
    di j21
    ….
    d2n
    Й3
    0
    ….
    d3n
    Йn
    0

(n-2)строки для последней матрицы взяты из предыдущей, а первая строка вычислена заново. Вычисления могут быть сведены к минимуму, если удастся выразитьdi j2k, k = 1, 2, …, n; (k № i № j) через элементы первоначальной матрицы. Исходно определено расстояние лишь между одноэлементными кластерами, но надо определять расстояния и между кластерами, содержащими более чем один элемент. Это можно сделать различными способами, и в зависимости от выбранного способа мы получают алгоритмы кластер анализа с различными свойствами. Можно, например, положить расстояние между кластеромi + j и некоторым другим кластером k, равным среднему арифметическому из расстояний между кластерами i и k и кластерами j и k: di+j, k = Ѕ (di k + dj k).

Но можно также определить di+j, k как минимальное из этих двух расстояний: di+j, k = min (di k + dj k).

Таким образом, описан первый шаг работы агломеративного иерархического алгоритма. Последующие шаги аналогичны.

Довольно широкий класс алгоритмов может быть получен, если для перерасчета расстояний использовать следующую общую формулу:

    di+j, k = A(w) min(dik djk) + B(w) max(dik djk), где
    A(w) = , если dik Ј djk
    A(w) = , если dik > djk
    B(w) =, если dik Ј djk
    B(w) = , если dik > djk

где ni и nj - число элементов в кластерах i и j, а w –свободный параметр, выбор которого определяет конкретный алгоритм. Например, приw = 1 мы получаем, так называемый, алгоритм “средней связи”, для которого формула перерасчета расстояний принимает вид: di+j, k =

В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным среднему арифметическому из расстояний между всеми такими парами элементов, что один элемент пары принадлежит к одному кластеру, другой - к другому.

Наглядный смысл параметра w становится понятным, если положить w ® Ґ. Формула пересчета расстояний принимает вид: di+j, k = min (di, k djk)

Это будет так называемый алгоритм “ближайшего соседа”, позволяющий выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В данном случае расстояние между двумя кластерами на каждом шаге работы алгоритма оказывается равным расстоянию между двумя самыми близкими элементами, принадлежащими к этим двум кластерам.

Довольно часто предполагают, что первоначальные расстояния (различия) между группируемыми элементами заданы. В некоторых задачах это действительно так. Однако, задаются только объекты и их характеристики и матрицу расстояний строят исходя из этих данных. В зависимости от того, вычисляются ли расстояния между объектами или между характеристиками объектов, используются разные способы. В случае кластер анализа объектов наиболее часто мерой различия служит либо квадрат евклидова расстояния

(где xih, xjh - значения h-го признака для i-го и j-го объектов, а m- число характеристик), либо само евклидово расстояние. Если признакам приписывается разный вес, то эти веса можно учесть при вычислении расстояния

Иногда в качестве меры различия используется расстояние, вычисляемое по формуле:

которые называют: "хэмминговым", "манхэттенским" или "сити-блок" расстоянием. Естественной мерой сходства характеристик объектов во многих задачах является коэффициент корреляции между ними

где mi , mj , di , dj - соответственно средние и среднеквадратичные отклонения для характеристик i и j. Мерой различия между характеристиками может служить величина 1 - r. В некоторых задачах знак коэффициента корреляции несуществен и зависит лишь от выбора единицы измерения. В этом случае в качестве меры различия между характеристиками используетсяф1 - ri j ф

    1. 5 Число кластеров.

Очень важным вопросом является проблема выбора необходимого числа кластеров. Иногда можно m число кластеров выбирать априорно. Однако в общем случае это число определяется в процессе разбиения множества на кластеры. Проводились исследования Фортьером и Соломоном, и было установлено, что число кластеров должно быть принято для достижения вероятностиaтого, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной долиbнаилучших или в некотором смысле допустимых разбиений во множестве всех возможных. Общее рассеяние будет тем больше, чем выше доляbдопустимых разбиений. Фортьер и Соломон разработали таблицу, по которой можно найти число необходимых разбиений. S(a, b) в зависимости от a и b (где a - вероятность того, что найдено наилучшее разбиение, b - доля наилучших разбиений в общем числе разбиений) Причем в качестве меры разнородности используется не мера рассеяния, а мера принадлежности, введенная Хользенгером и Харманом. Таблица значенийS(a, b) приводится ниже. Таблица значений S(a, b)

    b \ a
    0. 20
    0. 10
    0. 05
    0. 01
    0. 001
    0. 0001
    0. 20
    8
    11
    14
    21
    31
    42
    0. 10
    16
    22
    29
    44
    66
    88
    0. 05
    32
    45
    59
    90
    135
    180
    0. 01
    161
    230
    299
    459
    689
    918
    0. 001
    1626
    2326
    3026
    4652
    6977
    9303
    0. 0001
    17475
    25000
    32526
    55000
    75000
    100000

Довольно часто критерием объединения (числа кластеров) становится изменение соответствующей функции. Например, суммы квадратов отклонений: Процессу группировки должно соответствовать здесь последовательное минимальное возрастание значения критерияE. Наличие резкого скачка в значении Eможно интерпретировать как характеристику числа кластеров, объективно существующих в исследуемой совокупности.

Страницы: 1, 2, 3


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.