Учебные пособия |
Курс социально-экономической статистики Раздел: Экономика
|
Иерархические (древообразные) процедуры являются наиболее распространенными (в смысле реализации на ЭВМ) алгоритмами кластерного анализа. Они бывают двух типов: агломеративные и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из п одноэлементных классов, а конечным — состоящее из одного класса; в дивизимных — наоборот.
Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов, сначала самых близких (далеких), а затем — все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний.
К недостаткам иерархических процедур следует отнести громоздкость их численной реализации. Алгоритмы требуют вычисления матрицы расстояний на каждом шаге, а следовательно, емкой машинной памяти и большого количества времени. В этой связи реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, а в ряде случаев и невозможна.
В качестве примера рассмотрим агломеративный иерархический алгоритм. На первом шаге алгоритма каждое наблюдение xi (i = 1, 2, ..., п) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и с учетом принятого расстояния по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Большинство программ, реализующих алгоритм иерархической классификации, предусматривает графическое представление результатов классификации в виде дендрограммы.
Пример. Классификация стран по уровню жизни населения
В табл. 53.4 представлены значения следующих шести показателей, характеризующих условия жизни населения двадцати стран в 1994 г.:
x1 — потребление мяса и мясопродуктов на душу населения (кг);
х2 — смертность населения по причине болезни органов кровообращения на 100 тыс. человек;
х3 — оценка валового внутреннего продукта по паритету покупательной способности в 1994 г. на душу населения (в % по отношению к США);
x4 — расходы на здравоохранение (в % от ВВП);
x5 — потребление фруктов и ягод на душу населения (кг);
x6 — потребление хлебопродуктов на душу населения (кг).
Провести классификацию стран по уровню жизни населения и дать содержательную интерпретацию полученных результатов.
Таблица 53.4
Макроэкономические показатели уровня жизни населения (1994 г.)
Решение. В условии задачи не оговорены число классов разбиения и вид законов распределения, а также не даны обучающие выборки. В этой связи при классификации использовались методы кластерного анализа.
Исходная информация (табл. 53.4) показывает, что в рассматриваемую совокупность входят страны бывшего СССР, Восточной Европы и промышленно развитые страны. Поэтому можно предположить, что искомое разбиение стран по уровню жизни населения будет состоять из трех или четырех кластеров.
Классификация проводилась по различным алгоритмам кластерного анализа, но наилучшими в содержательном плане оказались результаты, полученные при разбиении стран на четыре класса.
В первый кластер вошли одиннадцать (n1 =11) стран: Австралия, Австрия, Бельгия, Великобритания, Германия, Греция, Дания, Ирландия, Испания, Италия, Канада. Наиболее удалена от центра этого кластера Италия, которая характеризуется самым высоким для кластера уровнем потребления фруктов (х5) и хлебопродуктов (x6).
Во второй кластер вошли четыре (п2 = 4) страны: Россия, Белоруссия, Казахстан и Киргизия.
В третий кластер вошли две (n3 = 2) страны: Болгария и Венгрия.
В четвертый кластер вошли три (п4 = 3) страны: Азербайджан, Армения и Грузия.
Средние значения показателей для четырех кластеров представлены на рис. 53.3 и в табл. 53.5.
Рис. 53.3. Средние значения показателей для каждого кластера (цифры у кривых соответствуют номерам кластеров)
Таблица 53.5
Средние значения показателей
Кластер S1, в который входят промышленно развитые страны Запада, характеризуется (рис. 53.3) самыми высокими значениями: ВВП по паритету покупательной способности (x3), расходов на здравоохранение (х4), потребления мяса (x1) и фруктов (х5), а также самым низким значением смертности (х2).
Самое высокое потребление хлебопродуктов на душу населения (х6) у стран, входящих в кластеры S2 и S4.
В кластер S4 вошли страны, на территории которых происходили в рассматриваемый период вооруженные конфликты. Этот кластер характеризуется самыми низкими средними значениями показателей х3 и х4, а также x1 — среднедушевым потреблением мяса.
Заслуживает внимания матрица расстояний между центрами четырех кластеров:
Из матрицы следует, что кластеры S2, S3 и S4 примерно одинаково удалены друг от друга. Евклидово расстояние между ними равно соответственно 60,7; 53,0 и 55,5. Наиболее выделяется по уровню жизни населения кластер S1. Расстояния между S1 и кластерами S2, S3 и S4 равны соответственно 126,8; 83,3 и 120,6.
К содержанию книги: Курс социально-экономической статистики
Смотрите также:
СТАТИСТИКА ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая ...
СТАТИСТИКА
ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая материальное |
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ АКТИВНОСТИ статистика ...
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ
АКТИВНОСТИ ... Вводный курс по |
Л.П. Кроливецкой. -
М.: Финансы и статистика, 1996. Березина М.П. |
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ
ИНФОРМАЦИИ ... Статистика дает |
Моделирование рисковых ситуаций в экономике и бизнесе
Для студентов,
обучающихся по специальностям «Статистика», « |
Практическое значение экономической теории. Главные ...
межотраслевых (экономическая
география, демография, статистика и др.). |
Азимов Л.Б.,
Журавская Е.В., Макарова О.Ю. Преподавание экономики в |
Деятельность предприятия. Экономика предприятия
М.: Финансы и статистика,
1996. 11. Настольная книга финансиста / Под ред. |
ВНЕШНЕЭКОНОМИЧЕСКИЕ СВЯЗИ Внешнеэкономическая деятельность предприятия