Учебные пособия |
Курс социально-экономической статистики Раздел: Экономика
|
Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.
Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).
При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.
На основании матрицы исходных данных
размерности п
х k, где хij.— значение j-го
показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние
значения показателей а также s1, ..., sk
и матрицу нормированных значений
с элементами
Рассчитывается матрица парных коэффициентов корреляции:
(53.24)
с элементами
(53.25)
где j, l= 1, 2, .... k.
На главной диагонали матрицы R, т.е. при j = l, расположены элементы
Модель компонентного анализа имеет вид
(53.26)
где aiv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;
fiv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k.
В матричной форме модель (53.26) имеет вид
(53.27)
fiv — значение v-й главной компоненты для i-го наблюдения (объекта);
aiv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.
Матрица F описывает п наблюдений в пространстве k
главных компонент. При этом элементы матрицы F нормированы, т.е. fv = ,
a главные компоненты не коррелированы между собой. Из этого следует,
что
(53.28)
Выражение (53.28) может быть представлено в виде
(53.29)
С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной zj и, например, f1-й главной компонентой. Так как zо и f1 нормированы, будем иметь с учетом (53.26):
Принимая во внимание (53.29), окончательно получим
Рассуждая аналогично, можно записать в общем виде
(53.30)
для всех j = 1, 2, .,., k и v = 1, 2, .... k.
Таким образом, элемент ajv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной zj и главной компонентой fv, т.е. –1 ≤ ajv ≤ +1.
Рассмотрим теперь выражение для дисперсии нормированной переменной zj. С учетом (53.26) будем иметь
где v, v'= 1, 2, ..., k.
Учитывая (53.29), окончательно получим
(53.31)
По условию,
переменные zj нормированы и s = 1. Таким
образом, дисперсия переменной zj, согласно (53.31),
представлена своими составляющими, определяющими долю вклада в нее всех k
главных
компонент.
Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле
(53.32)
Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь
Учитывая (53.28), окончательно получим
(53.33)
Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.
Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие
(53.34)
Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λv > 0 для любых v =1, 2, ..., k.
В компонентном анализе элементы матрицы Λ ранжированы: λ1 ≥ λ2 ≥ ... ≥ λv ... ≥ λk ≥ 0. Как будет показано ниже, собственное значение λv характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.
Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.
В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λv -му значению.
Собственные значения λ1 ≥ ... ≥ λv.... ≥ λk находятся как корни характеристического уравнения
(53.35)
Собственный вектор Vv, соответствующий собственному значению λv корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):
(53.36)
Нормированный собственный вектор Uv равен
Из условия ортогональности матрицы U следует, что U-1 = UT, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию
Так как у подобных матриц суммы диагональных элементов равны, то
Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь
Таким образом,
(53.37)
Представим матрицу факторных нагрузок А в виде
(53.38)
а v-й столбец матрицы А — как
где Uv — собственный вектор матрицы R, соответствующий собственному значению λv.
Найдем норму вектора Аv:
(53.39)
Здесь
учитывалось, что вектор Uv —
нормированный и UUv
= 1. Таким
образом,
Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λv характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что
(53.40)
Согласно
(53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты
определяется по формуле .
Суммарный вклад т
первых главных компонент определяется из выражения .
Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.
Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации fv используются лишь те хj, для которых |ajv| > 0,5.
Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F.
Матрицу значений главных компонент можно получить из формулы
откуда
Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.
Пример. Построение регрессионного уравнения
По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.
Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x1 и x4). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.
Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x1, х2, х3, х4, х5 (табл. 53.2).
Таблица 53.2
Собственные значения главных компонент
Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок
звездочкой указаны элементы аjv = rxjfv, учитывающиеся при интерпретации главных компонент fv, где j, v = 1, 2, ..., 5.
Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x1 — число колесных тракторов на 100 га (a11 = rx1f1 = 0,95); х2 — число зерноуборочных комбайнов на 100 га (rx2f1 = 0,97); х3 — число орудий поверхностной обработки почвы на 100 га (rx3f1 = 0,94). В этой связи первая главная компонента — f1 — интерпретирована как уровень механизации работ.
Вторая главная компонента — f2 — тесно связана с количеством удобрений (х4) и химических средств оздоровления растений (x5), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.
Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.
Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).
Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (ryf1 = 0,48), третьей (ryf3 = 0,37) и. второй (ryf2 = 0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель у.
Таблица 53.3
Матрица парных коэффициентов корреляции
Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t-критерия):
(53.41)
Качество модели характеризуют: множественный
коэффициент детерминации r = 0,517,
средняя относительная ошибка аппроксимации
=
10,4%, остаточная дисперсия s2 =
1,79 и Fнабл = 121. Ввиду того что Fнабл > Fкр =2,85 при α = 0,05, v1
= 6, v2 =
14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии —
β1, β2, β3, β4 —
не равен нулю.
Если значимость уравнения регрессии (гипотеза Н0: β1 = β2 = β3 = β4 = 0 проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H0: βj = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина tкр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β1, β2, β3.
Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид
(53.42)
Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f4 и f5, не отразилось на значениях коэффициентов уравнения b0 = 9,52, b1 = 0,93, b2 = 0,66 и соответствующих tj (j = 0, 1, 2, 3).
Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).
Уравнение (53.42) значимо, поскольку Fнабл = 194 > Fкр
= 3,01, найденного при α = 0,05, v1 = 4, v2 = 16. Значимы и коэффициенты уравнения, так как tj
> tкр. = 1,746, соответствующего α = 0,01, v
= 16 для j = 0, 1, 2, 3. Коэффициент детерминации r = 0,486 свидетельствует о том,
что 48,6% вариации у обусловлено влиянием трех первых главных
компонент.
Уравнение (53.42) характеризуется средней
относительной ошибкой аппроксимации = 9,99% и
остаточной дисперсией s2 = 1,91.
Уравнение регрессии на главных компонентах (53.42)
обладает несколько лучшими аппроксимирующими свойствами по сравнению с
регрессионной моделью (53.23) по исходным показателям: r = 0,486 > r
= 0,469;
= 9,99% <
(х) = 10,5% и s2(f)
= 1,91 < s2(x)
= 1,97. Кроме того, в уравнении
(53.42) главные компоненты являются линейными функциями всех исходных
показателей, в то время как в уравнение (53.23) входят только две переменные (x1 и х4).
В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема,
так как в нее входит третья главная компонента f3, которая нами не интерпретирована и вклад которой в
суммарную дисперсию исходных показателей (x1, ..., х5)
составляет всего 8,6%. Однако исключение f3 из уравнения (53.42) значительно ухудшает
аппроксимирующие свойства модели: r
= 0,349;
=
12,4% и s2(f) =
2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать
уравнение (53.23).
К содержанию книги: Курс социально-экономической статистики
Смотрите также:
СТАТИСТИКА ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая ...
СТАТИСТИКА
ЭКОНОМИЧЕСКАЯ. Отрасль статистики, изучающая материальное |
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ АКТИВНОСТИ статистика ...
ПРОГНОЗ ЭКОНОМИЧЕСКОЙ
АКТИВНОСТИ ... Вводный курс по |
Л.П. Кроливецкой. -
М.: Финансы и статистика, 1996. Березина М.П. |
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ
ОСНОВНЫЕ ВИДЫ ЭКОНОМИЧЕСКОЙ
ИНФОРМАЦИИ ... Статистика дает |
Моделирование рисковых ситуаций в экономике и бизнесе
Для студентов,
обучающихся по специальностям «Статистика», « |
Практическое значение экономической теории. Главные ...
межотраслевых (экономическая
география, демография, статистика и др.). |
Азимов Л.Б.,
Журавская Е.В., Макарова О.Ю. Преподавание экономики в |
Деятельность предприятия. Экономика предприятия
М.: Финансы и статистика,
1996. 11. Настольная книга финансиста / Под ред. |
ВНЕШНЕЭКОНОМИЧЕСКИЕ СВЯЗИ Внешнеэкономическая деятельность предприятия