Asosiy komponent usuli. Faktor tahlili. Asosiy komponentlar usuli Asosiy komponentlarning talqini

27.07.2023

Asosiy komponent usuli - bu ko'p sonli o'zaro bog'liq (qaram, korrelyatsiya) o'zgaruvchilarni kamroq miqdordagi mustaqil o'zgaruvchilarga aylantiradigan usul, chunki ko'p sonli o'zgaruvchilar ko'pincha ma'lumotni tahlil qilish va izohlashni qiyinlashtiradi. To'g'ridan-to'g'ri aytganda, bu usul faktor tahliliga taalluqli emas, garchi u bilan juda ko'p umumiylik mavjud. O'ziga xos narsa shundaki, birinchidan, hisoblash protseduralari davomida barcha asosiy komponentlar bir vaqtning o'zida olinadi va ularning soni dastlab dastlabki o'zgaruvchilar soniga teng; ikkinchidan, barcha asl o'zgaruvchilarning dispersiyasini to'liq parchalash imkoniyati taxmin qilinadi, ya'ni. uning yashirin omillar orqali to'liq izohlanishi (umumlashtirilgan xususiyatlar).

Misol uchun, biz Wechsler testi, Eysenck testi, Raven testi yordamida o'quvchilarning intellektini, shuningdek, ijtimoiy, kognitiv va umumiy psixologiya bo'yicha akademik ko'rsatkichlarini o'lchaydigan tadqiqot o'tkazganimizni tasavvur qiling. Turli xil razvedka testlarining bajarilishi bir-biri bilan bog'liq bo'lishi mumkin, chunki ular sub'ektning bir xususiyatini - uning intellektual qobiliyatlarini, garchi turli yo'llar bilan o'lchaydilar. Agar tadqiqotda juda ko'p o'zgaruvchilar bo'lsa ( x 1 , x 2 , …, x p ) , va ularning ba'zilari o'zaro bog'liq bo'lsa, tadqiqotchi ba'zan o'zgaruvchilar sonini kamaytirish orqali ma'lumotlarning murakkabligini kamaytirish istagiga ega. Buni asosiy komponent usuli bajaradi va bir nechta yangi o'zgaruvchilar yaratadi. y 1 , y 2 , …, y p, ularning har biri asl o'zgaruvchilarning chiziqli birikmasidir x 1 , x 2 , …, x p :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 =a 21 x 1 +a 22 x 2 +…+a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

O'zgaruvchilar y 1 , y 2 , …, y p asosiy komponentlar yoki omillar deyiladi. Shunday qilib, omil korrelyatsiya matritsasining maxsus o'zgarishlari natijasida yuzaga keladigan sun'iy statistik ko'rsatkichdir. . Faktorlarni ajratib olish tartibi matritsali faktorizatsiya deb ataladi. Faktorlarga ajratish natijasida korrelyatsiya matritsasidan dastlabki o'zgaruvchilar soniga teng bo'lgan songacha bo'lgan turli sonli omillarni olish mumkin. Biroq, faktorizatsiya natijasida aniqlangan omillar, qoida tariqasida, ahamiyati bo'yicha ekvivalent emas.

Imkoniyatlar a ij, yangi o'zgaruvchini aniqlaydigan, yangi o'zgaruvchilar (asosiy komponentlar, omillar) ma'lumotlar o'zgaruvchanligining maksimal miqdorini tavsiflaydigan va bir-biri bilan korrelyatsiya qilmaydigan tarzda tanlanadi. Ko'pincha koeffitsientlarni taqdim etish foydalidir a ij shunday qilib, ular dastlabki o'zgaruvchi va yangi o'zgaruvchi (omil) o'rtasidagi korrelyatsiya koeffitsientini ifodalaydi. Bunga ko'paytirish orqali erishiladi a ij omilning standart og'ishi bilan. Bu ko'pgina statistik paketlarda (STATISTICA dasturida ham) amalga oshiriladi. Imkoniyatlara ij Ular odatda jadval ko'rinishida taqdim etiladi, bu erda omillar ustunlar va o'zgaruvchilar qatorlar sifatida joylashtirilgan:

Bunday jadval omillar yuklamalari jadvali (matritsasi) deb ataladi. Unda berilgan raqamlar koeffitsientlardir a ij.0,86 raqami birinchi omil va Wechsler test qiymati o'rtasidagi korrelyatsiya 0,86 ekanligini bildiradi. Mutlaq qiymatdagi omil yuklanishi qanchalik yuqori bo'lsa, o'zgaruvchi va omil o'rtasidagi bog'liqlik shunchalik kuchli bo'ladi.

Ishlab chiqarish va iqtisodiy jarayonlarni modellashtirishda ko'rib chiqilayotgan ishlab chiqarish quyi tizimining darajasi (tarkibiy yarim bo'linish, o'rganilayotgan jarayon) qanchalik past bo'lsa, kirish parametrlarining xarakteristikasi ularni belgilovchi omillarning nisbiy mustaqilligi hisoblanadi. Korxonaning asosiy sifat ko'rsatkichlarini (mehnat unumdorligi, mahsulot tannarxi, foyda va boshqa ko'rsatkichlar) tahlil qilganda, kirish parametrlarining (omillarining) o'zaro bog'langan tizimi bilan modellashtirish jarayonlari bilan shug'ullanish kerak. Shu bilan birga, tizimlarni statistik modellashtirish jarayoni kuchli korrelyatsiya, ba'zi hollarda esa aniqlovchi omillarning (jarayonning kirish parametrlari) deyarli chiziqli bog'liqligi bilan tavsiflanadi. Bu multikollinearlik holati, ya'ni. kirish parametrlarining sezilarli o'zaro bog'liqligi (korrelyatsiyasi), bu erda regressiya modeli o'rganilayotgan real jarayonni etarli darajada aks ettirmaydi. Agar siz bir qator omillarni qo'shsangiz yoki bekor qilsangiz, dastlabki ma'lumotlarning hajmini (kuzatishlar soni) oshirsangiz yoki kamaytirsangiz, bu o'rganilayotgan jarayonning modelini sezilarli darajada o'zgartiradi. Ushbu yondashuvdan foydalanish o'rganilayotgan omillarning ta'sirini tavsiflovchi regressiya koeffitsientlarining qiymatlarini va hatto ularning ta'sir yo'nalishini keskin o'zgartirishi mumkin (bir modeldan modelga o'tishda regressiya koeffitsientlarining belgisi teskari tomonga o'zgarishi mumkin). boshqa).

Ilmiy tadqiqot tajribasidan ma'lumki, ko'pchilik iqtisodiy jarayonlar parametrlarning (o'rganilayotgan omillarning) yuqori darajada o'zaro ta'siri (o'zaro bog'liqligi) bilan tavsiflanadi. Ushbu omillar bo'yicha modellashtirilgan ko'rsatkichlarning regressiyasini hisoblashda modeldagi koeffitsientlarning qiymatlarini izohlashda qiyinchiliklar paydo bo'ladi. Model parametrlarining bunday multikollinearligi ko'pincha mahalliy xususiyatga ega, ya'ni o'rganilayotgan barcha omillar bir-biri bilan sezilarli darajada bog'liq emas, balki kirish parametrlarining alohida guruhlari. Multikollinear tizimlarning eng umumiy holati shunday o'rganilgan omillar to'plami bilan tavsiflanadi, ularning ba'zilari bir-biri bilan yuqori darajada bog'langan ichki tuzilishga ega bo'lgan alohida guruhlarni tashkil qiladi va bir-biri bilan deyarli bog'liq emas, ba'zilari esa bloklarga aylanmagan va ahamiyatsiz bo'lgan individual omillardir. ham bir-biriga, ham kuchli o'zaro bog'liqlikka ega bo'lgan guruhlarga kiritilgan qolgan omillarga.



Ushbu turdagi jarayonni modellashtirish uchun o'zaro bog'liq bo'lgan omillar to'plamini bir-biriga bog'liq bo'lmagan boshqa parametrlar to'plamiga qanday almashtirish masalasini hal qilish kerak. muhim mulk: mustaqil parametrlarning yangi to'plami o'rganilayotgan jarayon omillarining dastlabki to'plamining o'zgarishi yoki tarqalishi haqidagi barcha kerakli ma'lumotlarni o'z ichiga olishi kerak. Samarali davo Bunday muammoni hal qilish asosiy komponent usulini qo'llashdir. Ushbu usuldan foydalanganda asosiy komponentlar to'plamiga kiritilgan boshlang'ich omillar kombinatsiyasini iqtisodiy talqin qilish muammosi paydo bo'ladi. Usul modelning kirish parametrlari sonini kamaytirishga imkon beradi, bu esa olingan regressiya tenglamalaridan foydalanishni soddalashtiradi.

Asosiy komponentlarni hisoblashning mohiyati X j boshlang'ich omillari uchun korrelyatsiya (kovariatsiya) matritsasini aniqlash va matritsaning xarakterli raqamlarini (o'ziga xos qiymatlari) va mos vektorlarni topishdan iborat. Xarakteristik raqamlar yangi o'zgartirilgan o'zgaruvchilarning dispersiyalari bo'lib, har bir xarakteristik raqam uchun mos vektor eski o'zgaruvchilar yangilarini kiritish og'irligini beradi. Asosiy komponentlar - dastlabki statistik miqdorlarning chiziqli birikmalari. Boshlang'ich (kuzatilgan) omillardan asosiy komponentlarning vektorlariga o'tish koordinata o'qlarini aylantirish orqali amalga oshiriladi.

Regressiya tahlili uchun, qoida tariqasida, faqat dastlabki bir nechta asosiy komponentlar qo'llaniladi, ular jami omillarning umumiy o'zgarishining 80 dan 90% gacha tushuntiradi, qolganlari esa yo'q qilinadi. Agar barcha komponentlar regressiyaga kiritilgan bo'lsa, uning asl o'zgaruvchilar orqali ifodalangan natijasi ko'p regressiya tenglamasi bilan bir xil bo'ladi.

Asosiy komponentlarni hisoblash algoritmi

Aytaylik, bor m o'lchovli vektorlar (boshlang'ich omillar). n X matritsasini tashkil etuvchi (o'lchamlar soni):

Modellashtirilgan jarayonning asosiy omillari, qoida tariqasida, har xil o'lchov birliklariga ega bo'lganligi sababli (ba'zilari kg, boshqalari km, boshqalari pul birliklari va boshqalar), ularni solishtirish, ta'sir darajasini, operatsiyani solishtirish. masshtablash va markazlashtirishdan foydalaniladi. O'zgartirilgan kiritish omillarini quyidagicha belgilaymiz y ij. Standart (o'rtacha kvadrat) og'ishlarning qiymatlari ko'pincha shkala sifatida tanlanadi:

bu erda s j - X j ning standart og'ishi; s j 2 - dispersiya; - kuzatuvlarning ushbu j-chi qatoridagi boshlang'ich omillarning o'rtacha qiymati

(Markazlangan tasodifiy miqdor - bu tasodifiy o'zgaruvchining matematik kutilganidan chetga chiqishi. X qiymatini normallashtirish yangi y qiymatiga o'tishni anglatadi, uning o'rtacha qiymati nolga teng va dispersiya bitta).

Juftlik korrelyatsiya koeffitsientlari matritsasini aniqlaymiz

bu erda y ij - i-o'lchov uchun x j --chi tasodifiy miqdorning normallashtirilgan va markazlashtirilgan qiymati; y ik – qiymati k-chi tasodifiy miqdorlar.

r jk qiymati regressiya chizig'iga nisbatan nuqtalarning tarqalish darajasini tavsiflaydi.

F asosiy komponentlarning kerakli matritsasi quyidagi munosabatdan aniqlanadi (bu yerda biz y ij miqdorlarning ko‘chirilgan, “90 0 ga aylantirilgan” matritsasidan foydalanamiz):

yoki vektor shaklidan foydalanish:

,

Bu erda F - to'plamni o'z ichiga olgan asosiy komponentlar matritsasi n uchun olingan qiymatlar m asosiy komponentlar; A matritsasining elementlari - har bir asosiy komponentning dastlabki omillardagi ulushini aniqlaydigan og'irlik koeffitsientlari.

A matritsaning elementlari quyidagi ifodadan topiladi

bu yerda u j - korrelyatsiya koeffitsienti R matrisasining xos vektori; l j - mos keladigan xos qiymat.

Ru = lu bo'lgan m o'lchovli nolga teng bo'lmagan u xos vektorni tanlash mumkin bo'lsa, l soni m tartibli R kvadrat matritsaning xos qiymati (yoki xarakteristik soni) deb ataladi.

R matritsasining barcha xos qiymatlari to'plami |R - lE| tenglamaning barcha yechimlari to'plamiga to'g'ri keladi. = 0. Determinant det |R - lE|ni kengaytirsak, R matritsaning xarakterli ko‘phadini olamiz. |R - lE| tenglamasi. = 0 R matritsaning xarakteristik tenglamasi deyiladi.

Xususiy qiymatlar va xos vektorlarni aniqlashga misol. Matritsa berilgan.

Uning xarakteristik tenglamasi

Bu tenglamaning ildizlari l 1 =18, l 2 =6, l 3 =3. l 3 ga mos keladigan xos vektor (yo‘nalish) topilsin. Tizimga l 3 ni almashtirsak, biz quyidagilarni olamiz:

8u 1 – 6u 2 +2u 3 = 0

6u 1 + 7u 2 - 4u 3 = 0

2u 1 - 4u 2 + 3u 3 = 0

Ushbu tizimning determinanti nolga teng bo'lganligi sababli, chiziqli algebra qoidalariga ko'ra, siz oxirgi tenglamadan voz kechishingiz va natijada olingan tizimni ixtiyoriy o'zgaruvchiga nisbatan echishingiz mumkin, masalan u 1 = c = 1

6 u 2 + 2u 3 = - 8c

7 u 2 – 4 u 3 = 6 s

Bu yerdan l 3 =3 uchun xos yo‘nalishni (vektor) olamiz

1 xuddi shu tarzda xos vektorlarni topishingiz mumkin

Umumiy printsip Asosiy komponentlarni topishning asosiy tartibi rasmda ko'rsatilgan. 29.



Guruch. 29. Asosiy komponentlarning o‘zgaruvchilar bilan bog‘lanish sxemasi

Og'irlik koeffitsientlari berilgan "yashirin" umumlashtiruvchi xususiyatning (global kontseptsiya) X j o'lchangan ko'rsatkichlar qiymatlariga ta'sir qilish darajasini (va yo'nalishini) tavsiflaydi.

Komponentlarni tahlil qilish natijalarini sharhlash misoli:

F 1 asosiy komponentining nomi uning tarkibida X 1, X 2, X 4, X 6 muhim xususiyatlarning mavjudligi bilan belgilanadi, ularning barchasi ishlab chiqarish faoliyati samaradorligining xususiyatlarini ifodalaydi, ya'ni. F 1 - ishlab chiqarish samaradorligi.

F2 asosiy komponentining nomi uning tarkibida X3, X5, X7 muhim xususiyatlar mavjudligi bilan belgilanadi, ya'ni. F 2 ishlab chiqarish resurslarining hajmi.

XULOSA

Qo'llanma o'z ichiga oladi o'quv materiallari, boshqaruv qarorlarini asoslash uchun iqtisodiy va matematik modellashtirishni o'zlashtirish uchun mo'ljallangan. Ko'p e'tibor matematik dasturlash, jumladan, butun sonli dasturlash, chiziqli bo'lmagan dasturlash, dinamik dasturlash, transport tipidagi muammolar, navbat nazariyasi va asosiy komponentlar usuliga bag'ishlangan. Ishlab chiqarish tizimlarini tashkil etish va boshqarish amaliyotida, biznes va moliyaviy boshqaruvda modellashtirish batafsil ko'rib chiqiladi. Taqdim etilgan materialni o'rganish PRIMA dasturiy paketidan foydalangan holda va Excel elektron jadval muhitida modellashtirish va hisoblash texnikasidan keng foydalanishni o'z ichiga oladi.

Asosiy komponent usuli(PCA - Asosiy komponentlar tahlili) ma'lumotlarning minimal yo'qotilishi bilan ma'lumotlar hajmini kamaytirishning asosiy usullaridan biridir. 1901 yilda Karl Pirson tomonidan ixtiro qilingan u ko'plab sohalarda keng qo'llaniladi. Masalan, ma'lumotlarni siqish uchun "kompyuterni ko'rish", ko'rinadigan tasvirni aniqlash va boshqalar. Asosiy komponentlarni hisoblash dastlabki ma'lumotlarning kovariatsiya matritsasining xos vektorlari va xos qiymatlarini hisoblashga to'g'ri keladi. Asosiy komponent usuli ko'pincha deyiladi Karxunen-Lyove o'zgarishi(Karxunen-Loeve o'zgarishi) yoki Mehmonxona konvertatsiyasi(Mehmonxonani o'zgartirish). Bu masala ustida matematiklar Kosambi (1943), Pugachev (1953), Obuxova (1954) ham ishlagan.

Asosiy komponent tahlilining vazifasi ma'lumotlarni pastki o'lchamdagi chiziqli manifoldlar bo'yicha yaqinlashtirishga (yaqinlashtirishga) qaratilgan; ma'lumotlarning tarqalishi (ya'ni o'rtacha qiymatdan standart og'ish) maksimal bo'lgan ortogonal proyeksiyada pastki o'lchamdagi pastki bo'shliqlarni toping; ortogonal proyeksiyada nuqtalar orasidagi o'rtacha kvadrat masofa maksimal bo'lgan pastki o'lchamdagi pastki bo'shliqlarni toping. Bunday holda, ular cheklangan ma'lumotlar to'plami bilan ishlaydi. Ular ekvivalentdir va ma'lumotlarning statistik ishlab chiqarilishi haqida hech qanday gipotezadan foydalanmaydi.

Bundan tashqari, asosiy komponentlar tahlilining vazifasi berilgan ko'p o'lchovli tasodifiy o'zgaruvchi uchun koordinatalarning shunday ortogonal o'zgarishini qurish bo'lishi mumkin, natijada alohida koordinatalar orasidagi korrelyatsiya nolga aylanadi. Ushbu versiya tasodifiy o'zgaruvchilar bilan ishlaydi.

3-rasm

Yuqoridagi rasmda tekislikdagi P i nuqtalari ko'rsatilgan, p i P i dan AB to'g'ri chiziqgacha bo'lgan masofa. Biz yig'indini minimallashtiruvchi AB to'g'ri chiziqni qidiramiz

Asosiy komponentlar usuli chekli nuqtalar to‘plamini to‘g‘ri chiziqlar va tekisliklar orqali eng yaxshi yaqinlashtirish (yaqinlashtirish) masalasidan boshlandi. Masalan, vektorlarning chekli to'plami berilgan. Har bir k = 0,1,...,n uchun? Barcha k o‘lchamli chiziqli manifoldlar orasida 1-o‘rinni toping, shunda L k dan x i kvadrat og‘ishlar yig‘indisi minimal bo‘ladi:

Qayerda? Nuqtadan chiziqli manifoldgacha bo'lgan Evklid masofasi.

Har qanday k o'lchovli chiziqli manifold chiziqli birikmalar to'plami sifatida aniqlanishi mumkin, bu erda i parametrlari haqiqiy chiziq bo'ylab ishlaydi, ha? vektorlarning ortonormal to'plami

Evklid normasi qayerda? Evklid nuqta mahsuloti yoki koordinatali shaklda:

k = 0,1,...,n uchun yaqinlashish masalasining yechimi? 1 ichki chiziqli manifoldlar to'plami bilan berilgan

Bu chiziqli manifoldlar ortonormal vektorlar to'plami (asosiy komponent vektorlari) va a 0 vektori bilan aniqlanadi. L 0 uchun minimallashtirish masalasining yechimi sifatida a 0 vektori qidiriladi:

Natija o'rtacha namunadir:

Frantsuz matematigi Moris Frechet Frechet Moris Rene (09.02.1878 - 06.04.1973) - taniqli frantsuz matematiki. Topologiya va funksional tahlil, ehtimollar nazariyasi sohasida ishlagan. Haqida zamonaviy tushunchalar muallifi metrik fazo, kompaktlik va to'liqlik. Avtomatik. 1948 yilda u ma'lumotlar nuqtalarigacha bo'lgan kvadrat masofalar yig'indisini minimallashtiradigan nuqta sifatida o'rtachaning variatsion ta'rifi ixtiyoriy metrik fazoda statistik ma'lumotlarni yaratish uchun juda qulay ekanligini payqadi va u umumiy bo'shliqlar uchun klassik statistikaning umumlashtirilishini qurdi. , umumlashtirilgan eng kichik kvadratlar usuli deb ataladi.

Asosiy komponentlarning vektorlari shu kabi optimallashtirish muammolariga yechim sifatida topilishi mumkin:

1) ma'lumotlarni markazlashtirish (o'rtachani olib tashlash):

2) masala yechimi sifatida birinchi asosiy komponentni toping;

3) Ma'lumotlardan birinchi asosiy komponentga proyeksiyani ayiring:

4) masalaning yechimi sifatida ikkinchi asosiy komponentni toping

Agar yechim noyob bo'lmasa, ulardan birini tanlang.

2k-1) (k ? 1) bosh komponentga proyeksiyani ayirish (esda tutingki, oldingi (k ? 2) asosiy komponentlarga proyeksiyalar allaqachon ayirib tashlangan):

2k) topamiz k. asosiy Muammoni hal qilish uchun komponent:

Agar yechim noyob bo'lmasa, ulardan birini tanlang.

Guruch. 4

Birinchi asosiy komponent ma'lumotlar proektsiyasining namunaviy farqini maksimal darajada oshiradi.

Misol uchun, bizga ma'lumotlar vektorlarining markazlashtirilgan to'plami berilsin, bu erda o'rtacha arifmetik x i nolga teng. Vazifa? Quyidagi shartlar to'g'ri bo'ladigan yangi koordinatalar tizimiga ortogonal transformatsiyani toping:

1. Birinchi koordinata (asosiy komponent) bo'yicha ma'lumotlarning tanlanma dispersiyasi maksimal;

2. Ikkinchi koordinata (ikkinchi asosiy komponent) bo'yicha ma'lumotlarning tanlanma dispersiyasi birinchi koordinataga ortogonallik sharti bilan maksimal;

3. Birinchi k ga ortogonallik sharti bilan k-chi koordinataning qiymatlari bo'yicha ma'lumotlarning namunaviy dispersiyasi maksimal bo'ladi? 1 koordinata;

Normallashtirilgan vektor a k tomonidan belgilangan yo'nalish bo'yicha ma'lumotlarning namunaviy dispersiyasi

(ma'lumotlar markazlashtirilganligi sababli, bu erda tanlov dispersiyasi noldan og'ishning o'rtacha kvadrati bilan bir xil).

Eng yaxshi moslash masalasini hal qilish juda oddiy sababga ko'ra eng katta tarqalish bilan ortogonal proyeksiyalarni topish kabi asosiy komponentlar to'plamini beradi:

va birinchi had a k ga bog'liq emas.

Ma'lumotlarni asosiy komponentlarga aylantirish matritsasi asosiy komponentlarning "A" vektorlaridan tuzilgan:

Bu yerda a i asosiy komponentlarning ortonormal ustunli vektorlari bo‘lib, o‘z qiymatlarining kamayish tartibida joylashtirilgan, T ustki belgisi transpozitsiyani bildiradi. A matritsa ortogonal: AA T = 1.

Transformatsiyadan so'ng, ma'lumotlar o'zgarishining aksariyati birinchi koordinatalarda to'planadi, bu esa qolganlarini tashlab, qisqartirilgan o'lchamli bo'shliqni ko'rib chiqishga imkon beradi.

Asosiy komponentlarni tanlashning eng qadimgi usuli Kayzer qoidasi, Kaiser Johann Henrich Gustav (16.03.1853, Brezno, Prussiya - 10.14.1940, Germaniya) - atoqli nemis matematigi, fizigi, spektral tahlil sohasidagi tadqiqotchisi. Avtomatik. unga ko'ra, muhim bo'lgan asosiy komponentlar

ya'ni l i o'rtacha qiymatdan oshadi l (ma'lumotlar vektori koordinatalarining o'rtacha tanlanma dispersiyasi). Kaiser qoidasi yaxshi ishlaydi oddiy holatlar, l i bilan bir nechta asosiy komponentlar mavjud bo'lganda, o'rtacha qiymatdan ancha katta va qolgan o'ziga xos qiymatlar undan kichik bo'ladi. Murakkab holatlarda u juda ko'p muhim asosiy komponentlarni ishlab chiqishi mumkin. Agar ma'lumotlar o'qlar bo'ylab birlik tanlama dispersiyasiga normallashtirilsa, Kayzer qoidasi juda oddiy shaklga ega bo'ladi: faqat l i > 1 muhim bo'lgan asosiy komponentlar.

Talab qilinadigan asosiy komponentlar sonini baholashning eng mashhur evristik yondashuvlaridan biri buzilgan qamish qoidasi, birlik yig'indisiga (, i = 1,...n) normallashtirilgan xos qiymatlar to'plami n da singan birlik uzunlikdagi qamishning bo'laklari uzunligi taqsimoti bilan taqqoslaganda? Tasodifiy tanlangan 1-nuqta (sindirish nuqtalari mustaqil ravishda tanlanadi va qamish uzunligi bo'ylab teng taqsimlanadi). Agar L i (i = 1,...n) hosil bo‘lgan qamish bo‘laklarining uzunliklari bo‘lib, ularning uzunligining kamayish tartibida raqamlangan bo‘lsa: , u holda L i ning matematik kutilishi:

Keling, 5-o'lchamdagi singan qamish qoidasidan foydalanib, asosiy komponentlar sonini baholashni o'z ichiga olgan misolni ko'rib chiqaylik.

Guruch. 5.

Buzilgan qamish qoidasiga ko'ra k-o'z vektor (xususiy qiymatlarning kamayish tartibida l i) asosiy komponentlar ro'yxatida saqlanadi, agar

Yuqoridagi rasmda 5 o'lchovli holat uchun misol ko'rsatilgan:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 =(1/3+1/4+1/5)/5;

l 4 =(1/4+1/5)/5; l 5 =(1/5)/5.

Masalan, tanlangan

0.5; =0.3; =0.1; =0.06; =0.04.

Buzilgan qamish qoidasiga ko'ra, ushbu misolda siz ikkita asosiy komponentni qoldirishingiz kerak:

Yodda tutish kerak bo'lgan narsa shundaki, buzilgan qamish qoidasi muhim asosiy komponentlar sonini kam baholaydi.

Birinchi k asosiy komponentlar c proyeksiyasidan so'ng, o'qlar bo'ylab birlik (namuna) dispersiyasini normallashtirish qulay. I-bosh komponent bo'yicha dispersiya teng), shuning uchun normallashtirish uchun tegishli koordinatani ga bo'lish kerak. Ushbu transformatsiya ortogonal emas va nuqta mahsulotini saqlamaydi. Normallashgandan so'ng ma'lumotlar proyeksiyasining kovariatsiya matritsasi birlikka aylanadi, har qanday ikkita ortogonal yo'nalishdagi proyeksiyalar mustaqil kattaliklarga aylanadi va har qanday ortonormal bazis asosiy komponentlarning asosiga aylanadi (esda tutingki, normallashtirish vektorlarning ortogonallik munosabatlarini o'zgartiradi). Manba ma'lumotlar bo'shlig'idan birinchi k asosiy komponentlargacha bo'lgan xaritalash normalizatsiya bilan birga matritsa tomonidan beriladi.

Aynan shu transformatsiya ko'pincha Karxunen-Loeve transformatsiyasi deb ataladi, ya'ni asosiy komponent usulining o'zi. Bu yerda a i ustun vektorlari, T ustki belgisi esa transpozitsiyani bildiradi.

Statistikada asosiy komponent usulidan foydalanganda bir nechta maxsus atamalar qo'llaniladi.

Ma'lumotlar matritsasi, bu erda har bir satr oldindan ishlangan ma'lumotlar vektori (markazlashtirilgan va to'g'ri normallashtirilgan), qatorlar soni m (ma'lumotlar vektorlari soni), ustunlar soni n (ma'lumotlar maydonining o'lchami);

Yuklash matritsasi(Yuklashlar), bunda har bir ustun asosiy komponent vektori, qatorlar soni n (maʼlumotlar maydonining oʻlchami), ustunlar soni k (proyeksiya uchun tanlangan asosiy komponent vektorlari soni);

Hisob matritsasi(ballar)

bu erda har bir chiziq ma'lumotlar vektorining k asosiy komponentlarga proyeksiyasi; qatorlar soni - m (ma'lumotlar vektorlari soni), ustunlar soni - k (proyeksiya uchun tanlangan asosiy komponent vektorlari soni);

Z-ball matritsasi(Z ball)

bu erda har bir satr ma'lumotlar vektorining k asosiy komponentlarga proyeksiyasi bo'lib, birlik tanlama dispersiyasiga normallashtirilgan; qatorlar soni - m (ma'lumotlar vektorlari soni), ustunlar soni - k (proyeksiya uchun tanlangan asosiy komponent vektorlari soni);

Xato matritsasi (qoldiqlari) (Xatolar yoki qoldiqlar)

Asosiy formula:

Shunday qilib, asosiy komponent usuli matematik statistikaning asosiy usullaridan biridir. Uning asosiy maqsadi ma'lumotlar to'plamini ulardan minimal foydalanish bilan o'rganish zarurligini farqlashdir.

Tahlil uchun boshlang'ich nuqta ma'lumotlar matritsasi hisoblanadi

o'lchamlari
, uning i-qatori barcha k ko'rsatkichlar uchun i-chi kuzatuvni (ob'ektni) tavsiflaydi.
. Manba ma'lumotlari normallashtiriladi, ular uchun ko'rsatkichlarning o'rtacha qiymatlari hisoblanadi
, shuningdek, standart og'ish qiymatlari
. Keyin normallashtirilgan qiymatlar matritsasi

elementlar bilan

Juftlik korrelyatsiya koeffitsientlari matritsasi hisoblanadi:

Birlik elementlari matritsaning asosiy diagonalida joylashgan
.

Komponentlarni tahlil qilish modeli dastlabki normallashtirilgan ma'lumotlarni asosiy komponentlarning chiziqli birikmasi sifatida ifodalash orqali tuziladi:

Qayerda - "og'irlik", ya'ni. omil yuklanishi th asosiy komponenti yoqilgan - o'zgaruvchi;

-ma'nosi uchun asosiy komponent -kuzatish (obyekt), bu yerda
.

Matritsa shaklida model shaklga ega

Bu yerga
- o'lchamning asosiy komponentlari matritsasi
,

- bir xil o'lchamdagi omillar yuklamalari matritsasi.

Matritsa
tasvirlaydi kosmosdagi kuzatuvlar asosiy komponentlar. Bunday holda, matritsa elementlari
normallashtiriladi va asosiy komponentlar bir-biri bilan bog'liq emas. Bundan kelib chiqadi
, Qayerda - o'lchov birligi matritsasi
.

Element matritsalar asl o‘zgaruvchi orasidagi chiziqli munosabatning yaqinligini xarakterlaydi va asosiy komponent , shuning uchun qiymatlarni oladi
.

Korrelyatsiya matritsasi omillar yuklamalari matritsasi orqali ifodalanishi mumkin .

Birliklar korrelyatsiya matritsasining asosiy diagonali bo'ylab joylashgan bo'lib, kovariatsiya matritsasiga o'xshab, ular ishlatilgan diagonallarning dispersiyalarini ifodalaydi. -xususiyatlari, lekin ikkinchisidan farqli o'laroq, normalizatsiya tufayli bu dispersiyalar 1 ga teng. Butun tizimning umumiy dispersiyasi -namuna hajmidagi xususiyatlar
bu birliklarning yig'indisiga teng, ya'ni. korrelyatsiya matritsasi iziga teng
.

Korrelyatsiya matritsasi diagonal matritsaga, ya'ni diagonallardan tashqari barcha qiymatlari nolga teng bo'lgan matritsaga aylantirilishi mumkin:

,

Qayerda
- asosiy diagonalida xos qiymatlar joylashgan diagonal matritsa korrelyatsiya matritsasi, - ustunlari korrelyatsiya matritsasining xos vektorlari bo'lgan matritsa . R matritsasi musbat aniq bo'lgani uchun, ya'ni. uning etakchi voyaga etmaganlari ijobiy, keyin barcha o'z qiymatlari
har qanday uchun
.

Xususiy qiymatlar xarakteristik tenglamaning ildizlari sifatida topiladi

Xususiy vektor , xos qiymatga mos keladi korrelyatsiya matritsasi , tenglamaning nolga teng bo'lmagan yechimi sifatida aniqlanadi

Normallashtirilgan xos vektor teng

Diagonal bo'lmagan atamalarning yo'qolishi xususiyatlarning bir-biridan mustaqil bo'lishini anglatadi (
da
).

Butun tizimning umumiy farqi namunaviy populyatsiyadagi o'zgaruvchilar bir xil bo'lib qoladi. Biroq, uning qiymatlari qayta taqsimlanadi. Ushbu dispersiyalarning qiymatlarini topish tartibi xususiy qiymatlarni topishdir har biri uchun korrelyatsiya matritsasi -belgilar. Ushbu xos qiymatlarning yig'indisi
korrelyatsiya matritsasining iziga teng, ya'ni.
, ya'ni o'zgaruvchilar soni. Ushbu o'ziga xos qiymatlar xususiyatlarning o'zgaruvchan qiymatlari
belgilar bir-biridan mustaqil bo'lgan sharoitlarda.

Asosiy komponent usulida korrelyatsiya matritsasi birinchi navbatda dastlabki ma'lumotlardan hisoblanadi. Keyin u ortogonal o'zgartiriladi va bu orqali omil yuklamalari topiladi Barcha uchun o'zgaruvchilar va
omillar (omillar yuklamalari matritsasi), xos qiymatlar va omillarning og'irliklarini aniqlang.

Faktor yuklash matritsasi A quyidagicha aniqlanishi mumkin
, A A matritsasining ustuni - kabi
.

Faktorlarning og'irligi
yoki
ushbu omil tomonidan qo'shilgan umumiy dispersiyaning ulushini aks ettiradi.

Faktor yuklamalari -1 dan +1 gacha o'zgarib turadi va korrelyatsiya koeffitsientlariga o'xshashdir. Faktorlarni yuklash matritsasida Student t testi yordamida muhim va ahamiyatsiz yuklarni aniqlash kerak.
.

Kvadrat yuklar yig'indisi - hamma narsada - birinchi omil -xususiyatlar berilgan omilning xos qiymatiga teng
. Keyin
-j-chi omil hosil bo‘lishida i-chi o‘zgaruvchining % dagi hissasi.

Bir qator uchun barcha omillar yuklamalarining kvadratlari yig'indisi bittaga, bitta o'zgaruvchining umumiy dispersiyasiga va barcha o'zgaruvchilar uchun barcha omillarning umumiy dispersiyaga teng (ya'ni, korrelyatsiya matritsasining izi yoki tartibi yoki uning xos qiymatlari yig'indisi)
.

Umuman olganda, i-atributning omil tuzilmasi shaklda keltirilgan
, bu faqat muhim yuklarni o'z ichiga oladi. Faktorlarni yuklash matritsasidan foydalanib, siz quyidagi formuladan foydalanib, asl namunadagi populyatsiyaning har bir kuzatuvi uchun barcha omillarning qiymatlarini hisoblashingiz mumkin:

,

Qayerda - t-kuzatuv uchun j-chi omilning qiymati, -asl namunadagi t-kuzatishning i-xususiyatining standartlashtirilgan qiymati; - omil yuki, – j omilga mos keladigan xos qiymat. Bu hisoblangan qiymatlar faktorli tahlil natijalarini grafik tasvirlash uchun keng foydalaniladi.

Faktor yuklamalari matritsasi yordamida korrelyatsiya matritsasini qayta qurish mumkin:
.

O'zgaruvchining asosiy komponentlari bilan izohlangan dispersiya qismi umumiylik deb ataladi.

,

Qayerda - o'zgaruvchan raqam va - asosiy komponentning soni. Faqat asosiy tarkibiy qismlardan tiklangan korrelyatsiya koeffitsientlari mutlaq qiymatdagi asl koeffitsientlardan kamroq bo'ladi va diagonalda ular 1 emas, balki umumiyliklarning qiymatlari bo'ladi.

Maxsus hissa - asosiy komponent formula bilan aniqlanadi

.

Hisoblangan umumiy hissa
ifodadan asosiy komponentlar aniqlanadi

.

Odatda tahlil qilish uchun ishlatiladi
birinchi asosiy komponentlar, ularning umumiy dispersiyaga hissasi 60-70% dan oshadi.

Faktor yuklash matritsasi A, odatda 0,5 dan katta qiymatlarni hisobga olgan holda asosiy komponentlarni izohlash uchun ishlatiladi.

Asosiy komponentlarning qiymatlari matritsa bilan belgilanadi



© mashinkikletki.ru, 2024
Zoykin retikulasi - Ayollar portali