Jarmo Heinosen Opetussivut

by Heinosen opetussivut

SPSS on tilasto-ohjelma joka rakentuu moduuleista (perusosa, professional statistics, advanced statistics, conjoint jne.), joita voi ostaa tarpeen vaatiessa lisää. Versiosta 6.1.3 alkaen ohjelma on tarvinnut tuekseen Windows 95 -käyttöliittymän. SPSS on varsin suosittu ja sitä käytetään muiden tilasto-ohjelmien ohella monissa ammattikorkeakouluissa, yliopistoissa ja korkeakouluissa. Ohjelman kotisivu löytyy osoitteesta http://www.spss.com/

 

Edelliseen kotisivuun liittyen:

 

What does "SPSS" stand for?

 

The letters "SPSS" mean something different today than they did when the product was conceived. When SPSS was founded in 1968, SPSS Chairman of the Board Norman H. Nie collaborating with C. Hadlai (Tex) Hull and Dale Bent, two of his fellowStanford University graduate students, developed the first SPSS program. They named it "Statistical Package for the Social Sciences," or "SPSS." As the "package" has grown into a multinational product serving a wide variety of users and the business has evolved from its academic roots to a leading enterprise providing analytical solutions of today, we simply use the "SPSS Inc." for the company and "SPSS" for the original product

 

 

SPSS Inc. Corporate History

 

1968: The first SPSS product was developed in the late 1960s, SPSS Inc. Chairman of the Board Norman H. Nie, C. Hadlai (Tex)Hull and Dale Bent, three Stanford University graduate students, developed the SPSS statistical software system. In 1968, Nie and his colleagues founded SPSS Inc. In 1975, SPSS Inc. incorporated and established headquarters in Chicago, where the company remains today.

 

SPSS Inc. operated primarily on large computing systems until 1984, when SPSS Inc. introduced SPSS/PC+ for personal computers. Then in 1992, SPSS Inc. became the first major statistical software developer to offer a product for Microsoft Windows, which was followed by a Windows 95 release in 1995. Throughout this time, SPSS expanded internationally, and began offering certain products in local-language versions. The company offers its flagship product, SPSS for Windows, in nine languages.

 

Between 1994 and 1999, SPSS Inc. completed nine corporate acquisitions: SYSTAT Inc., BMDP Statistical Software, JandelScientific Software, Clear Software, Quantime Ltd., Initive Technologies A/S, Integral Solutions Ltd. and Vento Software Inc. With these acquisitions, SPSS Inc. set the stage to maximize growth potential and focus on four distinct markets.

 

2000: SPSS leads in analytical solutions. Today SPSS provides solutions that discover what customers want and predict what they will do. The company delivers solutions at the intersection of customer relationship management and business intelligence that enable it’s customers to interact with their customers more profitably. SPSS solutions integrate and analyze marketing, customer and operational data in key vertical markets worldwide, including telecommunications, health care, banking, finance, insurance, manufacturing, retail, consumer packaged goods, market research and the public sector.

 

SPSS Inc. has more than 40 offices, over 900 employees and 1999 revenues of $142 million. The company also has won the following awards: No. 70 on Forbes 1999 list of the “200 best small companies” and as the 22nd most profitable company on theNasdaq exchange by Equities magazine; 1999 World Class Solution award in business intelligence and named “best decision support system for business intelligence” in the 1999 RealWare award competition; No. 14 in DM Review's 1999 Data Warehouse Top 100; placed No. 16 on the 2000 Soft·letter 100, a ranking of the top 100 personal computer software companies in the United States; and No. 115 in the 2000 Software 500, a ranking of the world's largest software vendors by Software Magazine. (http://www.spss.com31.12.2000)

Perusnäkymä SPSS ohjelmassa on matriisiruudukko, jonka yläpalkistossa lukee samoja toimintoja kuin Windowsissa: File, Edit,Utilities, Window ja Help. Eroavina ovat Data, Transform, Analyze ja GraphsData valikosta saadaan käsiteltyä tietueita ja muuttujia.Analyze valikko on kaikkein käytetyin SPSS valikko, sillä sen alla ovat kaikki tilastolliset analyysit. Graphs valikko on kuvien muokkaukseen.

 

SPSS ohjelmalla analysointi aloitetaan tavallisesti siten, että aineisto syötetään matriisiin, eli perusnäkymässä näkyvään taulukkoon. Aineisto voidaan siirtää myös suoraan Excel taulukosta; helpoin tapa on leikepöytä komentojen kautta, eli cut, copy ja pastekomennoilla (jotka löytyvät yleensä edit komennon alta Wordissa, Excelissä, SPSS:ssä, Explorerissa, Netscapessa jne.)

 

Perusnäkymän matriisissa näkyy vasemmalla pystysarakkeella juokseva numerointi yhdestä eteenpäin (1,2,3…) Näitä pidetäänSPSS:ssä vastaajina tai vastausjoukkoina, joiden kerätyt tulokset sijoitetaan kunkin vastaajan numeron mukaisesti vaakatasoon. Siirrettäessä Excel taulukossa tehty taulukko SPSS:ään, se täytyy kääntää 90 astetta jos vastaajat on alkujaan syötetty vaakariville (eikä pystyyn).

 

Ylhäällä vaakarivillä näkyy harmaalla pohjalla teksti var. Nämä vaakarivin var:it täydennetään muuttujiksi SPSS 9.0 versiossakaksoisnapauttamalla var tekstiä ja vastaamalla näkyviin tulevan laatikon kohtiin. SPSS 10.0 versiossa matriisin vasempaan alareunaan ilmestyy data view ja variable view valikkotekstit, joiden kautta muuttujat määritellään.

 

SPSS 9.0 versiossa var tekstin kaksoisnapautuksen jälkeen esille ponnahtaa laatikko, jossa ylhäällä lukee Define Variable. Laatikon sisällä näkyy neljä valikkoa; Type, Missing Values, Labels ja Column Format. Tyhjässä ruudussa lukee VAR00001, jota ohjelma ehdottaa ensimmäisen muuttujan nimeksi. Tämä vaihdetaan tutkimukseen paremmin sopivaksi, kunhan muistetaan, että muuttujan nimi ei ylitä kahdeksaa merkkiä, eikä nimessä esiinny skandeja, eli ä, ö ja å kirjaimia.

 

Valikosta Type, voidaan valita muuttujan tyyppi. Ohjelma ehdottaa muuttujalle numeerista (numeric), kahdeksan merkin levyistä tilaa ja kahta desimaalia. Kohdassa Variable Label, muuttujaa voidaan tarkentaa lisäselitteillä (ja myöskin käyttää niissä skandeja). Selite auttaa graafisessa kuvaajassa, sillä tässä kohdassa määritellyt Variable Labels merkinnät tulevat kuvaajassa tai kuviossa näkyviin.

 

Yleensä matriiseissa ei ole puuttuvia arvoja, eli jokaisessa matriisin solussa on joku luku, jota tilastollinen ohjelma kykenee käsittelemään. Valikosta Missing Values puuttuvien arvojen määrittely voidaan korjata (eli kertoa ohjelmalle miten toimia puuttuvien arvojen kanssa).

 

Ohjelman tarjoamia muuttujien arvoja voi vaihtaa valikoiden (Type, Labels, Missing Values, Column Fromat) kautta, klikkaamalla valikkoa ja vaihtamalla asetuksia. Labels valikko on hyödyllinen monessa suhteessa, sillä jälkikäteen voi unohtaa mitä muuttujan arvo 1 esimerkiksi tarkoitti. Labels muuttujaa käyttämällä arvot voi nimikoida, ja  annetut nimet näkyvät myös kuvioissa, taulukoissa ja analyyseissä. Kansainvälinen tapa on, että naisista käytetään arvoa 2 ja miehistä arvoa 1. Yhdysvalloissa tosin näkee joskus käytettävän myös naisista arvoa 0 ja miehistä arvoa 1.

 

Aineiston voi syöttää joko valmiiksi pohjustettuun taulukkoon, käyttämällä edellä mainittuja valikkoja apuna, tai nimetä muuttujat vasta sitten, kun matriisi on täytetty muuttujien arvoilla. Vasemmassa reunassa juokseva numerointi vastaa vastaajan numeroa. Suuren aineiston kanssa vastaajien numerot kannattaa kirjoittaa kysymyslomakkeisiin, jos joutuu jälkeenpäin korjailemaan aineistoaan (eli löytää tuon kysymyslomakkeen  helpommin). Vastaaja kerrallaan syötettäessä, aineisto pysyy helpommin kasassa ja matriisin täyttämisen voi välillä keskeyttää, tietäessään mihin kysymyslomakkeeseen edellisellä kerralla lopetti. Vastaussolusta, eli matriisin ruudukosta toiseen liikkuu helpoimmin nuolinäppäimillä.

 

Matriisin täytyttyä, eli havaintoaineiston siirryttyä taulukkoon, aineisto kannattaa tallentaa. Joissakin vanhoissa SPSS ohjelmissa SPSS taulukon tunnus .sav piti itse lisätä taulukon nimen loppuun, mutta uusimmissa tunnus tulee nimen perään automaattisesti.

 

Lyhyesti, Yli-Luoman  (1997) mukaan uuden datan syöttäminen tapahtuu varsin yksinkertaisesti SPSS for Windows –ohjelmassa. Työvaiheet voitaneen jakaa seuraavasti:

 

1.     Aloita ohjelma

2.     Määrittele muuttujasi

3.     Syötä aineistosi vaakariveittäin

4.     Anna muuttujillesi mahdollisesti uudet nimet, jos VAR000x ei kelpaa.

 

 

1.1 Excel taulukon syöttäminen SPSS:ään

 

Helpoin tapa siirtää Excel taulukko SPSS:ään on copy-paste näppäimien kautta. Jos alkuperäinen aineisto on Excelissä siten, että vastaajat on allekkain (ylhäältä alas) ja vastaajien vastaukset vaakarivillä, siirtäminen on nopea ja melko vaivaton toimenpide: Excel taulukossa maalataan (eli painetaan hiiren vasen nappi alas ja pidetään se painettuna niin kauan kun haluttua aluetta maalataan, eli liikutellaan taulukon päällä pysty- ja sivusuunnassa), painetaan copy näppäintä ja siirrytään SPSS taulukon vasemman kulman ensimmäiseen ruutuun tai matriisin soluun. Sitten klikataan paste näppäintä.

 

Excel taulukosta täytyy vain muistaa jättää ulkopuolelle ylin vaakapalkki, eli se jolta löytyvät muuttujien nimet, sillä SPSS ei ymmärrä näitä määritteitä, vaan ne täytyy siirtää erikseen var soluihin.

Hajontaluvut

Hajontalukujen tarkoituksena on kuvailla, kuinka hajallaan muuttujasta tehdyt mittaukset ovat.

 

Vaihteluväli eli variaatioväli

Hajontaluvuissa yksinkertaisin on vaihteluväli eli variaatioväli. Se on pienimmän ja suurimman havaintoarvon muodostama väli. Vaihteluvälin leveys on suurimman ja pienimän havaintoarvon erotus.

 

Kvartiiliväli

Koska vaihteluväli riippuu vain kahdesta äärihavainnosta havaintoaineistossa, niin joskus käytetään vaihteluvälin muunnosta, joka käsittää keskimmäiset 50 % havainnosta. Tätä kutsutaan kvartiiliväliksi.

 

Keskipoikkeama

Keskipoikkeamaa tarvitaan, kun halutaan käyttää kaikkia havaintoarvoja. Keskipoikkeama on lukujen keskimääräinen etäisyys keskiarvosta. Se lasketaan jakamalla havaintojen aritmeettisesta keskiarvosta laskettujen poikkeamien itseisarvojen summa havaintojen lukumäärällä.

 

Keskihajonta eli standardipoikkeama

Tärkein ja eniten käytetty hajontaluku on keskihajonta. Sen avulla saadaan tietoa havaintoarvojen poikkeamisesta keskiarvosta.

 

Varianssi

Varianssia käytetään lähinnä tilastotieteen teoreettisissa tarkasteluissa, koska sitä on vaikea havainnollistaa. Varianssi on keskihajonnan neliö ja keskihajonta on puolestaan varianssin neliöjuuri. Keskihajonta on samaa laatua kuin tarkasteltava muuttuja, mutta varianssin laatu on muuttujan laadun neliö. Siksi keskihajonta on varianssia luontevampi hajonnan tunnusluku.

 

Vaihtelukerroin eli variaatiokerroin

Variaatiokertoimen avulla saadaan eri suuruusluokkaa olevien muuttujien tai jopa eri mittayksikköä käyttävien muuttujien arvojen hajonnat vertailukelpoisiksi. Se lasketaan keskihajonnan ja keskiarvon suhteena ja ilmoitetaan usein prosentteina.

 

3.1 Hypoteesien testaus

 

Lähes kaikkeen tutkimustoimintaan liittyy tiettyjen olettamusten tai väitteiden (hypoteesien) todenperäisyyden testaaminen. Hypoteesien testauksessa pyritään selvittämään tiettyjen ennakkokäsitysten paikkansa pitävyyttä jossakin perusjoukossa.

 

Testauksessa tutkitaan kahta vaihtoehtoa, joista toista nimitetään nollahypoteesiksi ja toista vaihtoehtoiseksi hypoteesiksi. Nollahypoteesi ilmaisee yleensä parametrien yksinkertaisimman asetelman. Vaihtoehtoinen hypoteesi voi olla joko yksisuuntainen tai kaksisuuntainen. Kaksisuuntaista vaihtoehtoista hypoteesia käytetään, kun parametreista ei ole käytettävissä mitään vankkaa etukäteisinformaatiota. Nollahypoteesi pyritään hylkäämään, jolloin vaihtoehtoinen hypoteesi tulee voimaan.

 

Testaus suoritetaan laskemalla käytettävän testimuuttujan arvo yhdestä tai useammasta satunnaisotoksesta. Testimuuttujan arvoalue jakaantuu kahteen alueeseen: hyväksymisalueeseen ja hylkäämisalueeseen eli kriittiseen alueeseen. Näitä alueita vastaavat testimuuttujan arvot on taulukoitu. Jos laskettu testimuuttujan arvo osuu hyväksymisalueelle, nollahypoteesi H0 hyväksytään, ja jos muuttujan arvo osuu hylkäämisalueelle H0 hylätään.

 

Nollahypoteesia testattaessa päätetään etukäteen, kuinka suuri riski otetaan, että tehdään hylkäämisvirhe. Hylkäämisvirheen tekemisen todennäköisyyttä sanotaan merkitsevyystasoksi (riskitodennäköisyys). Käytetyimmät merkitsevyystasot ovat 5% (tilastollisesti melkein merkitsevä), 1 % (tilastollisesti merkitsevä) 0,1 % (tilastollisesti erittäin merkitsevä).

 

Nollahypoteesin hylkääminen merkitsevyystasolla A tarkoittaa, että tehdään väärä johtopäätös todennäköisyydellä A. Nollahypoteesin hylkääminen perustuu testimuuttujan saamaan arvoon. Se hylätään, jos testimuuttujan arvo sijaitsee hylkäämisalueella.

 

 

Nummenmaan ym. (1997) mukaan tilastollisessa päättelyssä standardoidulla normaalijakaumalla on niin keskeinen asema, että sitä voidaan pitää kaikkien jakaumien äitinä. Normaalijakaumasta voidaan johtaa tunnetuimmat tilastollisissa analyyseissä käytetyt jakaumat kuten c2-, t-, ja F- jakaumat. Niiden keskeisyyttä korostaa se, että yleisimmin käytetyt tilastolliset testit noudattavat joitakin edellä mainituista jakaumista. Esimerkiksi klassinen c2 –testi frekvenssitaulukoiden analysoinnissa noudattaa c2 –jakaumaa, tuttu t-testi kahden keskiarvon vertailussa noudattaa t-jakaumaa ja F-testi varianssianalyysissa noudattaa F-jakaumaa. (Nummenmaa, Konttinen, Kuusinen & Leskinen 1997, 32)

 

Kun testi konstruoidaan klassisen testiteorian pohjalta, valitaan ensin merkitsevyystaso A, jota kutsutaan myös riskitasoksi hylätä oikea nollahypoteesi. Yleisesti käytössä olevat merkitsevyystasot ovat (jo aikaisemmin mainitun mukaisesti) 0,05 0,01 ja 0,001. Kun testimuuttujan lauseke ja jakauma on johdettu ja testin merkitsevyystaso A on määrätty, voidaan testimuuttujan saaman arvon perusteella valita joko nollahypoteesi tai sen vastahypoteesi. Näitä periaatteita noudattaen on kehitetty klassiset c2- t- ja F-testit, ja edellä mainittuja merkitsevyystasoja vastaavat testien kriittiset arvot on taulukoitu edellä mainittuja testejä vastaavien jakaumien (kertymäfunktioiden) arvoina.

 

 

3.1.1 p-arvon käyttö

 

Tarkastellaan seuraavassa Fisherin p-arvon käyttöä merkitsevyystestinä. Merkitään testimuuttujaa T:llä; p-arvo (p value) määritellään silloin seuraavasti

p-arvo = P(T >t hav)

Se on todennäköisyys, että testimuuttuja T saisi suuremman arvon kuin mikä on otoksen perusteella saatu T:n havaittu arvo t hav. Näinhän nykyisin jo lähes kaikki tilastolliset ohjelmistot ja ohjelmat tulostavatkin. Fisheriläisen ajattelutavan mukaan ei etukäteen kiinnitetä mitään merkitsevyystasoa vaan tarkastellaan testin saamaa p-arvoa. Jos päätetään hylätä H0 hypoteesi, se tehdään havaitulla merkitsevyystasolla eli saadun p-arvon ilmoittamalla riskillä. Esimerkiksi jos p-arvo = 0.023, H0 hylätään 2,3 %:n merkitsevyystasolla. Jos p-arvo = 0,24, oikean H0:n hylkäämisen riskitaso olisi jo 24 % eikä H0:aa tällaisessa tilanteessa tietenkään hylättäisi, koska tulosta ei pidettäisi tilastollisesti merkitsevänä; p-arvoa voidaan käyttää hypoteesien testaamisessa ja erityisesti tilastollisia malleja rakennettaessa myös eräänä mallin yhteensopivuuden mittana, joka ilmaisee, miten hyvin malli kuvaa aineistoa.

 

Miten sitten käytännön tilastollisissa analyyseissä edellä esitettyjä hyväksy-tai-hylkää. –periaatetta ja p-arvon käyttöä sovelletaan? P-arvon käyttö antaa toisaalta tarkemman, toisaalta väljemmän tavan arvioida testattavia hypoteeseja kuin etukäteen kiinnitettyjen merkitsevyystasojen käyttö hyväksymis-hylkäämisperiaatteella. Tuntuisi kuitenkin sekavalta, jos jokainen p-arvo tulkittaisiin tarkan havaitun merkitsevyystason mielessä. Eräs tapa sitoa klassinen lähestymistapa p-arvoon on se, että tilastolliset merkitsevyysrajat ilmaistaan seuraavasti:

 

*Jos p> 0,10  katsotaan , että aineisto tukee hyvin nollahypoteesia ja se jää voimaan

 

*Jos 0,05 < p-arvo < 0,10   katsotaan, että aineisto tukee vielä nollahypoteesia ja se jää voimaan.

 

*Jos 0,01 < p-arvo < 0,05   katsotaan, ettei aineisto tue tarpeeksi nollahypoteesia. Se hylätään ja vastahypoteesi hyväksytään. Tulosta sanotaan tilastollisesti melkein merkitseväksi.

 

*Jos 0,001 < p-arvo < 0,01  katsotaan, ettei aineisto tue nollahypoteesia, joka hylätään. Tulos on merkitsevä (**).

 

* Jos p-arvo < 0,001 katsotaan, ettei aineisto tue lainkaan nollahypoteesia, joten se hylätään. Tulosta sanotaan tilastollisesti erittäin merkitseväksi (***).

 

 

Tilastollisesti merkitsevästä tuloksesta puhutaan siis vain silloin, kun nollahypoteesi on hylätty. Kun nollahypoteesi hylätään, otetaan 100 p %:n suuruinen riski sille, että johtopäätös on väärä. Viittä suurempia riskejä ei oteta. (Nummenmaa, Konttinen, Kuusinen & Leskinen 1997, 42-43)

 

 

3.1.2 t-testi

 

Studentin t-testi on keskiarvotesti, jolla verrataan otoksesta laskettua keskiarvoa hypoteesin mukaiseen vakioarvoon, tai vertaillaan ryhmien keskiarvoja toisiinsa. T-testi soveltuu kahden ryhmän keskiarvojen vertailuun, ja näiden keskiarvojen täytyy olla toisistaan riippumattomia. Varianssien ei tarvitse olla välttämättä yhtä suuria, eli keskihajonnan arvo voi olla erilainen, vaikkakin testin edellytyksenä on, että muuttujat ovat normaalisti jakautuneet. T-testiä voidaan käyttää pieniin otoksiin.

 

Hypoteesin testauksen jälkeen ei voi olla varma, onko perusjoukkoa koskeva johtopäätös oikea. Sen vuoksi ennen testausta on päätettävä kuinka merkitsevä tulos on. Merkitsevyystaso määrittää kuinka suuri riski otetaan, jos tehdään väärä johtopäätös. Käytetyimmät tasot ovat 5 % tilastollisesti melkein merkitsevä, 1 % tilastollisesti merkitsevä ja 0,1 % tilastollisesti erittäin merkitsevä. Hypoteesin hylkääminen merkitsevyystasolla x, tarkoittaa, että tehdään väärä johtopäätös todennäköisyydellä x.

 

Muuttujasta lasketaan otoksen keskihajonta ja tällöin puhutaan, että muuttuja noudattaa t-jakaumaa vapausastein f=n-1. Vapausasteet määräävät t-jakauman muodon ja se on symmetrinen, kuten normaalijakaumakin.

 

 

Esimerkki:

Taulukko 1. Ensisynnyttäjien lasten ja muiden lasten keskimääräiset painot, painojen keskihajonnat ja keskiarvon keskivirheet SPSS-tulosteena

                                                          Group Statistics

 

                             Onko aikaisempia                                                                                       Std.                       Std Error

                             Synnytyksiä?                                    N                          Mean                    Deviation             Mean

lapsen                   Ei                                                       81                         3295,93                555,30                  61,70

syntymäpaino      Kyllä                                                 161                       3609,75                578,37                  45,58

 

 

Otoksessa ensimmäiset lapset painoivat keskimäärin n. 3300 g ja muut lapset n. 3600 g (taulukko1.). Keskiarvojen välillä näyttäisi olevan eroa, mutta tutkitaan eron tilastollista merkitsevyyttä t-testin avulla. Keskihajonta molemmilla ryhmillä on lähellä toisiaan, joten tässä voitaisiin käyttää varianssianalyysiäkin.

 

 

Ensin testattiin, ovatko ryhmien varianssit tarpeeksi lähellä toisiaan (taulukko 2). Nollahypoteesina on, että varianssit ovat yhtä suuret. Koska sig. = 0,785 (eli reippaasti yli 0,5) jää nollahypoteesi voimaan eli varianssit ovat yhtä suuret. Taulukosta luetaan näin ollen tulokset ensimmäisestä osasta (Equal Variances assumed). Jos varianssien yhtäsuuruustestin sig. –arvo olisi ollut alle valitun riskitason (esimerkiksi 0,05), tehtäisiin tulkinta taulukon alaosasta (Equal variances not assumed). Jos siis varianssit ovat lähellä toisiaan, voidaan käyttää edellä esitettyä varianssianalyysiä tai tätä kahden riippumattoman otoksen t-testiä.

 

Taulukko 2. Ryhmien varianssien vertailu

 

                                                          Independent Samples Test

 

lapsen                   Equal                    Levene´s Test for                              F                                                        ,074

syntymä-             variances              Equality of Variances                        Sig.                                                    ,785

paino                    assumed

                                                          t-test fo Equality of                          t                                                         -4,036

                                                          Means                                               df                                                       240

 

                                                                                                                    Sig. (2-tailed)                                     ,000

 

                                                                                                                    Mean Difference                               -313,83

 

                                                                                                                    Std. Error Difference                         77,75

 

                                                                                                                    95% Confidence          Lower            -466,99

                                                                                                                    Interval of the Mean   Upper           -160,66

 

 

                             Equal                    t-test for Equality of                         t                                                         -4,091

                             variances              Means                                               df                                                       166,377

                             not                                                                                  Sig. (2-tailed)                                     ,000

                             assumed                                           

                                                                                                                    Mean Difference                               -313,83

 

                                                                                                                    Std. Error Difference                         76,71

 

                                                                                                                    95% Confidence          Lower            -465,28

                                                                                                                    Interval of the Mean   Upper           -162,37

 

 

Keskiarvojen erojen merkitsevyyttä osoittava sig. (2-tailed) on 0,000. Ohjelman tulosteessa on kaksisuuntaisen testin merkitsevyystaso ja yksisuuntaisella merkitsevyys on puolet tästä eli myös 0,000. Johtopäätöksenä voidaan sanoa, että ensisynnyttäjien lasten keskimääräinen syntymäpaino on pienempi kuin muiden lasten keskimääräinen syntymäpaino ja ero on tilastollisesti eritäin merkitsevä (p=0,000)

 

Taulukossa on myös keskiarvojen ero sekä eron keskihajonta ja luottamusväli, mutta johtopäätöksen tekoon niitä ei välttämättä tarvita. Keskiarvojen ero voidaan laskea myös taulukosta 1: 3295,93-3609,75 = -313,82 (sadasosan ero taulukon 2 arvoon verrattuna johtuu pyöristyksistä). Keskiarvojen eron luottamusväli ilmoittaa, että 95%:n varmuudella koko perusjoukossa ensisynnyttäjien lapset painavat keskimäärin 161 g – 467 g vähemmän kuin muut syntyneet lapset. (Heikkilä, 1998; Holopainen & Pulkkinen 1995)

 

 

3.1.3 t-testin laskeminen SPSS ohjelmalla

 

Mittayksikön ollessa vähintään välimatka-asteikollinen, eli esimerkiksi hyvä Likert –järjestysasteikko ja aineisto normaalijakauman mukainen, siis kuvaaja muodostaa kauniin kellokäyrän, aineisto on käypä t-testille. t-testi on parhaimmillaan 30- vastaajan otoskokoisille aineistoille.

 

Koska t-testissä on kyse keskiarvojen eroista, analyysi aloitetaan Analyze valikosta. Compare Means alavalikosta löytyy käskyIndependent Samples t test. Klikkaamalla tätä valintaa, ruudulle ponnahtaa uusi valikkoruutu.

 

Independent Samples t test –ruudussa muuttujat on jaettu testattaviin, test variables ja ryhmitteleviin grouping variables muuttujiin. Testattavat muuttujat siirretään ylempään laatikkoon klikkaamalla valittu muuttuja vasemmanpuoleisesta laatikosta ja klikkaamalla sitten tummaksi muuttunutta nuolikuvaa. Ryhmittelevään muuttujaksi valitaan haluttu muuttuja, jonka vaihtoehdot määritelläänDefine Groups laatikossa. T-testissähän verrataan kahden ryhmän keskiarvoja, joten Define Groups valikossa on näkyvissä kaksi nimettävää ryhmää.

 

 

 

3.1.4 Khiin neliö (c2) –testi

 

Khiin neliöllä testataan yhteensopivuutta, esimerkiksi sitä ovatko satunnaisilmiöön liittyvät havainnot sopusoinnussa teoreettisen mallin kanssa. Khiin neliöllä mitataan myös kahden muuttujan välistä riippuvuutta, eli onko kahden muuttujan (tai muuttujaryhmän) välillä tilastollista merkitsevyyttä.

 

Khiin neliön testimuuttujan arvo on sitä suurempi, mitä enemmän teoreettiset ja havaitut frekvenssit poikkeavat toisistaan. Khiinneliön testimuuttuja noudattaa khiin neliön jakaumaa:

 

 

                        c2

 

Testimuuttujan ollessa kriittistä arvoa suurempi, se sijoittuu hylkäämisalueelle ja väittämä/olettamus (nollahypoteesi) hylätään (merkitsevyystaso, vapausasteet).

 

Esimerkin (1) avulla: Tutkitaan lukioluokan tyttöjen ja poikien matematiikan ja kielten osaamista. Aineistoon on valittu kiitettävät arvosanat kummastakin ryhmästä.

 

 

Taulukko 2. Tyttöjen ja poikien kiitettävät arvosanat kielissä ja matematiikassa

 

                                   Pojat          Tytöt                           Summa

 

Kiitettävät                    16              9                                 25

matematiikassa

 

Kiitettävät                    8                20                               28

kielissä

 

Summa                        24              29                               53

 

 

Voiko oheisesta taulukosta (taulukko 2) päätellä, kummat ovat lahjakkaampia matematiikassa tai kielissä?

 

Selvitetään, onko muuttujilla keskinäistä riippuvuutta. Aluksi tarvitaan kunkin solun teoreettiset frekvenssit, eli vaaka ja pystyrivien summat kerrotaan keskenään ja tulo jaetaan kokonaismäärällä.

 

Pojat    (24*25)/53= 11,32                (24*28)/53=12,68

 

Tytöt    (29*25)/53= 13,68               (29*28)/53=15,32

 

Vapausasteita on yksi (1)

 

c2 =   (16-11,32)2  +    (9-13,68)2  +  (8-12,68)2 + (20-15,32)2    =  1,93+1,60+1,72+1,43=

                 11,32                 13,68               12,68               15,32

 

 

                      = 6,68

 

Yhden prosentin merkitsevyystasolla on c2 –jakauman kriittinen arvo 6,635. Koska testimuuttujan arvo on 6,68 > 6,635, nollahypoteesi hylätään. Siis havaintoaineiston perusteella pojat ovat taitavia matematiikassa ja tytöt kielissä.

 

Esimerkki 2. Ravintolassa käy viikon aikana asiakkaita seuraavasti (taulukko 3)

 

Taulukko 3. Asiakasvirrat ravintolassa viikon aikana

 

Viikonpäivä                 ma             ti                ke              to              pe              la

 

f                                  750            550            490            400            790            800

 

 

                

Noudattavatko päivittäiset asiakasmäärät tasaista jakaumaa (taulukko3)?

 

Asetetaan nollahypoteesiksi Ho: kävijämäärät noudattavat tasaista jakaumaa ja vaihtoehtoiseksi hypoteesiksi H1: viikonpäivällä on merkitystä kävijämäärään. Asiakkaita käy viikon aikana 3780, joten teoreettisesti joka päivä käy 3780/6 =630 asiakasta. Siis ei = 630. Taulukoiden havaintoarvot esitellään viikonpäivittäin, ensin havaitut arvot ja sitten oletusarvot (taulukko 4).

 

Taulukko 4. Taulukoiden havaintoarvot

 

Viikonpäivä                 ma             ti                ke              to              pe              la

Havaittu f                    750            550            490            400            790            800

Teoreettinen f              630            630            630            630            630            630

 

Testisuure saa arvon

 

c2 = (750-630)+ (550-630)2 + (490-630)2 + (400-630)2 + (790-630)2 + (800-630)2=

             630                 630            630            630                 630              630

 

22,86 + 10,16 + 31,11 + 83,97 + 40,63 + 45,87 = 234,60

 

Vapausasteluku ilmoittaa toisistaan riippumattomien havaintoarvojen lukumäärän. Asiakkaita käy viikon aikana 3780. Jos tiedetään kävijöiden lukumäärä viitenä päivänä, niin kuudennen päivän kävijämäärä voidaan näiden tietojen perusteella laskea. Muuttujalla c2on tässä tapauksessa 6 – 1 = 5 vapausastetta.  Taulukosta saadaan 5 prosentin riskitasolla kriittiseksi arvoksi 11,070

 

Päätelmä on, että nollahypoteesi hylätään, sillä testimuuttujan arvo 234,60 > 11,07. Viikonpäivällä on vaikutusta kävijämäärään. (Heikkilä 1998; Holopainen & Pulkkinen 1995)

 

Tämä neljännen luvun alku perustuu Pertti V.J. Yli-Luoman (1997) kirjaan Johdatus kvantitatiivisiin analyysimenetelmiin SPSS for Windows -ohjelman avulla ja sen neljänteen lukuun. Tätä osuutta voi hyödyntää SPSS 7.0 ja sitä uudemmissa SPSS versioissa.

 

4.1.         Työstö ja korjaus Yli-Luoman mukaan

 

Kun kerätystä aineistosta muodostetaan uusi datatiedosto analysointia varten, syntyy yleensä erilaisia virhesyöttöjä. Tavallisinta lienee, että syöttämisvaiheessa painetaan esimerkiksi väärää näppäintä. Kun sukupuoli koodataan kahdella numerolla: 1 tai 2 (poika =1, tyttö =2), niin syöttövaiheessa saattaa tapahtua, että kirjoittaja painaakin vahingossa väärää näppäintä, vaikkapa kolmista tai jotain muuta. Kuitenkin on vaikeaa tietää, milloin 1 ja 2 ovat vaihtaneet paikkaa syöttövaiheessa. Näitä nk. Sallittuja arvoja on helpompi etsiä ja korjata.

 

Ei-sallituilla numeroarvoilla tarkoitetaan sellaisia lukuja, joita koodauksessa ei ole käytetty, mutta joita kuitenkin mahdollisesti esiintyy datatiedostossa lähinnä virhesyöttöjen takia. Sukupuolen koodauksessa käytetään yleensä numeroita 1 ja 2. Jos jotain muita arvoja esiintyy, niin ne ovat virhesyöttöjä. Tällaisten virheiden löytäminen on suhteellisen helppoa SPSS for Windows –ohjelman datatiedostosta. Niiden löytämiseksi voidaan käyttää esimerkiksi Frequencies –komentoa. Tämä löytyy Statistics –otsikon alta, kuten yleensä analyysikomennot. Se onkin ensimmäinen otsikko. Ensimmäisenä siinä on Summarize –kokoelma, jonka alta löytyy seitsemän pääsanaa. Näistä voidaan käyttää vaikkapa ensimmäistä Frequencies… -komentoa virhesyöttöjen etsimisessä. KunFrequencies… -komento on aktivoitu, niin aukeaa ikkuna, jossa ensin tehdään valinta muuttujista.

 

Valmiista aineistoa tarkasteltaessa vasemmanpuoleiseen ikkunaan ilmestyy muuttujien nimet. Valittu muuttuja syötetään viereisen nuolen avulla työikkunaan  Variable(s), minkä jälkeen painetaan OK –näppäintä. Huomioi samalla, että muuttujaluettelon alla olevassa ruudussa Display frequency tables on rasti. Vain tällä tavoin saat muuttujista helppolukuisen taulukon ajoraporttiin. OK -näppäimen painamisen jälkeen tuloksena saattaisi olla seuraavanlainen SPSS taulukko (taulukko 5):

Taulukko 5. Muuttujassa SP ainakin 3 virhettä (Yli-Luoma 1997, 29)

SP                 SUKUPUOLI                                                                     Valid               Cum

Value Label                           Value              Frequency       Percent           Percent           Percent

Poika                                                1                           273                       53,7                      53,7                      53,7

Tyttö                                                2                           323                       45,7                      45,7                      99,4

                                                          3                           2                           ,4                          ,4                          99,8

                                                          5                           1                           ,2                          ,2                          100,0

                                                          Total                    508                       100,0                    100,0

 

Valid cases         508                       Missing cases   0

 

Taulukossa (taulukko 5) on havaittavissa seuraavat seikat. Päiväysinformaation jälkeen ajossa ilmoitetaan muuttujan nimi (SP), jonka jälkeen näkyy selkotekstinä SUKUPUOLI, joka teksti on saatu muuttujamäärittelyn yhteydessä antamalle muuttujalle pitempi tunniste kuin mitä itse muuttujalle, joka yleensä halutaan pitää suhteellisen lyhyenä. Toisaalta myös eri numeroarvoilla on omat tunnisteensa kuten 1=poika ja 2=tyttö. Taulukossa (taulukko 5) voidaan kuitenkin havaita myös numeroarvot 3 ja 5. Tosin näitä ei esiinny kovin paljon, mutta esiintyy kuitenkin ja ilman nimikettä. Tämä johtuu luonnollisesti siitä, että ainoastaan tyttöjä ja poikia saisi esiintyä tämän pystysarakkeen alla. Toisin sanoen vain numeroarvot 1 ja 2 ovat sallittuja eli 3 ja 5 ovat virhesyöttöjä. Nämä pitäisi jollain tavoin korjata.

 

Edellä on todettu, että SP -muuttujan alla saisi esiintyä vain numeroarvoja 1 ja 2. kaikki muut numeroarvot ovat virheellisiä ja pitäisi korjata. Frequencies –taulukon avulla on pystytty todentamaan, että virhesyöttöjä on ainakin 3 (2 kpl) ja 5 (1 kpl). Etsitään ensin nämä arvot ko. muuttujan alta. Tässä haussa käytetään hyväksi Edit –ikkunan Search For Data… -komentoa. Kun kyseinen komento aktivoidaan, avautuu uusi ikkuna. Siinä on syötetty etsittävä arvo 3 hakuruutuun (Search for). Huomaa myös, että ko. muuttuja (tässä SP) pitää ensin aktivoida. Tämän voi tehdä klikkaamalla matriisin (vaaka)reunassa harmaapohjaisen muuttujan (tai pystysarakkeen vastaajan numeron) reunamerkkiä. Pysty (tai vaaka) rivi muuttuu samalla mustapohjaiseksi. Hyvä on myös siirtyä data-ruudustossa ensimmäiselle vaakariville (1 vasemmassa laidassa). Tällöin haun tarvitsee tapahtua vain yhteen suuntaan. Jos kuitenkin datatiedostoa on kierrätetty eteenpäin, niin hakukomento kysyy tällöin mihin suuntaan haku suoritetaan: eteen- vai taaksepäin (Search Forward taiSearch Backward).

 

Virhe-etsintä voidaan aloittaa myös seuraavasti:

-Valitse Statistics –ikkuna

-Aktivoi Summarize –kokoelma

-Suorita Descriptives… -komento.

Likertin 4 tai 5 -portaisen asteikon ulkopuoliset luvut tulevat tällöin näkyviin Descriptives komennon avulla. (Yli-Luoma 1997, 27-33) 

 

 

4.2  Työstö ja korjaus Metsämuurosen mukaan

 

Seuraava osuus on lainattu Jari Metsämuurosen (2000) kirjasta SPSS aloittelevan tutkijan käytössä. Tätä osuutta pystyy hyödyntämään uusimmissa SPSS versioissa, eli esimerkiksi SPSS 10.0 versiossa.

 

Aineiston alustavaa tarkastelua varten tarkastamme ensin silmämääräisesti, onko aineiston syötössä tullut virheitä. Mikäli silmämääräisesti arvioiden virheitä ei ole , valitaan yläpalkistosta valikko Analyze ja sieltä alavalikko Descriptive Statistics ja edelleenDescriptives, josta saamme valittavaksi erilaisia tiedostoamme kuvaavia tunnuslukuja.

 

Descriptives ikkunan avauduttua vasemmalla olevasta liukuvalikosta valitaan kaikki muuttujat ja siirretään nuolinäppäimellä Variables–lokeroon. Valitaan Options –painike, josta voimme valita haluamamme aineistoa kuvaavat tunnusluvut.

 

Valittavana on keskilukuja, joista valitsemme keskiarvon (Mean), hajontalukuja, joista keskihajonnan (Std. Deviation) sekä minimi- ja maksimiarvon. Varianssi (Variance), vaihteluväli (Range) ja keskiarvon keskivirhe (S.E. mean) olisi tietysti voitu myös valita, mutta tässä tapauksessa haluamme säästää tutkijan kallista aikaa. Edelleen valittavana olisi jakauman normaalisuutta kuvaavat huipukkuus. (Kurtosis) ja vinousmitat (Skewness). Tässä alustavan tarkastuksen vaiheessa näillä mitoilla ei ole merkitystä. Painetaan valinnan jälkeen Continue –painiketta ja valitaan alkuperäisestä Descriptives –valikosta OK -painike. Tämän valinnan jälkeen SPSS –työkenttä siirtää aktiiviseksi output –ikkunan, jonne ohjautuvat tulostukset.

 

Output –ikkunassa vasemmalla on navigaattori, jonka avulla voi halutessaan suunnistaa katsomaan juuri sitä analyysiä, josta on kiinnostunut. Oikealle puolelle tulee tulostus niistä muuttujista, joista se pyydettiin. Huomaamme myös, että tulostus automaattisesti näyttää muuttujan selitteen. Joskus tämä on kiusallista, kun on nimennyt muuttujat loogisesti. Tulostus voidaan muuttaa käyttämään muuttujaluetteloa oletuksena olevan selitteen sijaan. (Edit- Options)

 

Options –valikosta avautuu monenlaisiin vaihtoehtoihin jakautuva valikko Windowsin tapaan. Täällä voimme Outline labeling –kansiosta valita Label –nimikkeen tilalle Names –nimikkeen. Tällöin tulostuksessa tuleekin näkyviin muuttujien nimet eivätkä selitteet. (Metsämuuronen 2000, 17-19)

Mustosen (1995) mukaan tilastollisen aineiston graafisen esittämisen ongelmat korostuvat moniulotteisessa aineistossa, sillä esimerkiksi monikymmenulotteisen pisteparven litistäminen tasoon tarkkuudesta tinkimättä on täysi mahdottomuus. Kolmiulotteisuus esimerkiksi stereokuvapareina tai kuvaruudulla pyörivinä niin sanottuina spin –kuvina ei tuota juuri mitään lisähyötyä näissä tilanteissa. Parasta on tunnustaa tosiasiat ja esittää se, mikä esitettävissä on, tasossa.

 

Eräät menetelmä tuottavat monen muuttujan aineistoista vähäulotteisia esityksiä esimerkiksi karsimalla tutkittavan ilmiön kannalta tarpeetonta satunnaisuutta. Tällöin menetelmien tuloksia tarkasteltaessa graafiset keinot tulevat paremmin ulottuvillemme.

 

Sopii kysyä, onko moniulotteisen ilmiön graafisessa esittämisessä mitään mieltä, koska itse ilmiöllä on harvoin suoraa suhdetta fysikaaliseen, näkyvään todellisuuteen. Kaikki kuvalliset keinot ovat tällöin täysin sopimuksenvaraisia. On kuitenkin kiistatonta, että ihmisen on jopa huonostikin suunnitellusta kuvallisesta esityksestä helpompi nähdä asioiden välisiä yhteyksiä kuin itse katselemalla pelkkää lukujen muodostamaa havaintomatriisia. Kuvien hahmottamisessa ihminen on jatkuvasti ylivoimainen tehokkaampiinkin tietokoneratkaisuihin verrattuna.

 

Miltei kaikkien kuvallisten keinojen perustana ovat tavanomaiset kaksiulotteiset, suorakulmaiset koordinaattiesitykset, joissa havainnot näkyvät pisteinä tai pisteen laajennuksina. Laajennuksella tarkoitetaan sitä, että pisteet voivat olla erikokoisia, -muotoisia ja –värisiä. Niiden ympärille voi kasautua myös eri muuttujista riippuvaa tietoa eri mittaisilla ja suuntaisilla janoilla tai käyränpätkillä kuvattuina. Siis erilaisilla pisteen liitännäisillä saadaan kuvaan jollain tavoin mukaan hyvinkin monen muuttujan osuus.

 

Kahden muuttujan hajontakuvissa, joita myös kutsutaan korrelaatiodiagramoiksi, tarkastellaan kyseessä olevien muuttujien keskinäisiä riippuvuuksia. Kutakin havaintoa vastaa kaksiulotteisessa koordinaatistossa piste, jonka asema x-akselin suunnassa määräytyy ensimmäisen muuttujan arvon ja y-akselin suunnassa toisen muuttujan arvon mukaan.

 

Hajontakuvamatriisilla (Draftsman´s display) tarkoitetaan kuvakoostetta, joka asettelultaan vastaa esimerkiksi korrelaatiomatriisia, mutta jonka alkioina ovat asianomaisten muuttujien korrelaatiodiagrammat. Englanninkielinen nimitys juontaa alkunsa teknisten laitteiden projektiopiirrostekniikasta. Tutkittavan aineiston kaikkein mahdollisten kaksiulotteisten hajontakuvien samanaikainen esittäminen antaa melko hyvän kokonaisnäkemyksen riippuvuuksien luonteesta. Se ei kuitenkaan voi tuottaa täydellistä kuvaa aineiston kokonaisvaihtelusta, koska minkäänulotteiset reunajakaumat eivät määrittele yhteisjakaumaa yksiselitteisesti. Tästä huolimatta hajontakuvamatriisin piirtäminen on oivallinen keino tutustua uuden aineiston käyttäytymiseen ja auttaa esimerkiksi sopivien muuttujatransformaatioiden löytämisessä. (Mustonen 1995, 1-4)

 

 

5.1 Graafisten esitysten luominen

 

Graafisia esityksiä voi erikseen työstää SPSS:ssä, mutta helpointa on tilastollisten analyysien yhteydessä jo valmiiksi rastittaa kuvallisten ja taulukoiden valintalaatikot. Esimerkiksi muuttujien arvojen jakautumia tarkasteltaessa (Analyze-Descriptive Statistics-Frequencies) frekvenssitaulukon tulostusikkunassa on näkyvissä kohta Display frequency tables, jonka rastittamalla saadaan SPSS piirtämään  frekvenssitaulukko. Kuvallinen esitys saadaan Charts valintapainiketta napauttamalla. Esiin ponnahtaa kuvatyypin määrittelyruutu, josta voi valita eri kuvalliset vaihtoehdot (None, Bar Charts, Pie Charts, Histograms) sekä esitystavat (Frequencies jaPercentages).

 

Aivan alussa määriteltiin aineiston muuttujat var, ja niihin liitettiin tarkennetut määritelmät labels. Kuvallisissa esityksissä nuo labelsmääritteet tulevat näkyviin teksteinä tai merkkeinä. Vaikka labels ruudukoihin voi syöttää myös skandeja (ä,ö ja å) sekä  muita erikoismerkkejä ja pitkiäkin lauseita, (joita var ruudukkoon ei voi syöttää), aivan suruttomasti pitkiä virkkeitä ei sinne kannata viedä; kuvallisessa esityksessä ne eivät tule kokonaan näkyviin.

 

Kuvaa voi muokata lisää napauttamalla sitä kahdesti. Ensimmäisellä hiiren napautuksella kuvan tai taulukon ympärille ilmestyy kehykset, joissa on aktivoitumista merkitsevät paksunnokset – samoin kuin Excel taulukoissakin – ja toisella napautuksella aktivoituu SPSS Chart Editor, eli muokkausvalikko jossa tekstiä, kuvaajia tai taulukkoa voidaan muuttaa.

 

Bar Styles valintaruudussa voidaan lisätä varjostukset pylväille, tai lisätä aineistoon kolmiulotteinen taustalisä (Drop Shadow ja 3-Deffect) tai pylväille voidaan lisätä muuttujien arvot näkyviin (Bar Label Styles ja valinnat Standard sekä Framed). Tekstin muuttaminen käy samalla tavalla kuin Excel taulukoissakin, eli napauttamalla kahdesti kyseistä tekstiä kuvassa, teksti aktivoituu (ympärille ilmestyy kehikko), jonka jälkeen se voidaan vaihtaa, tai sen tekstityyppi ja koko muuttaa.

 

Helpoimmin tutustuu SPSS:n mahdollisuuksiin oman aineiston käsittelyllä SPSS Chart Editorissa ja katsomalla mitä kuvalle tapahtuu. Kuvan värittäminen (väriliidun kuva) liukuvärinä rakennetun väripaletin kautta on SPSS:n oma mielenkiintoinen lisä, joka on lainaa internet sivustojen kuvaedoritohjelmista.

 

5.2  Kuvan tai taulukon siirtäminen SPSS:stä Wordiin

 

Kuvien tai taulukoiden siirtäminen on aika helppoa, kunhan output taulukossa muistaa siirtää kuvan (tai taulukon) leikepöydän (copy-cut-paste) paste special -toiminnon kautta. Muutoin kuva tai taulukko saattaa hajota tunnistamattomaksi aineistoksi.

 

Yksinkertaisimmillaan siirto tehdään siten, että napautetaan kuva aktiiviseksi (ympärille muodostuu kehikko, jossa on pampulat kulmissa) SPSS Wiever:ssä, painetaan sitten Edit-Copy ja jätetään SPSS aktiiviseksi painamalla näytön vasemman yläkulman kolmesta vaihtoehdosta vasemmanpuoleista (siis ei suljeta x:stä, vaan pudotetaan Windowsin alareunaan odottamaan  _ -näppäimestä). Kaikki ohjelmat Windowsissa voidaan pudottaa alapalkkiin odottamaan tuosta samasta toiminnosta ja palauttaa alkuperäiseksi napauttamalla alapalkissa samasta valikosta hiirellä uudestaan.

 

Aineisto odottaa leikepöydällä copy käskyn jälkeen, eli seuraavaksi avataan Word.

 

Wordissa voi helpottaa kuvan tai taulukon siirtoa siten, että kirjoittaa valmiiksi pari riviä jotain tekstiä ja siirtää kursorin vilkkumaan niiden väliin. Tämän jälkeen painaa Paste Special valintaa ja kuvio tai taulukko siirtyy leikepöydältä Wordiin.

 

Tässä kuudennessa luvussa on lyhyt katsaus sekä kvantitatiivisiin, että kvalitatiivisiin menetelmiin. Kopio Tutkimusmenetelmät (Heinonen 2002) kirjasta:

 

6.1 Tiedonkeruu ja tutkimusaineisto

 

Tutkimusaineiston kokoaminen merkitsee paitsi sisällöllistä valintaa, myös monien teknisten tekijöiden vaikutusta, kuten esimerkiksi muistiinpanoja, nauhoittamista, valokuvaamista yms. (Anttila 1999, 216). Ian Dey kuvaa määrällisen (kvantitatiivinen ) ja laadullisen (kvalitatiivinen) tutkimusotteen keskinäistä suhdetta Yin-Yang -kuviota käyttäen. Hän korostaa kummankin keskinäistä riippuvuutta. Numeerista tietoa ei voi täysin välttää silloinkaan kun tutkitaan asioiden merkityksiä ja merkityssisältöjäkään ei voi kokonaan välttää, kun tahdotaan tietoa aineiston määrällisistä suhteista. Kummatkin täydentävät toisiaan. Aineistoa koottaessa kysymykset kohdistuvat enemmän tai vähemmän määrälliseen tai laadulliseen puoleen ja näistä painotuksista riippuvat myös aineiston analyysimenetelmät (Dey 1995, 28)

 

6.2 Tutkimusotteen valinta

 

Erilaisten tutkimusmenetelmien yhteydessä käsitellään monia erilaisia käsityksiä tutkimusaineistosta. Kvantitatiivisessa tutkimuksessa on tietyin mittarein saatua numeerista käsiteltävää dataa. Ladullisessa, kvalitatiivisessa tutkimuksessa on yleensä erilaista sanalliseen tai muuten tutkittavaan muotoon saatettavaa aineistoa, kuten filmejä, kuvanauhoitteita, esineistöä. Voidaan myös puhua dokumenteista, joista aineisto muokataan käsiteltävään kuntoon (Anttila 1999, 218)

 

Kvantitatiivista, määrällistä tutkimusotetta käytetään silloin, kun on mahdollista määritellä mitattavia tai testattavia tai muulla tavalla numeerisessa muodossa ilmaistavia muuttujia. Kvalitatiivisella tutkimusotteella ja laadullisella tutkimuksella on tarkoitus tulkita, ymmärtää ja antaa merkityksiä tutkittaville asioille.

 

6.3. Kvalitatiivisia menetelmiä

 

Tässä käydään lyhyesti muutamia tunnettuja laadullisen tutkimuksen menetelmiä. Lähdeluettelossa on lisää alan kirjallisuutta ja esitysten pohjalta voit lisätä menetelmiin liittyviä, itseäsi kiinnostavia asioita.

 

 


6.3.1 Observointi, eli havainnointi

 

Havainnointi eli observointi on kaiken tieteellisen työskentelyn perusedellytys. Se soveltuu kaikenlaiseen tutkimusaineiston kokoamiseen, sekä kielelliseen että ei kielelliseen materiaaliin.

 

Tieteellinen havainnointi merkitsee systemaattista tietojen kokoamista ja tieteelliseen työskentelyyn suuntautunutta toimintaa. Havaintojen tekemisen tulee olla systemaattisesti suunniteltua ja saatava tieto tulee koota systemaattisesti. Havaintojen teossa käytämme aistejamme tarkemmin kuin tavallisessa arkitilanteissa. Koottavan tiedon tulee noudattaa ongelmanasettelua ja olla luotettavaa sekä tarkkaa. Havaintoja tehdään tavallisesti todellisissa elämäntilanteissa ja siksi observointimenetelmältä edellytetään erityistä ennakkosuunnittelua, jotta tietojen kokoaminen on systemaattista ja koottava tieto on luotettavaa ja tarkkaa (Anttila 1999, 218)

 

 

6.3.2 Haastattelu

 

Kun kysymyksessä on sellaisen tiedon tarve, joka koskee erilaisten henkilöiden asenteita, mielipiteitä, kokemuksia, havaintoja yms. Tarjoutuvat tutkimusvälineeksi erilaiset haastattelut ja kyselyt. Ne voidaan luokitella sen mukaan, millaista etäisyyttä tutkija pitää kohteeseensa ja millaiseksi muodostuvat tiedon analysoinnin menetelmät.

 

Haastattelu on tutkijan tai hänen edustajansa ja tutkittavan henkilökohtaista kosketusta edellyttävää toimintaa, joka voidaan suorittaa edeltäkäsin suunnitellulla tavalla, eli strukturoituna haastatteluna. Siinä voidaan myös pitäytyä rajattuihin kysymyksiin ja aiheisiin, eli lomakehaastatteluihin tai teemahaastatteluihin. Haastattelussa voidaan myös aiheen sisällä johdatella hyvinkin yksityiskohtaisiin, tilanteen mukaisiin syvällisiinkin pohdintoihin, eli esimerkiksi syvähaastatteluun. (Anttila 1999, 230)

 

 

6.3.3 Kyselytutkimus eli survey

 

Kyselytutkimus eli survey on ehkä kaikkein laajimmin levinnyt muoto hankkia sellainen tutkimusaineisto, joka kuvaa laajojen joukkojen käsityksiä, mielipiteitä, asenteita jne. Kyselytutkimusta käytetään paitsi suuriin yleiskartoituksiin, myös esitutkimuksena tarkemmille tutkimuksille.

 

Yleensä surveyllä tuotetaan jakaumatasoista tietoa, joka kertoo, millä tavalla eri taustatekijöiden mukaan jakautuneet ryhmät suhtautuvat kulloinkin kyseessä olevaan asiaan tai vielä yksinkertaisemmin, mikä vastausfrekvenssi on kullakin muuttujalla. Pidemmälle analysoitua tietoa voidaan käyttää edelleen yksityiskohtaisempiin ja tarkempiin tutkimuksiin johtavana lähtökohtatietona ja yleensä kuvaamaan, mitä johonkin ilmiöön sisältyy, missä määrin sitä ilmenee ja missä yhteydessä se esiintyy. (Anttila 1999, 237)

 

 

6.3.4 Tapaus- eli case tutkimus

 

Yin (1983, 23) määrittelee case- eli tapaustutkimuksen sellaiseksi empiiriseksi tutkimukseksi, joka käyttäen monipuolista ja monilla eri tavoilla hankittua tietoa tutkii tiettyä nykyistä tapahtumaa tai toimintaa tietyssä rajatussa ympäristössä. Case tutkimukset ovat syvätutkimuksia jostakin sosiaalisesta yksiköstä, antaen siitä täydellisen, hyvin organisoidun kuvan. Tarkoituksesta riippuen tutkimuksen kärki voi olla kohteen kokonaiskuvauksessa tai jollakin sen osa-alueella.  Se voi kohdistua joihinkin osatekijöihin tai käsitellä kaikkia tekijöitä samanaikaisesti. Case tutkimuksella pyritään selvittämään suppeaa kohdetta suurella määrällä muuttujia.

 

 

 

 

 

6.4 Tulosten käsittely tilastollisesti (kvantitatiiviset menetelmät)

 

Kvantitatiivisiin menetelmiin kuuluu jollakin tavoin määrällisesti analysoida tuloksia, esimerkiksi tilastollisin menetelmin. Seuraavassa on koottu eräitä yleisimpiä tilastollisia aineiston analysointiin kuuluvia menetelmiä.

 

6.4.1 Ristiintaulukointi

 

Ristiintaulukointi on perusmenetelmä tutkimusaineistojen käsittelyssä. Sen avulla voidaan kuvailla tuloksia ja kartoittaa alustavasti vaikutussuhteita. Taulukoimalla saatuja tuloksia on helppo ymmärtää, lukijalta ja tietojen käyttäjältä ei vaadita syvällistä menetelmätuntemusta. Prosenttiluvut ovat myös helppoja selvitettäessä jonkin asian muutosta, trendiä. Aineiston määrä vaikuttaa ristiintaulukointimahdollisuuksiin. Useimmiten etenkin pieniä aineistoja käsiteltäessä taulukoidaan kahta muuttujaa ristiin keskenään. Käsittely monipuolistuu, kun taulukoinnissa käytetään useampaa muuttujaa (Lotti 1995).

 

6.4.2 Merkitsevyystestit

 

Aineistoa ristiintaulukoitaessa voidaan tulosten tarkastelussa käyttää merkitsevyystestejä. Niiden kautta arvioidaan, johtuuko tietty tulos pelkästä sattumasta vai ovatko erot eri ryhmien välillä todellisia. Tavallisimmat merkitsevyystestit ovat X2 (khin neliö) ja t-testi. Merkitsevyystestin avulla voidaan varmistaa tehtyjen oletusten pitävyys ja estää tekemästä liian rohkeita johtopäätöksiä pienten erojen pohjalta. Tutkimuksessa todetaan esimerkiksi, että naisista 30 % ja miehistä 25 % käyttää tuotetta A. X2 -testillä voidaan laskea, onko ero naisten ja miesten välillä tässä asiassa tilastollisesti merkitsevä. jos samassa esimerkissä on arvioitu tuotetta A arvosteluasteikolla 4-10 ja naiset ovat antaneet keskimäärin arvosanaksi 8,6 ja miehet 9,0, voidaan t-testillä arvioida, poikkeavatko keskiarvot toisistaan merkitsevästi. Tulosten merkitsevyyttä tarkastellaan kolmella tasolla, ovatko ne erittäin merkitseviä, merkitseviä vai oireellisia. Oireellisia tulokset ovat 95 %:n, merkitseviä 99 %:n ja erittäin merkitseviä 99,9 %:n riskitasolla (Lotti 1995).

 

 

6.4.3 Keskiluvut

 

Keskilukujen avulla saadaan tietoa tiivistettyä, kun tulosta voidaan kuvata usein yhdellä luvulla. Keskilukujen valinnassa vaikuttaa se, millä tasolla mittaus on tehty. Jos mittaus on nominaaliasteikon tasolla, käytetään keskilukuna tyyppiarvoa eli moodia. Se kertoo, mikä on yleisin esiintyvä muuttujan arvo, jonka frekvenssi on suurin. Kun mittaus on ordinaaliasteikon tasolla, käytetään mediaania. Se on se muuttujan arvo, jonka kummallekin puolelle jää 50 % kaikista tapauksista. Intervalli- tai suhdeasteikon tasoisessa mittauksessa keskilukuna käytetään aritmeettista keskiarvoa. siinä primaariarvot lasketaan yhteen ja jaetaan tapausten lukumäärällä. Moodia markkinatutkimuksissa ei juuri käytetä, mediaania käytetään joskus. Eniten käytetään aritmeettista keskiarvoa (Lotti 1995).

 

6.4.4 Hajaantumisluvut

 

Hajaantumislukujen avulla kuvataan, miten kaukana toisistaan arvot sijaitsevat. Vaihteluväli ilmaisee suurimman ja pienimmän pistearvon etäisyyden. Keskimääräinen poikkeama on lukujen keskimääräinen etäisyys keskiarvosta. Varianssi saadaan, kun etäisyys keskiarvosta korotetaan toiseen potenssiin. Paljon käytetty on keskihajonta, joka on varianssin neliöjuuri (Lotti 1995)

 

6.4.5 Korrelaatioanalyysi

 

Korrelaatio ilmaisee kahden muuttujan välisen yhteyden voimakkuutta. Se vaihtelee +1:n ja -1:n välillä. Korrelaatiota käytetään melko usein ja etenkin silloin, kun analysoitavana on iso määrä muuttujia. tällöin on käytössä tavallisesti Pearsonin tulomomenttikerroin, joka vaatii intervalliasteikkoa. Jos mittaus on tehty järjestysasteikon tasolla, käytetään Spearmanin järjestyskorrelaatiota. Korrelaatioanalyysi on käyttökelpoinen, kun halutaan hallita isoa muuttujajoukkoa. Sitä voi käyttää pohjana muuttujien karsinnassa, jolloin useista vahvasti keskenään korreloivista muuttujista valitaan jatkotutkimuksiin vain osa. Korrelaatiot ovat pohjana jatkoanalyyseille, mm. faktorianalyysille (Lotti 1995). Korrelaatiokertoimet jäävät haastattelu- ja kyselytutkimuksissa usein hyvinkin alhaisiksi, johtopäätöksiä perustetaan 20:n numeroisillekin korrelaatioille, joiden merkitys selittämisen kannalta on jo mitättömän pieni (Valkonen 1971,39).

 

6.4.6 Faktorianalyysi

 

Faktorianalyysi on menetelmä, jolla voidaan hallita suurta muuttujajoukkoa. Menetelmän avulla saadaan informaatio tiiviimpään muotoon. Faktorianalyysi tavallaan ryhmittelee muuttujia, se etsii suuresta muuttujajoukosta samaa asiaa mittaavat variaabelit. Kun alkuperäisten muuttujien määrä on 20-30, tulostetaan tavallisesti 3-6 faktoria. Tämän jälkeen voidaan edetä niin, että kullekin yksilölle tulostetaan oma pistemääränsä omalla faktorilla eli lasketaan faktoripisteet. Näiden uusien muuttujien avulla voidaan tehdä taulukoita, laskea keskiarvoja jne. Olennainen ero alkutilanteessa on usein se, että on helpompi käyttää vaikkapa kolmea faktoria kuin 20 muuttujaa. Faktorianalyysi on käyttökelpoinen kuluttajan asenteita ja motiiveja tutkittaessa. Se helpottaa tulosten käsittelyä etenkin, kun lähestytään uutta ongelma-aluetta tekemällä esitutkimusta. Tavanomaisissa markkinatutkimuksissa sitä käytetään etenkin asenteita analysoitaessa (Lotti 1995). Faktorianalyysillä etsitään aineiston sisältä yhteisiä ulottuvuuksia (faktoreita) muuttujaryhmien väliltä, avaten ennalta huomaamattomia rakenteita aineistosta.

 

 

6.4.7 Regressioanalyysi

 

Regressioanalyysillä selitetään kahden muuttujan riippuvuutta toisistaan. Regressiokerroin ilmoittaa, mitä tapahtuu riippuvalle muuttujalle, kun riippumattoman arvot vaihtelevat. Regressiokerroin b on regressiosuoran kulmakerroin. se kertoo, kuinka paljon y muuttuu, kun x muuttuu yksiköllä y=a+bx. Markkinointitutkimuksissa regressionanalyysiä ei kovin usein käytetä. Syynä on ehkä se, että usein ilmiöt ovat siksi mutkikkaita, että pelkästään kahden muuttujan varassa tapahtuva tarkastelu ei riitä. Usein myös mittaustapa on liian karkea. Yksi regressioanalyysin sovellus on multippeli regressioanalyysi, jossa yhden muuttujan vaihtelu voidaan selittää usealla muulla muuttujalla (Lotti 1995). Regressioanalyysillä etsitään riippuvuuksia yksittäisistä, intervalliasteikollisista muuttujista (kuten  esimerkiksi markkinaosuuksista) suhteessa yhteen tai moneen muuttujaan.

 

 

6.4.8 Klusterianalyysi

 

Etenkin typologioiden laadinnassa käytetään paljon klusterianalyysiä. siinä havaintoaineisto jaetaan sisäisesti homogeenisiin, mutta mahdollisimman paljon toisistaan erottuviin ryhmiin (Lotti 1995). Klusterianalyysissä käytetään monta eri tekniikkaa ihmisten, esineiden, kohteiden tai muuttujien ryhmittelemiseksi yhtenäisemmiksi joukoiksi (klustereiksi).

 

 

6.4.9 Korrespondenssianalyysi

 

Tuotekarttoja tehtäessä käytetään jossain määrin ns. korrespondenssianalyysiä, joka käyttää hyväkseen taulukkodataa. Siinä haetaan tietyt perusulottuvuudet, joiden muodostamaan koordinaatistoon tuotemerkit tai niitä kuvaavat attribuutit tai käyttäjäryhmät voidaan sijoittaa (Lotti 1995).

 

 

6.4.10 Conjoint analyysi

 

Conjoint analyysi hajottaa asiakkaan vastaukset preferensseihin, ominaisuuksien tärkeysjärjestyksiin, tutkittaessa johonkin tuotteeseen tai palveluun liittyviä ominaisuuksia sekä asiakkaan mieltymystä niihin. Conjoint analyysillä voidaan etsiä tuotteen tai palvelun paras yhdistelmä, simuloida  markkinoilla ostokäyttäytymistä ja analysoida kilpailutilanteen vahvuuksia sekä heikkouksia.

 


6.5 Tarkennuksia monimuuttujamenetelmiin

 

Mustosen (1995) mukaan tilastollisilla monimuuttujamenetelmillä käsitellään nimensä mukaisesti usean satunnaismuuttujan aineistoja. Koska muuttujia voi olla kymmeniä – jopa satoja, yleisenä pyrkimyksenä on vähentää muuttujien määrää tai yhdistellä muuttujia sopivien sääntöjen mukaan. Koko aineistoon liittyvästä vaihtelusta yritetään siis karsia puhtaasti satunnainen osuus tiivistämällä tietoa ja näin ehkä saadaan paljastetuksi tutkittavan ilmiön taustalla olevat rakenteet. Edellä sanottu koskee erilaisia kuvausmenetelmiä, joita ovat esimerkiksi pääkomponenttianalyysi, faktorianalyysi, kanoniset korrelaatiot, erotteluanalyysi ja ryhmittelyanalyysi.

 

Monimuuttujamenetelmien piiriin voi lukea myös suorat yhden muuttujan menetelmien yleistykset. Näitä on muun muassa eräiden keskeisten tilastollisten testien laita. Esimerkiksi tavallinen t-testi yleistyy usean muuttujan tapauksessa Hotellingin T2 –testiksi.

 

Monimuuttujamenetelmäksi ei sen sijaan katsota esimerkiksi usean selittävän muuttujan regressioanalyysiä, koska tässä tapauksessa satunnaisena muuttujana käsitellään vain selitettävää muuttujaa; selittäjät voivat olla esimerkiksi koesuunnittelun määräämiä systemaattisia tekijöitä. Luonnollisesti regressioanalyysiä sovelletaan kuitenkin rinnan monimuuttuja-analyysien kanssa. Tyypillinen toimintatapa saattaa olla se, että aluksi jollakin monimuuttujamenetelmällä puhdistetaan selittävien muuttujien joukkoa vähentämällä muuttujien määrää ja tai tekemällä ne vähemmän toisistaan riippuviksi. Lopullinen tarkastelu tapahtuu regressioanalyysillä tämän puhdistuksen jälkeen.

 

Monimuuttujamenetelmien suosioon vaihdellut niiden koko olemassaolon ajan aina 1930-luvulta lähtien. Laskennallisten hankaluuksien vuoksi soveltaminen tositilanteessa saattoi alkaa vasta 1950-luvun tietokoneiden ansiosta. Tästä seurannut käytön helpottuminen ja eräiden menetelmien, ennen muuta faktorianalyysin, houkuttelevuus mekaanisiin soveltamisyrityksiin johti Suomessakin 1960-luvulla etenkin yhteiskunta- ja käyttäytymistieteiden piirissä laajamittaiseen ja joskus varsin perustelemattomaan käyttöön. Tämän ylimitoitetun suosion romahdukseen vaikutti osaltaan 1960-1970 –lukujen vaihteessa vallinnut positivistisen tieteen kritiikki.

 

Monimuuttujamenetelmien niin kuin monien muidenkin teknisesti vaativien tilastollisten keinojen opettamisen ongelmana on se, että ne jotka näitä menetelmiä tarvitsevat, eivät yleensä pysty kunnolla omaksumaan menetelmien taustalla olevaa matemaattispitoista teoriaa. Tämän taustan ymmärtäminen on tärkeää ainakin siltä osin, mikä liittyy menetelmien käytön ehtoihin ja rajoituksiin. Sen sijaan esimerkiksi joidenkin otos- tai testisuureiden jakaumien johtaminen, mikä vaatii enemmän matemaattisen analyysin tuntemista, ei ole yhtä tärkeää, koska tällaiset tulokset on hyödynnettävissä ilman, että osaisi ne itse päätellä.

 

Asioiden geometrinen hahmottaminen on monille tärkeää. On mielenkiintoista mutta samalla valitettavaa, että kykymme osoittautuvat vajavaisiksi yleistäessämme 2- tai 3-ulotteisia mielikuviamme useampiulotteisiin avaruuksiin, joissa monimuuttujamenetelmiä koskevat tarkastelut yleensä liikkuvat. Esimerkiksi on vaikea tajuta intuitiivisesti jo sitä, että yleisissä peräkkäisissä koordinaatiston kierroissa vain kaksiulotteisessa tapauksessa ei ole väliä sillä missä järjestyksessä tehdään. (Mustonen 1995)

 

 

Pääkomponenttianalyysin tehtävä on löytää muuttujien toisistaan riippumattomia lineaarisia yhdistelmiä, jotka keräävät mahdollisimman suuren osan alkuperäisten muuttujien kokonaisvaihtelusta. Teknisenä tavoitteena on usien yksinkertaisesti vähentää tutkittavaa ilmiötä kuvaavien muuttujien lukumäärää mahdollisimman paljon. Pääkomponenttianalyysi voidaan määritellä usealla eri tavalla ja siitä on olemassa erilaisia esitysmuotoja.

 

Tavallisesti tyydytään vain osaan pääkomponenteista, jos niiden selitysosuus on riittävä, esimerkiksi yli 70 %. Usein analyysin lähtökohtana on korrelaatiomatriisi kovarianssimatriisin sijasta, jolloin muuttujien varianssit ikään kuin samaistetaan ja ainoastaan korrelaatioiden annetaan vaikuttaa pääkomponenttien määräytymiseen. Tällöin kokonaisvaihtelu on sama kuin muuttujien lukumäärä, jolloin on luontevaa pitää niitä pääkomponentteja merkitsevinä, joita vastaavat ominaisarvot ovat selvästi yli 1 eli enemmän kuin mikä on kunkin yksittäisen muuttujan varianssi. Erityisen suotavaa on tarkkailla alenevien ominaisarvojen jonoa ja löytää sellainen kohta ykkösen läheisyydessä, jossa tapahtuu selvä putous. (Mustonen 1995, 57-74)

 

 

Faktorianalyysi muistuttaa monessa suhteessa pääkomponenttianalyysiä. Pääasiallisia eroja on kaksi: 1) Muuttujien kokonaisvaihtelu jaetaan kahteen osaan, yhteisvaihteluun ja ominaisvaihteluun. 2) Rotaation (eli joissain tapauksissa ortogonaalisen tai lähes ortogonaalisen lineaarisen muunnoksen) avulla pyritään faktoreissa, jotka vastaavat pääkomponentteja, niin sanottuun yksinkertaiseen rakenteeseen. Tälle rakenteelle pyritään antamaan tutkittavan ilmiön teoriaan liittyvä tulkinta.

 

On tapana myös korostaa, että faktorianalyysi on kovarianssipainotteinen, kun taas pääkomponenttianalyysi, käyttäessään alkuperäistä kovarianssimatriisia lähtökohtanaan,, on varianssipainotteinen menetelmä. Faktorianalyysissä ei siis enää ole kyse kokonaisvaihtelun maksimaalisesta siirtämisestä uusille muuttujille, vaan vähäulotteisen piilorakenteen löytämisestä muuttujien korrelaatioiden avulla.

 

Faktorianalyysien teko käytännössä on tuottanut tutkijoille aina hankaluuksia, koska oikean faktoriluvun r lisäksi on kyettävä määräämään muuttujien systemaattisen vaihtelun osuus eli kommunaliteetit. Kommunaliteetit kuvastavat systemaattista, faktoreiden avulla selitettävää osaa muuttujien varianssista. Faktorianalyysin historia tunteekin lukuisia faktorointimenetelmiä.

 

Faktorianalyysin tulos ei ole yksikäsitteinen faktorimatriisin osalta. Faktoreihin voidaan kohdistaa säännöllinen muunnos ilman, että faktorianalyysin malliin liittyvät perusolettamukset ja esimerkiksi perusyhtälö siitä järkkyvät. Faktorimatriisin tasolla tämä rotaatiomahdollisuus tarkoittaa siirtymistä niin sanottuun rotatoituun faktorimatriisiin.

 

Rotaation tuottama epämääräisyys on lupa kääntää tutkijan ja tutkimuskohteen eduksi. On täysin sallittua valita sellainen rotaatiomatriisi, joka antaa mahdollisimman selkeän käsityksen muuttujien ja faktorien välisistä riippuvuuksista. Toistamalla tutkimus esimerkiksi uusissa olosuhteissa etsitään vahvistusta sille, että saavutetut tulokset ovat invariantteja.

 

On tapana puhua ortogonaalisesta rotaatiosta, kun rotaatiomatriisi on ortogonaalinen. Tämä merkitsee sitä, että faktorit jäävät rotaation jälkeenkin korreloimattomiksi. Toinen vaihtoehto on vino rotaatio, jossa rotaatiomatriisi ei ole enää ortogonaalinen ja faktoreiden sallitaan korreloida keskenään. Kummassakin tapauksessa haetaan ratkaisu yleensä jonkin analyyttisen kriteerin perusteella, joka tekee ratkaisusta objektiivisemman. (Mustonen 1995, 75-94)

 

Ortogonaalisten rotaatioista tunnetaan parhaiten Quartimax ja Varimax menetelmät. Quartimax menetelmässä yksinkertaisesti maksimoidaan latausten neljänsien potenssien summa. Varimax rotaatiossa (Kaiser 1956) maksimoidaan latausten neliöitten sarakkeittain/faktoreittain laskettujen varianssien summa. Tavallisesti vielä poistetaan muuttujien väliset kommunaliteettierot jakamalla lataukset riveittäin ja kertomalla ne takaisin samoilla luvuilla rotaation jälkeen.

 

Käytännössä sekä Quartimax attä Varimax ratkaisu joudutaan etsimään iteratiivisesti tekemällä peräkkäisiä kaksiulotteisia kiertoja, kuten tapahtuu graafisessakin rotaatiossa. Faktoriparit valitaan systemaattisesti. Vaikka optimaalinen kiertokulma on suhteellisen yksinkertainen lauseke kummassakin ratkaisussa, kunkin kierron yhteydessä kuitenkin faktorimatriisin lataukset muuttuvat aina kahden faktorin osalta, jolloin joudutaan toistuvasti palaamaan uudelleen samoihin akselipareihin. Kiertokulmat suppenevat tavallisesti melko nopeasti kohti nollaa ja iterointi keskeytyy, kun riittävä tarkkuus on saavutettu.(Mustonen 1995, 70-83)

 

 

Nimityksen transformaatiomatriisi otti käyttöön Ahmavaara (1954) julkaisemastaan faktorianalyysitulosten vertailumenetelmästä. Transformaatioanalyysiä voi pitää niin sanottujen konfirmatoristen faktorianalyysien eräänä muotona. Transformaatioanalyysin yhteydessä tutkitaan paitsi vertailevien faktorirakenteiden samankaltaisuutta myös erityisesti mahdollisia rakenne-eroja, jotka ilmenevät poikkeavana transformoitumisena.

 

 

Kanonisissa korrelaatioissa tarkastellaan samaan aineistoon kuuluvia kahden eri muuttujaryhmän välisiä riippuvuuksia. Tarkoituksena on löytää kummastakin muuttujaryhmästä sellaiset painotetut summat, joiden väliset korrelaatiokertoimet ovat mahdollisimman suuria. Kun toisessa ryhmässä on vain yksi muuttuja, palaudutaan yhteiskorrelaatiokertoimeen. Tällöin tutkitaan yleistä tilannetta. (Mustonen 1995, 111)

 

 

Erotteluanalyysissä määrätään sellaiset yhdistetyt muuttujat, jotka parhaiten kuvaavat perusjoukkojen / ryhmien eroja. Esimerkiksi vertailemme jakaumia, joilla on sama kovarianssimatriisi, mutta eri odotusarvovektorit. Määräämme sen yhdistetyn muuttujan, joka erottaa jakaumat selvimmin toisistaan. Tällaista muuttujaa sanotaan erottelumuuttujaksi, diskriminaattoriksi.

 

Voidaan osoittaa, että erotteluanalyysi on läheistä sukua kanonisille korrelaatioille. Jos kanoniset korrelaatiot lasketaan aineistosta, jossa erotteluanalyysin muuttujat ovat toisena muuttujaryhmänä, saadaan kanoniset korrelaatiokertoimet, jotka ovat yhteydessä erotteluanalyysin ominaisarvoihin. (Mustonen 1995, 121-128)

 

 

Ryhmittelyanalyysi (Cluster Analysis) tai Klusterianalyysi kohdistuu tilastollisiin aineistoihin, jotka ovat useasta eri perusjoukosta saatujen otosten/ryhmien yhdistelmiä. Tarkoituksena on paljastaa oikea ryhmien lukumäärä ja luokitella havainnot näihin ryhmiin. Ryhmittelyanalyysissä ei ole ryhmistä mitään ennakkotietoa kuten erotteluanalyysissä, joten tehtävä on hankalampi.

 

Koska pääkomponentti- ja faktorianalyysissä tavallaan ryhmitellään muuttujia, ryhmittelyanalyysi on jossain määrin rinnastettavissa myös näihin menetelmiin. Analyysin lähtökohtana on tällöin havaintomatriisin transpoosi tai jokin sen muunnos. Puhutaan esimerkiksi käännetystä faktorianalyysistä. Kaikki varsinaiset ryhmittelyanalyysin menetelmät käyttävät jonkinlaista ryhmien ja yksittäisten havaintojen välisen etäisyyden mittaa. Tarkoituksena on pannaa sellaiset havainnot yhteen, jotka kyseessä olevan mitan suhteen ovat riittävän läheisiä.

 

Useimmat ryhmittelymenetelmät ovat luonteeltaan heuristisia; niiltä puuttuu selkeä teoreettinen tausta. Suosittuja ovat hierarkisetmenetelmät. Tällöin esimerkiksi aluksi jokainen havainto muodostaa oman ryhmänsä ja etsitään ne havainnot, jotka ovat kaikkein läheisimpiä ja yhdistetään ne kahden havainnon havainnot, jotka ovat kaikkein läheisimpiä ja yhdistetään ne kahden havainnon ryhmiksi. Tämän jälkeen uusitaan sama menettely, jolloin syntyy toinen kahden havainnon ryhmä tai jokin havainto yhtyy ensimmäiseen kahden havainnon ryhmään. Tätä menettelyä toistetaan jatkuvasti, jolloin joka kerralla ryhmien lukumäärä vähenee yhdellä. Kun näin jatketaan, lopulta kaikki havainnot kasautuisivat yhdeksi ryhmäksi. Tarkoitus on kuitenkin keskeyttää menettely sellaiseen vaiheeseen, jossa esimerkiksi ryhmittelyn hyvyyttä kuvaavassa kriteerissä tapahtuu selvä muutos. Hierarkinen ryhmittely voi tapahtua myös toisinpäin lähtemällä jakamaan kaikkien havaintojen muodostamaa ryhmää vaiheittain pienempiin.

 

Kokonaan toisenlainen on menettely, jossa etukäteen tiedetään tai arvioidaan oikea ryhmien lukumäärä ja jaetaan havainnot aluksi umpimähkään omaan ryhmään. Käyttämällä mittaa, joka kuvaa ryhmien homogeenisuutta, pyritään parantamaan tilannetta havaintojen siirrolla ryhmästä toiseen. Yksinkertaisimmillaan menettely on sellainen, että käydään havaintoja systemaattisesti läpi ja koemielessä yritetään siirtää tarkasteltavaa havaintoa toisiin ryhmiin. Heti kun siirto parantaa ryhmien homogeenisuutta, annetaan sen toteutua ja jatketaan menettelyä seuraavasta havainnosta. Lopullinen ratkaisu saavutetaan, kun minkään havainnon siirto ei enää paranna ryhmien homogeenisuutta. Tämä ei takaa välttämättä, että saavutettaisiin paras ratkaisu, koska satunnainen alkuryhmitys usein vaikuttaa siihen, mihin lopulta päädytään. Hyvän ratkaisun löytämiseksi koko menettely on tällöin syytä toistaa riittävän monta kertaa lähtien aina uudestaan satunnaisryhmityksestä ja valita tuloksista paras. (Mustonen 1995, 140)

 

 

Moniulotteisella skaalauksella (multidimensional scaling) tai MDS:llä tarkoitetaan menettelyä, jolla havainnon välisiä eroja koskevien etäisyys-, samanlaisuus tai erilaisuustietojen perusteella havaintoja vastaavat pisteet yritetään sijoittaa kartalle eli tavallisesti 1, 2 tai korkeintaan 3 –ulotteiseen avaruuteen siten, että naiden pisteiden keskinäiset etäisyydet vastaavat annettuja etäisyystietoja.

 

Tavallisesti lähtökohtana on etäisyys- tai erilaisuusmatriisi, joka on ontto siten, että lävistäjäalkiot ovat nollia, eli havainnon etäisyys itseensä on 0. Muut alkiot ovat ei-negatiivisia. Yleensä erilaisuusmatriisi on symmetrinen, mutta esimerkiksi epälineaarisessa skaalauksessa saatetaan käsitellä myös epäsymmetrisiä tilanteita. Samoin etäisyystiedot voivat olla puuttuvia tiettyyn rajaan asti.

 

Lähtötietojen koskiessa vertailtavien havaintojen samanlaisuutta, ne tulee muuntaa erilaisuutta kuvaaviksi, esimerkiksi vähentämällä ne vakiosta tai siirtymällä käänteisarvoihin. Yleensäkin tarvittaessa etäisyysmatriisi olisi hyvä ensin transformoida alkioittain sellaiseen muotoon, että on syytä uskoa arvojen kuvaavan havaintopisteiden välisiä euklidisia etäisyyksiä. Neliömatriisia, jonka alkiot on tulkittavissa pisteiden välisiksi euklidisiksi etäisyyksiksi moniulotteisessa avaruudessa, sanomme euklidiseksi matriisiksi. Jos moniulotteinen skaalaus halutaan tehdä havaintoaineistosta, jossa on useita asiaan vaikuttavia muuttujia, etäisyysmatriisi lasketaan ensin näiden muuttujien perusteella esimerkiksi havaintojen euklidisia etäisyyksinä. Moniulotteinen skaalaus liittyy monimuuttujamenetelmiin erityisesti siten, että niin sanotussa klassisessa skaalauksessa ongelma palautuu etäisyysmatriisin tietyllä muunnoksella pääkomponenttianalyysiin.(Richardson 1938; Torgerson 1952)

 

Myöskin suora pienimmän neliösumman keino toimii (Chatfield & Collins 1980, 210), jossa annetulle etäisyysmatriisille etsitään havaintojen koordinaattiesitys niin, että havaittujen ja koordinaattiesityksestä laskettujen etäisyyksien, mahdollisesti painotettu, neliösumma minimoituu. Tämä menettely on periaatteessa yksinkertaisin mutta laskennallisesti raskain (Mustonen 1995, 155).

 

 

Korrespondenssianalyysi (Correspondence Analysis) on sukua pääkomponenttianalyysille, mutta siinä käsitellään yleensä frekvenssitaulukoita havaintomatriisin asemasta. Korrespondenssianalyysiä ovat harrastaneet erityisesti ranskalaiset. Korrespondenssianalyysi voidaan johtaa useista erilaisista lähtökohdista. Yksinkertaisin ja samalla luultavasti ensimmäinen tunnettu malli liittyy kaksiulotteiseen skaalausongelmaan.

 

Korrespondenssianalyysin tulosta havainnollistetaan tavallisesti kuvalla, jossa dimensiot 2 ja 3 asetetaan vastakkain ja sekä rivit että sarakkeet esitetään pisteinä tässä 2-ulotteisessa kuviossa siten, että koordinaatteina ovat asianosaiset asteikkoarvot. (Mustonen 1995, 174)

 

Heikkilä, T. Tilastollinen tutkimus. Helsinki: Oy Edita Ab 1998

 

Holopainen, M. & Pulkkinen P. 1995. Tilastolliset menetelmät. Porvoo: W&G)

 

Metsämuuronen, J. 2000. SPSS aloittelevan tutkijan käytössä. Metodologia

        –sarja 5. Viro: Jaabes OU

 

Mustonen, S. 1995. Tilastolliset monimuuttujamenetelmät. Helsinki: Helsingin

      yliopisto. Tilastotieteen laitos.

 

Norusis, M.J. 1993. SPSS for Windows. Base System User’s Guide. Release 6.0.

     SPSS Inc. Chicago, IL. USA

 

Nummenmaa, T, Konttinen, R, Kuusinen J. ja Leskinen E. 1996. Tutkimus-

       aineiston analyysi. Porvoo: WSOY.

 

Yli-Luoma P.V.J. 1997. Johdatus kvantitatiivisiin analyysimenetelmiin

       SPSS for Windows –ohjelman avulla

 

SPSS Inc. 1994. SPSS 6.1. for Windows Update. SPSS Inc. Chicago, IL. USA

 

 

 

LIITTEET

 

Harjoitteluaineisto

(Harjoitus.sav)

 

Maa           Hiukkasm   Energia      Ravintolat  Väkiluku    Ydinvoima BKT

1,00           73,00         651,00       6055,00      14943,00    508,00       173,00

2,00           125,00       473,00       4235,00      9845,00      5500,00      154,00

3,00           512,00       2112,00      22603,00    57237,00    11506,00    161,00

4,00           452,00       1535,00      27481,00    57062,00    ,00             169,00

5,00           39,00         238,00       3253,00      7712,00      ,00             192,00

6,00           20,00         226,00       1942,00      4242,00      ,00             231,00

7,00           93,00         161,00       2198,00      10525,00    ,00             49,00

8,00           278,00       219,00       28290,00    56440,00    55778,00    195,00

9,00           170,00       481,00       3925,00      8559,00      9817,00      237,00

10,00         532,00       2716,00      32174,00    79479,00    24430,00    227,00

11,00         100,00       29,00         2197,00      4986,00      2310,00      261,00

12,00         20,00         235,00       3297,00      6712,00      2952,00      328,00

13,00         47,00         179,00       1901,00      5140,00      ,00             221,00

 

 

1.     Alankomaat

2.     Belgia

3.     Britannia

4.     Italia

5.     Itävalta

6.     Norja

7.     Portugali

8.     Ranska

9.     Ruotsi

10. Saksa

11. Suomi

12. Sveitsi

13. Tanska

Page created 31 December 2012, 1:32 PM / Page modified 13 June 2014, 8:51 AM
You can see this page because it is public.