Tilastomatikan ABC

Suluissa ja asteriskimerkinnöillä varustetut englanninkieliset termit ovat esimerkiksi tilastotulosteissa esiintyviä merkintöjä.

A

Aikasarja tarkoittaa ajan suhteen järjestettyjen havaintoarvojen joukkoa ja se voi olla joko jatkuva tai diskreetti.

Aikasarjan komponentit muodostuvat trendistä (T), kausivaihtelusta (S), suhdannevaihtelusta (C) ja satunnaisvaihtelusta (I). Aikasarja-analyysissä pyritään erottelemaan komponentit toisistaan ja kuvaamaan aikasarjaa summamallina (ed. mainittujen summana) tai tulomallina (ed. mainittujen tulona).

Approksimaatio tarkotittaa "epätäsmällistä esitystä", ns. likiarvoa. Esimerkiksi binomijakaumaa voidaan approksimoida Poisson-jakaumalla silloin, kun n on hyvin suuri ja p hyvin pieni.

Aritmeettinen keskiarvo (Mean*) on herkkä poikkeaville arvoille eikä sitä voi laskea luokitellusta aineistosta, joka sisältää avoimia luokkia.

B

Bayesin teoreeman avulla voidaan selvittää, mikä on tiettyyn tapahtumaan johtaneen vaihtoehdon todennäköisyys, kun ko. tapahtuma tiedetään tapahtuneeksi.

Binomijakauma on diskreetti todennäköisyysjakauma, joka liittyy sellaiseen satunnaisilmiöön, joka voi tapahtua tai olla tapahtumatta. Lisäksi toistojen on oltava identtisiä ja toisistaan riippumattomia, ja tapahtumiin liittyvien todennäköisyyksien on pysyttävä vakioina. Binomijakauman avulla voidaan mallintaa lukumääriin liittyviä todennäköisyyksiä, ja se ottaa huomioon erilaiset järjestykset (huomioi kaavassa esiintyvä binomikerroin). Binomijakauman odotusarvo on np ja varianssi np(1-p).

Binomikerroin on nimitys merkintätavalle, jonka avulla voidaan laskea kombinaatioiden eli järjestämättömien osajoukkojen lukumäärä.

D

Danielsin testi on testi, jossa tutkitaan esiintyykö aikasarjassa trendiä (huom. ei välttämättä lineaarista). Trendin testaamiseksi käytetään Spearmanin järjestyskorrelaatiokerrointa muuttujista t ja yt, ja tutkitaan korrelaatiokertoimen merkitsevyys t-testillä.

Deduktiivinen päättely pohjautuu tietoon siitä, että premissit ovat tosia. Deduktiivinen päättely ei siis sinänsä tuo ilmi mitään uutta. Deduktiivisessa päättelyssä edetään yleisestä tapauksesta yksittäistapaukseen.

Desiilit (D1 ja D9) ovat 10 ja 90 prosentin fraktiileja.

Diagnostiikka on regressiomallin hyvyyden tarkastelua esimerkiksi jäännöstermikuvaajan avulla.

Diskreetti eli yksittäinen, erillinen. Esimerkiksi diskreetti jakauma saa vain yksittäisiä arvoja (k=1,2,3...n).

E

Eksponentiaalinen malli on eräänlainen regressiomalli, joka kuvaa eksponentiaalisesti käyttäytyvää ilmiötä (esim. bakteerikannan kasvu).

Epäparametrinen testi ei edellytä jakaumasta tehtyjä oletuksia, esimerkiksi Mann-Whitneyn testi on jakaumasta riippumaton testi.

Erehtymisriski ks. p-arvo.

Erillisyys tarkoittaa sitä, että A:n ja B:n leikkausjoukko on tyhjä joukko ja tällöin todennäköisyys, että A ja B tapahtuvat samanaikaisesti, on nolla.

Estimaatti on havaintoaineistosta laskettavan estimaattorin arvo. Esimerkiksi otoskeskihajonta on populaatiohajonnan estimaatti.

F

Fraktiilit ovat sijaintilukuja, jotka voidaan määrittää vähintään järjestysasteikolla mitatuille muuttujille mediaanin lisäksi. Ks. desiilit ja kvartiilit.

Frekvenssi (Frequency*) kertoo muuttujaan/ilmiöön liittyvän lukumäärän. Aineistosta voidaan laskea myös kumulatiivinen eli kertymäfrekvenssi, joka ilmaisee, kuinka suuri osa aineiston havainnoista on korkeintaan yhtä suuria kuin tarkasteltavan luokan yläraja. Tällöin muuttujien on oltava mitattu vähintään järjestysasteikolla.

G

Graafinen kuvaileminen on osa aineiston analysointia. Graafisia kuvaajia ovat mm. pylväskuvaajatpalkkikuviotviivakuvaajataluekuviotsektoridiagrammithistogrammit ja sirontakuviot.

H

Hajontaluku kuvaa sitä, kuinka laajalle alueelle jakauman arvot ovat hajaantuneet keskiarvon ympärille. Hajontalukuja ovat variaatiosuhdevaihteluvälikvartiilivälivariaatiokerroin ja keskihajonta.

Harha eli systemaattinen virhe, jossa tunnusluvut ovat systemaattisesti liian suuria tai liian pieniä. Esimerkiksi otannassa tapahtuneet virheet voivat aiheuttaa harhaa tunnuslukuihin.

Histogrammi sopii jatkuvien muuttujien kuvaamiseen graafisesti, mutta sitä voidaan käyttää myös sellaisille diskreeteille muuttujille, jotka saavat useita eri suuruisia arvoja. Histogrammissa pylväät piirretään kiinni toisiinsa.

Huipukkuus (g2, Kurtosis*) voidaan määrittää vähintään välimatka-asteikolliselle muuttujalle ja se mittaa jakauman huipun terävyyttä.

Hylkäämisvirhe eli tyypin 1 virhe tarkoittaa tilastollisen päättelyn virheellistä johtopäätöstä, jossa nollahypoteesi päätetään hylätä vaikka todellisuudessa se olisikin tosi. Tilastollisessa testaamisessa hylkäämisvirheen todennäköisyys täytyy aina huomioida (ks. esim. p-arvo).

Hypoteesi on eräänlainen selitys tai ennuste käsiteltävälle ilmiölle. Tilastollisessa testaamisessa asetetaan nollahypoteesi ja vaihtoehtoinen hypoteesi.

Hyväksymisvirhe eli tyypin 2 virhe tarkoittaa tilastollisen päättelyn virheellistä johtopäätöstä, jossa nollahypoteesi jää voimaan vaikka todellisuudessa se on virheellinen ja näin ollen se pitäisi hylätä.

I

Induktiivinen päättely etenee yksittäisestä tapauksesta yleistykseen ja sen avulla voidaan synnyttää uusia otaksumia tai malleja.

J

Järjestysasteikko on mitta-asteikko, jossa muuttujien saamat arvot voidaan järjestää yksikäsitteiseen järjestykseen.

K

Kaksisuuntainen testi (2-tailed*) on jokin tilastollinen testi, jossa poikkeama nollahypoteesin mukaisesta arvosta voi tapahtua molempiin suuntiin. Tällöin esimerkiksi yhden otoksen z-testissä hylkäämisalueet sijaitsevat a/2 verran jakauman molemmilla puolilla.

Kausivaihtelu S on aikasarjaan liittyvä komponentti, joka sisältää jaksottaista, melko säännöllistä vaihtelua trendin molemmin puolin. Kun halutaan selvittää kausivaihtelun olemassaoloa, voidaan kuvaajasta silmämääräisesti arvioida kausivaihtelujakson pituus L. Lisäksi kun liukuvan keskiarvon laskemiseen käytetään L:ää, saadaan aikasarjasta kausipuhdistettu.

Kausivaihteluindeksi kuvaa, kuinka suuria aikasarjan arvot ovat kullakin ajan hetkellä suhteessa kausittaiseen vaihteluun. Indeksi saadaan laskettua tulomallissa jakamalla aikasarjan arvot liukuvalla keskiarvolla tai summamallissa vähentämällä liukuva keskiarvo aikasarjan arvoista. Tämän jälkeen lasketaan yksinkertaisesti keskiarvo kunkin kausittain toistuvan aikapisteen suhde- tai erotusluvuista.

Keskiarvon keskivirhe tarkoittaa otoskeskiarvojen jakauman hajontaa, ja se kertoo otoskeskiarvojen tyypillisen poikkeaman odotusarvosta.

Keskihajonta (Std. Deviation*) kuvaa havaintoarvojen keskimääräistä hajontaa, ja se voidaan määrittää vähintään välimatka-asteikolla mitatulle muuttujalle. Populaation keskihajontaa laskiessa keskihajonnan kaavan nimittäjään tulee n ja otoksen keskihajontaa laskiessa nimittäjään tulee n-1, mutta otoskoon ollessa yli 30 kaavojen antama tulos on käytännössä merkityksetön.

Keskitetty liukuva keskiarvo saadaan, kun neljännesvuosi- tai kuukausitilastoissa lasketaan kahden peräkkäisen tavanomaisen liukuvan keskiarvon keskiarvo. Kuukausitilastoissa ensimmäinen keskitetyn liukuvan keskiarvon arvo tulee tällöin vastaamaan heinäkuun arvoa.

Keskeinen raja-arvolause osoittaa, että otoskeskiarvojen jakauma alkaa noudattaa normaalijakaumaa, kun otoksia poimitaan riittävästi.

Klassinen todennäköisyys on eräs todennäköisyyslaskennan lähestymistapa, jossa todennäköisyys saadaan jakamalla suotuisien alkeistapahtumien lukumäärä kaikkien alkeistapahtumien lukumäärällä. Tällaista todennäköisyyttä voi kuitenkin olla hankaala käyttää empiirisessä tilastotieteessä, sillä klassisen todennäköisyyden käyttäminen edellyttää, että alkeistapahtumat ovat symmetrisiä ja että populaatio tunnetaan tarkasti.

Kontingenssitaulu muodostuu ristiintaulukoimalla kahden muuttujan tulokset kaksiulotteiseksi frekvenssijakaumaksi. Kontingenssitaulua käytetään etenkin kategoristen muuttujien kohdalla X^2-testejä laskettaessa.

Kulmakerroin eli regressiosuoralle laskettu B-kerroin kertoo muutosnopeudesta. Jos kulmakerroin on nolla, selittävällä muuttujalla ei ole minkäänlaista lineaarista yhteyttä selitettävään muuttujaan.

Kvartiilit Q1 (alakvartiili) ja Q3 (yläkvartiili) ovat 25 ja 75 prosentin fraktiileja. Ne voidaan määrittää vähintään järjestysasteikollisille muuttujille yhdessä mediaanin kanssa. Lisäksi voidaan laskea kvartiiliväli ylä- ja alakvartiilin erotuksena ja välimatka-asteikolla mitatuille muuttujille lisäksi kvartiilipoikkeama, joka on puolet kvartiilivälistä.

L

Likert-asteikko on viisiportainen asteikko, jolla mitattuja muuttujia voidaan pitää vähintään järjestysasteikollisina. Hyvin tehdyissä tutkimuksissa ja esimerkiksi summamuuttujia laskettaessa muuttujia voidaan pitää vähintään välimatka-asteikollisina, kun vastausvaihtoehtojen 1-5 "välimatkat" oletetaan yhtä pitkiksi.

Liukuva keskiarvo tasoittaa aikasarjassa esiintyvää heilahtelua, ja se voidaan laskea k:n peräkkäisen aikasarjan arvon keskiarvona. Liukuvan keskiarvon arvot tulevat kulloinkin laskemisessa käytettyjen arvojen ajalliseen keskikohtaan.

Luokitellun tilastoaineiston mediaani voidaan laskea tarkoitukseen annetulla kaavalla. Mediaani voidaan laskea myös silloin, vaikka luokittelu sisältäisikin avoimia luokkia.

Luokittelu voidaan suorittaa tasavälisesti siten, että havaintoarvojen maksimi- ja minimiarvojen erotus jaetaan halutulla luokkien lukumäärällä.

Luokitteluasteikko on mitta-asteikko, jossa muuttujat voidaan luokitella eri luokkiin. Kukin muuttuja voi kuulua vain yhteen luokkaan, esim. "mies" ja "nainen". Luokitteluasteikollisille muuttujille ei pidä tehdä muita laskutoimituksia, lukuunottamatta niitä, jotka on erikseen tarkoitettu kategorisille muuttujille (esim. X^2-testit).

Luottamustaso kuvaa sitä, millä todennäköisyydellä perusjoukkoa kuvaava tunnusluku osuu luottamusvälille.

M

Mann-Whitneyn testi on epäparametrinen testi, ja se toimii vastineena riippumattomien otosten t-testille jos t-testin edellyttämä normaalijakaumaoletus ei ole voimassa.

Mediaani on järjestykseen asetetuista havaintoarvoista keskimmäinen, ja mediaani kuvaa yleensä myös jakauman tyypillisintä arvoa. Mediaani voidaan laskea vähintään järjestysasteikolliselle muuttujalle. Jos havaintoarvoja on parillinen määrä, mediaani on kahden keskimmäisen arvon keskiarvo.

Merkitsevyys tarkoittaa tilastollisten testien johtopäätöksenä syntyvää toteamusta, että on epätodennäköistä, että saatu tulos olisi sattumaa. Merkitsevyyden tutkimiseksi käytetään erilaisia merkitsevyystasoja, joista suurimpana tilastollisen merkitsevyyden rajana pidetään yleensä merkitsevyystasoa 0,05.

Monotoninen yhteys tarkoittaa yhteyttä, jossa x:n kasvaessa myös y kasvaa jatkuvasti, muttei koko ajan saman verran. Monotoninen yhteys ei siis ole lineaarista ja siksi sen kuvaamiseen soveltuu paremmin Spearmanin järjestyskorrelaatiokerroin kuin Pearson.

Moodi on aineiston yleisin havaintoarvo, ts. se muuttujan arvo, jonka frekvenssi on suurin. Moodi voidaan määrittää myös luokitteluasteikollisille muuttujille.

Multikollineaarisuus on regressioanalyysiin liittyvä käsite, jolla tarkoitetaan selittävien muuttujien keskinäistä korrelaatiota.

N

Nollahypoteesi on tilastollisessa testaamisessa asetettava hypoteesi, joka on usein muotoa "ei eroa", "ei muutosta". Tilastollisissa testeissä pyritään tutkimaan, joutuuko nollahypoteesi hylkäysalueelle (jolloin se siis olisi hylättävä) vai jääkö nollahypoteesin hylkäämiseksi tarvittavat oletukset vielä uupumaan.

Normaalijakauma on tilastotieteessä erittäin paljon käytetty jatkuva todennäköisyysjakauma, jonka avulla voidaan mallintaa keskiarvojen jakautumista. Normaalijakauman "erikoistapaus" on standardoitu normaalijakauma, jossa odotusarvo on aina nolla ja hajonta yksi.

O

Odotusarvo on nimensä mukaisesti jakauman tyypillisin, ts. odotettavissa olevin arvo.

Odotusarvon luottamusväli lasketaan kaavalla piste-estimaatti +- virhemarginaali, ja mitä kapeampi luottamusväli on, sitä varmemmin tiedetään populaation odotusarvon todellinen suuruus.

Otantavirhe tarkoittaa otoksesta laskettujen tunnuslukujen ja populaation tunnuslukujen välistä poikkeamaa.

Otos on tilastotieteen perustermi, jolla tarkoitetaan populaatiosta poimittua n:n tilastoyksikön kokoista otosta. Kokonaistutkimus on mahdollista vain harvoissa tilanteissa, joten tilastollisin menetelmin pyritään yleistämään otoksesta saatuja tutkimustuloksia populaatioon. Otos voidaan poimia erilaisia otantamenetelmiä käyttäen, joita on satunnaisotantasystemaattinen otantaositettu otanta ja ryväsotanta.

P

Parametriset testit perustuvat tilastollisiin todennäköisyysjakaumiin, ja niitä käytettäessä populaation jakaumiin liittyvien oletusten on oltava voimassa (esim. normaalijakaumaoletus t-testeissä).

P-arvo (sig* tai Significance*) tarkoittaa hylkäämisvirheen todennäköisyyttä, mutta muitakin määritelmiä löytyy.

Pearsonin korrelaatiokerroin voidaan laskea vähintään välimatka-asteikollisille muuttujille. Pearsonin korrelaatiokerroin kuvaa vain lineaarista yhteyttä, ja sitä voidaan käyttää aikasarja-analyysissä lineaarisen trendin testaamiseen. Korrelaatiokertoimen arvot vaihtelevat -1:n ja 1:n välillä.

Poikkeava arvo on havaintoaineistossa ja usein vasta sirontakuviosta havaittava arvo, joka poikkeaa selvästi havaintoaineiston muista arvoista. Poikkeavat arvot vääristävät keskiarvoa, korrelaatiokerrointa sekä regressiosuoraa, joten poikkeavien arvojen esiintyessä tulisikin aina tarkistaa onko havainto todellinen vai johtuuko tulos esimerkiksi virheestä.

Poisson-jakauma on diskreetti todennäköisyysjakauma, jota voidaan käyttää lukumäärien mallintamiseen silloin, kun n on hyvin suuri ja jakauman odotusarvo tunnetaan. Poisson-jakauman hajonta saadaan odotusarvon neliöjuurena.

Prosenttiosuuden luottamusväli lasketaan kaavalla piste-estimaatti +- virhemarginaali. Jos p on likimain 0.5, voidaan luottamusvälin kaavaa käyttää kun n on yli 30. Jos p on likimain 0.2, n:n on oltava yli 200. Jos p on likimain 0.05, tulisi n:n olla 1500.

R

Regressioanalyysi on tilastollinen menetelmä, jonka avulla voidaan mallintaa muuttujien välistä yhteyttä korrelaatioanalyysiä tarkemmin sekä laatia ennusteita.

Reliabiliteetti eli luotettavuus kuvaa sitä, miten luotettavasti ja toistettavasti käytetty mittari mittaa haluttua ilmiötä. Reliabiliteettia vähentää mittausvirheet.

Residuaalit eli jäännöstermit ovat ennustearvon ja havaitun arvon erotuksia. Residuaaleja voidaan tarkastella esimerkiksi luokittelemalla niitä ja tekemällä niistä histogrammi tai piirtämällä kuvaaja x:n ja residuaalien välille. Kuvaaja ei saisi sisältää mitään säännönmukaisuutta, ja jos näin ei ole, malli ei kuvaa ilmiötä tarkasti. Kun residuaalit ovat pieniä (negatiivisia), malli antaa liian suuria ennusteita, ja kun residuaalit ovat suuria (positiivisia), malli antaa liian pieniä ennusteita.

Riippumattomuus tarkoittaa sitä, ettei tapahtuman A todennäköisyys vaikuta tapahtuman B todennäköisyyteen. On siis yhtä todennäköistä, että tapahtuma A ja  B sattuvat kuin että A sattuu ja B sattuu ehdolla että A on sattunut. Huomioi, että tapahtumat eivät voi olla sekä erillisiä että riippumattomia. Ei-erilliset tapahtumat voivat olla riippuvia tai riippumattomia.

S

Satunnaisvaihtelu I jää jäljelle, kun aikasarjasta on ensin poistettu trendin, kausivaihtelun ja suhdannevaihtelun vaikutukset.

Selityskerroin (R2, R2(adj)*) liittyy regressioanalyysin mallin hyvyyden tarkasteluun. Selityskerroin voidaan laskea yhden selittävän muuttujan mallissa Pearsonin korrelaatiokertoimen tai useamman selittävän muuttujan mallissa multippelikorrelaatiokertoimen neliönä. Selityskerroin kuvaa, kuinka suurta osaa selitettävän muuttujan vaihteluista selittävät muuttujat pystyvät kuvaamaan. Tavallinen selityskerroin kasvaa selittävien muuttujien lukumäärän kasvaessa, mutta suhteutettu selityskerroin kasvaa vain, jos uusi selittävä muuttuja parantaa mallia. Suhteutetun selityskertoimen tarkastelu antaa yleensä hyvän kuvan siitä, mikä laadituista regressiomalleista on toimivin.

Spearmanin järjestyskorrelaatiokerroin voidaan laskea vähintään järjestysasteikollisille muuttujille, ja tällöin havaintoarvot on muutettava ensin järjestysluvuiksi. Spearmanin avulla voidaan kuvata hyvin monotonista yhteyttä ja lisäksi sitä käytetään Danielsin testissä.

Suhdannevaihtelu C on aikasarjan komponentti, joka tarkoittaa pitkän aikavälin heilahtelua.

Suhdeasteikko on mitta-asteikko, jossa muuttujien arvoilla on myös absoluuttinen nollapiste. Kaikki laskutoimitukset ovat mielekkäitä suhdeasteikollisille muuttujille.

T

T-jakauma on jatkuva todennäköisyysjakauma, jolla voidaan mallintaa otoskeskiarvojen jakaumaa. T-jakauman muoto määräytyy vapausasteiden (n-1) perusteella, ja sen odotusarvo on aina nolla. Kun vapausasteiden määrä on vähintään 30, t-jakaumaan liittyvät todennäköisyydet voidaan mallintaa standardoidun normaalijakauman avulla.

T-testit ovat parametrisiä testejä, joissa normaalijakaumaoletuksen on oltava voimassa. T-testejä ovat yhden otoksen t-testiriippumattomien otosten t-testi ja toistettujen mittausten t-testi. T-testisuureisiin ja t-jakaumaan liittyvät todennäköisyydet voidaan tarkistaa t-jakauman taulukoiduista arvoista.

Trendi T on aikasarjassa esiintyvä pitkän aikavälin kehityssuunta. Trendi voidaan määrittää pienimmän neliösumman menetelmän avulla samaan tapaan kuin regressioanalyysissä, eli trendisuoran yhtälö on samaa muotoa kuin regressiosuoran yhtälö. Trendin olemassaolo voidaan testata Spearmanin järjestyskorrelaatiokertoimen avulla ja lineaarisen trendin olemassaolo Pearsonin korrelaatiokertoimen avulla. Jos r<0, trendi on laskeva ja jos r>0, trendi on nouseva.

V

Vaihteluväli voidaan määrittää vähintään järjestysasteikollisille muuttujille, ja se saadaan ilmoittamalla jakauman minimiarvo ja maksimiarvo. Välimatka-asteikollisille muuttujille voidaan lisäksi laskea vaihteluvälin pituus, joka saadaan maksimi- ja minimiarvon erotuksena.

Vakiotermi (Constant*) ilmoittaa sen kohdan, jossa regressiosuora leikkaa y-akselin. Vakiotermin tulkinta onkin mielekästä vain silloin, kun selittävä muuttuja x voi saada myös arvon nolla.

Validiteetti eli pätevyys kuvaa, kuinka tarkasti mittari mittaa juuri sitä ominaisuutta, mitä halutaankin mitata.

Variaatiokerroin on suhdeasteikollisille muuttujille laskettava suhteellinen hajonta. Kahden muuttujan jakaumien hajontoja ei voi sellaisenaan vertailla, koska keskihajontaan vaikuttaa myös jakauman keskiarvo. Suhteuttamalla keskihajonta keskiarvolla saadaan variaatiokerroin, jolloin kahden muuttujan jakaumien hajontojen vertailu on mielekästä. Variaatiokerrointa ei voida laskea jos jakauman keskiarvo on nolla tai hyvin lähellä nollaa.

Variaatiosuhde on luokitteluasteikollisille muuttujille laskettava hajontaluku, joka saadaan vähentämällä kaikista havaintoarvoista moodiluokkaan kuuluvat havaintoarvot ja jakamalla tämä erotus kaikkien havaintoarvojen lukumäärällä. Mitä pienempi variaatiosuhde on, sitä samankaltaisempia aineiston havaintoarvot ovat.

Varianssi (Variance*) tarkoittaa keskihajonnan toista potenssia.

VIF-arvo liittyy regressioanalyysin mallin hyvyyden tarkasteluun. Jokaisen selittävän muuttujan VIF-arvon tulisi olla alle 5.

Viisilukuinen yhteenveto käsittää jakauman minimiarvon, alakvartiilin, mediaanin, yläkvartiilin ja maksimiarvon. Viisilukuinen yhteenveto on käyttökelpoinen esimerkiksi ryhmäerojen vertailussa.

Vinous (g1, Skewness*) voidaan määrittää vähintään välimatka-asteikollisille muuttujille. Vinouden avulla voidaan arvioida jakauman symmetrisyyttä. Jos g1=0, jakauma on symmetrinen. Jos g1<0, jakauma on vasemmalle vino ja jos g1>0, jakauma on oikealle vino. Kun jakauma on vasemmalle vino, pätee ka<mo<md, ja jos jakauma on oikealle vino, pätee mo<md<ka.

Visuaalisen vertailtavuuden periaate edellyttää, että graafisessa esittämistavassa pylväiden korkeuksien/pinta-alojen tulisi olla suoraan verrannollisia esitettävien luokkien kokoon.

Välimatka-asteikko on mitta-asteikko, jossa muuttujien arvojen välimatkat voidaan määritellä, mutta jossa muuttujilla ei ole absoluuttista nollapistettä.

W

Wilcoxonin testi on vastine toistettujen mittausten t-testille silloin, kun t-testin edellyttämä normaalijakaumaoletus ei ole voimassa. Wilcoxonin testi on epäparametrinen testi.

X

X^2-jakauma muodostuu neliöidyistä, yhteenlasketuista normaalijakaumista ja se mallintaa populaatiovarianssien jakaumaa. Khii toiseen -jakauma muoto määräytyy vapausasteiden perusteella.

X^2-riippumattomuustesti on luokitteluasteikollisten muuttujien riippuvuuksien tarkasteluun käytettävä testi. Odotetut frekvenssit saadaan lasketuksi jakamalla vaaka- ja rivisarakkeiden summien tulo kokonaisfrekvenssillä. Testisuure noudattaa khii toiseen -jakaumaa vapausastein (m-1)(n-1).

X^2-yhteensopivuustesti on luokitteluasteikollisille muuttujille tarkoitettu testi, jonka avulla voidaan tutkia, poikkeaako tutkimuksessa havaittu frekvenssijakauma jostakin teoreettisesta jakaumasta. Teoreettisten frekvenssien tulisi olla yli 5, mutta korkeintaan 20% frekvensseistä saa olla alle viisi. Kuitenkin kaikkien teoreettisten frekvenssien on oltava yli 1. Testisuure noudattaa khii toiseen -jakaumaa vapausastein k-1.

Y

Yhteiskorrelaatiokerroin eli multippelikorrelaatiokerroin on regressioanalyysissä havaittujen y-muuttujan arvojen ja ennustettujen y'-muuttujan arvojen välille laskettu Pearsonin korrelaatiokerroin. Selitysaste voidaan laskea yhteiskorrelaatiokertoimen neliönä.

Yksisuuntainen testi (1-tailed*) tehdään silloin, kun ollaan kiinnostuneita vain tiettyyn suuntaan tapahtuvasta muutoksesta verrattuna nollahypoteesin mukaiseen arvoon.

Yleinen yhteenlaskusääntö: P(A tai B) = P(A) + P(B) - P(A ja B). Erillisillä tapahtumilla P(A ja B)=0, joten kaava yksinkertaistuu muotoon P(A tai B) = P(A) + P(B).

Yleinen kertolaskusääntö: P(A ja B) = P(A) x P(B). Ehdollinen todennäköisyys on muotoa P(A ja B|A) = P(A) x P(B|A).

Z

Z-muunnos tehdään silloin, kun halutaan "siirtää" jokin normaalijakaumaa noudattava muuttuja standardoidulle normaalijakaumalle. Havaitusta arvosta vähennetään jakauman odotusarvo ja ko. erotus jaetaan jakauman hajonnalla, jolloin muuttuja on siirtynyt N(0,1)-jakaumalle.

Z-testit ovat parametrisia testejä, joita voidaan käyttää keskiarvojen testaamiseen tai suhteellisten osuuksien testaamiseen. Z-testejä ovat yhden ja kahden otoksen z-testit, z-testi suhteelliselle osuudelle ja z-testi suhteelliselle osuudelle kahdesta otoksesta.