Dit is een Premium document. Sommige documenten op Studeersnel zijn Premium. Upgrade naar Premium om toegang te krijgen.

Samenvatting met alle toetsen.

Vak

Statistiek 2 (CAOS) (SOW-MTB2008)

3 Documenten

Studenten deelden 3 documenten in dit vak

Universiteit

Radboud Universiteit Nijmegen

Studiejaar: 2015/2016

Geüpload door:

Anonieme student

Dit document is geüpload door een student, net als jij, die anoniem wil blijven.

Radboud Universiteit Nijmegen

Reacties

inloggen of registreren om een reactie te plaatsen.

Andere studenten bekeken ook

Gerelateerde documenten

Preview tekst

Toetsende statestiek Symbolen: o : sigma, de standaardafwijking : significantieniveau, manier van toetsing voor H0 en Ha mu, het gemiddelde : steekproefgemiddelden bij een normale verdeling p: overschrijdingskans s: standaardafwijking in de steekproef Hypothese toetsing Waarschijnlijkheid van waarden in de populatie Ho: de nulhypothese, verwoord een verwachting die recht tegenover de onderzoeksverwachting staat. Ha: alternatieve hypothese: vloeit doorgaans voort uit nieuwe (vaak gericht) Ho wordt aannemelijk geacht totdat er een zeer sterke aanwijzing is dat Ha waarschijnlijker is. Om dit te toetsen wordt een significantieniveau gebruikt. Hoe groot je significantieniveau is bepaald het verwerpingsgebied. Dit bereken je aan de hand van de overschrijdingskans (p). Als de enkelzijdige overschrijdingskans kleiner of gelijk is aan het significantieniveau dan wordt de nulhypothese verworpen en wordt de gerichte alternatieve hypothese aanvaard. Als de dubbelzijdige overschrijdingskans kleiner of gelijk is aan het significantieniveau dan wordt de nulhypothese verworpen en wordt de ongerichte alternatieve hypothese aanvaard. (p) wordt in spss aangegeven in proporties. Het significantieniveau geeft ook aan hoe groot de kans is dat men onterecht H0 verwerpt. Dit staat bekend als 1 of van de eerste (hierom mag het significantieniveau niet boven de 0 komen.) Men dient bij gerichte hypothesen eerst te controleren of de steekproefuitkomst inderdaad in de verwachte richting afwijkt van de populatiewaarde onder de nulhypothese. Het niet verwerpen van de nulhypothese (bij p betekend niet dat H0 aanvaard wordt. Het aanvaarden van Ha betekend niet dat deze waar is (men werkt met een steekproef i.p. een populatie). Je kan wel zeggen dat Ha veel waarschijnlijker is dan H0. Centrale limietstelling: de eigenschap dat een steekproevenverdeling zo goed als normaal verdeeld is, ongeacht de vorm van de verdeling van de oorspronkelijke variabele. Dit geldt grofweg als de steekproeven elk uit 30 individuen of meer bestaan. Betrouwbaarheidsintervallen: Men wilt in het algemeen zowel een betrouwbare als een informatieve schatting geven van de onbekende waarde in de populatie. Daarom is het in de sociale wetenschappen gangbaar dat de mate van betrouwbaarheid ligt tussen de en de Univariate toetsen Toetsen op gemiddelde: hier is maar variabele bij betrokken. Er wordt hier getoetst of een variabele afwijkt van een bepaald populatiegemiddelde uit de nulhypothese Hierbij is de standaardafwijking in de populatie niet bekend. De standaardafwijking in de steekproef (s) blijkt een goede benadering van de standaardafwijking in de populatie te zijn hiervoor in de plaats. Omdat o geschat wordt door s resulteert dit in een wat breder gespreide steekproevenverdeling, beter bekend als de De in deze verdeling zijn wat interpretatie betreft gelijk aan de ze geven aan hoeveel standaardfouten de steekproefuitkomst verwijderd ligt van het onbekende populatiegemiddelde. Volgens de is een toets op gemiddelde statistisch correct als de steekproevenverdeling bij benadering daadwerkelijk een volgt. Bij relatief grote aselecte steekproeven zal dit inderdaad het geval zijn. Een kleine standaardfout is wenselijk omdat dan de kans kleiner wordt dat men de nulhypothese onterecht niet verwerpt. Deze kans staat bekend als type 2 fout (zie type 1 fout). Toets op proportie: hier is ook maar een variabele bij betrokken. Toetst of de proportie (of fractie) afwijkt van de proportie in de populatie zoals verondersteld in de nulhypothese. Een proportie is het aantal analyse eenheden (respondenten) met een bepaald kenmerk, gedeeld door het totale aantal Het kenmerk wordt gemeten door een dichotome variabele met doorgaans de codes 0 of 1 (heeft het kenmerk wel of niet). Hieruit volgt dat De nulhypothese zal in veel gevallen een getal groter dan 0 vermelden voor de verwachte proportie in de populatie. Dit wordt weergegeven met P1o. De gevonden proportie in de steekproef krijgt de notatie Om te bepalen of de steekproef groot genoeg is, neemt men vaak als vuistregel dat in het rond de P1o, de proporties 0 1 niet mogen voorkomen. Voor proporties is de statistisch juiste steekproevenverdeling de zogenaamde binomiale verdeling en deze lijkt zeer op de normale verdeling als aan de eis wordt voldaan. Als hieraan niet wordt voldaan, kan de overschrijdingskans (p) het beste berekend worden met de binomiale verdeling. Toetsen op verschil in gemiddelden Hierbij wordt het verschil tussen twee of meer gemiddelden getoetst. Daarbij wordt onderscheid gemaakt tussen het verschil in gemiddelden in twee afhankelijke (of gekoppelde) groepen en het verschil in gemiddelden tussen twee of meer verschillende onafhankelijke groepen. Twee afhankelijke groepen: Als twee groepen statistisch afhankelijk zijn, dan betekend dit dat de (vaak respondenten) van de ene groep een bepaalde relatie met de respondenten in de andere groep hebben. Dit koppel scoort steeds op twee variabelen en als deze vergelijkbaar zijn dan kan per koppel het verschil worden berekend. Deze nieuwe variabele heeft een gemiddelde, het gemiddelde verschil genoemd. De nulhypothese bij toetsing hiervan luid vaak dat er geen verschil bestaat (waarde 0). De alternatieve hypothese is doorgaans gericht, dat wil zeggen dat men vooraf een idee heeft welke richting het verschil in gemiddelden zal hebben. Twee onafhankelijke groepen: Het is ook mogelijk verschillen in gemiddelden te berekenen tussen twee groepen die los van elkaar staan, dus onafhankelijk zijn. Bij deze groepen wordt het verschil bepaald door het gemiddelde in groep 1 af te trekken van het gemiddelde in groep 2. De berekening van de standaardfout hierbij is ondermeer afhankelijk van het verschil tussen spreiding (variantie) binnen de groepen. Homoscedasticiteit: als ze gelijk zijn en hetroscedasticiteit: als ze ongelijk zijn. Dit wordt getoetst met de test. Voor de toetsing van het verschil in gemiddelde wordt de tverdeling gebruikt. De geeft aan hoeveel standaardfouten het gevonden verschil afligt van de waarde onder Ho (vaak de waarde 0). Met behulp van deze is vervolgens uit te rekenen hoe groot de overschrijdingskans (P) is en deze wordt ten slotte vergeleken met het significantieniveau. Ook hier geld dat de alternatieve hypothese vaak gericht is, dan kan men de enkelzijdige p vergelijken met het significantieniveau. is voor vierkante tabellen. kan gebruik worden voor rechthoekige tabellen. Voor bepaling van de sterkte kunnen dezelfde vuistregels worden gebruikt als voor V. Doorgaans zal onder Ho verondersteld worden dat het totale aantal consistente en inconsistente paren aan elkaar gelijk is. Spearmans rangcorrelatie (Rs) : samenhang tussen ordinale variabelen is ook uit te drukken als het verschil in rangorde. Bij een perfecte samenhang is Als er geen relatie is dan is en bij een perfect negatieve samenhang is Om echter deze rangscores te berekenen moeten deze eerst worden omgerekend worden naar Om de van Spearman te toetsen, kan bij steekproeven met een omvang van 30 of meer gebruik worden gemaakt van de De geeft wederom aan wat de relatieve afstand is tussen de gevonden rangcorrelatie en de correlatie onder de nulhypothese. Als men stijgende of dalende verbanden tussen intervalvariabelen wil beschrijven is Rs een beter alternatief dan Kendall tau. Samenhangsmaten voor en ratiovariabelen Pearsons (r): de gedachte achter deze samenhangsmaat is dat deze maximaal 1 dient te zijn als een stijging met 1 eenheid op de ene variabele gepaard gaat met een stijging van 1 eenheid op de andere variabele. Dit wordt een lineare samenhang genoemd omdat de verandering constant is. Ook hierbij moeten de variabelen eerst worden omgerekend naar een De toetsing van de gebeurt met de tverdeling als de steekproefomgang 30 of groter is. De Pearson correlatie is een vaak gebruikte maat voor samenhang. Eis is wel dat het verband bij benadering lineair is. Dit is grafisch te controleren met een lijndiagram en numeriek door r te vergelijken met Rs. Een nadeel van r is dat de hoogte van de correlatie erg gevoelig is voor extreme scores, vooral als er relatief weinig waarnemingen zijn. Lineaire Hiermee is het mogelijk om met een zekere precisie de score op een afhankelijke variabele te voorspellen op basis van onafhankelijke variabele of zelfs meerdere De berekening van de (regressie) lijn is dusdanig dat het gemiddelde van alle verticale afstanden tussen de waarnemingen en de regressielijn nul is. Een verschil met de echte waarde en de verwachte waarde, als af te lezen op de lijn, wordt ook wel error of residu genoemd. Als de regressielijn is bepaald, dan staat vast met welke factor de y gemiddeld stijgt als x met 1 stijgt. Deze factor staat in de wiskunde bekend als de (rc), maar wordt in de genoemd. Naast de (b) is er nog een getal van belang, namelijk het intercept of constante (a). Elke rechte lijn is te beschrijven met In de sociale wetenschappen is het doorgaans van minder belang om te weten in hoeverre het model een goede voorspelling doet van de score op de afhankelijke variabele. Vaak gaat het vooral om het aantonen van een lineaire tendens. Mocht de verklaringskracht van het model wel relevant zijn, dan is de zogenaamde verklaarde variantie van y een veel gebruikt middel. Uitkomsten van zijn gevoelig voor uitschieters, vooral als de steekproefomvang kleiner is dan 200. (relatieve samenhangsmaat)dit is een samenhangsmaat die ongevoelig is voor (veranderingen in) de verdelingen. Odd betekend kansverhouding. Een van 1 betekend dat beide kansverhoudingen gelijk zijn aan elkaar, er is dan naar verhouding geen verschil tussen beide van de heeft als voordeel dat relatieve verschillen veel beter tot uitdrukking komen. Een nadeel is dat er geen maximale waarde bestaat. Als de samenhang negatief is, dan ligt de namelijk tussen 1 en oneindig klein. Als de samenhang positief is dan ligt deze tussen 1 en oneindig groot. Een geeft dus wel de richting van de samenhang aan, maar de hoogte ervan zegt niets over de sterkte van de samenhang. Verder wordt de altijd berekend op basis van de aantallen in vier cellen. In een tabel met twee rijen en twee kolommen is er dus odds ratio maar bij elke andere tabel zij dat er meer. Dit kan een nadeel vormen bij grote tabellen als men geen onderscheid weet te maken tussen relevante en minder relevante odds Afgezien daarvan blijft het van de weinige samenhangsmaten die ongevoelig zijn voor de aantallen in de marginalen en dat maakt het bij uitstek geschikt om beschrijvingen te geven van verschuivingen in bijvoorbeeld ongelijkheid. Voor het berekenen van de odds ratio is het meetniveau van de variabelen irrelevant. Dit komt omdat er steeds maar twee van beide variabelen gebruikt worden. Mulivariate analyse Het aannemelijk maken dat de gevonden samenhang niet het resultaat is van andere variabelen is mogelijk met de zogenaamde multivariate analyse. In dergelijke analyses kan worden nagegaan of de gevonden bivariate relaties ook blijven bestaan nadat rekening is gehouden met andere variabelen. Men spreekt in dat verband ook wel van Bij het controleren voor de invloed van of meer variabelen kunnen zich verschillende situaties voordoen met zeer uiteenlopende interpretaties. De volgende vijf modellen worden hierbij onderscheiden: Interpretatiemodel: als de oorspronkelijke samenhang tussen x en y gereduceerd wordt tot een samenhang die niet significant afwijkt van 0, na rekening te houden met of meer controlevariabelen. y Schijnrelatiemodel: als de oorspronkelijke samenhang tussen een en een yvariabele verdwijnt of van teken verandert na rekening te houden met (een) andere varabele(n) (z). z x y Hybridemodel: als er een gereduceerde, maar significante samenhang tussen x en y blijft bestaan nadat er is gecontroleerd voor of meerdere variabelen. Afhankelijk van de causale richting tussen x en z is er dan sprake van een gedeeltelijk interpretatiemodel (als x z) x z y of van een gedeeltelijk schijnrelatiemodel (als x). z x y Suppressiemodel: Als de samenhang tussen x en y sterker wordt na controle voor of meer andere variabelen. Als effecten inderdaad voor bepaalde groepen of anders zijn, dan spreekt men van interactie. Interacties kunnen gematigd zijn in de zin dat effecten elkaar weliswaar niet steeds even sterk zijn maar wel steeds dezelfde richting hebben. In een sterkere variant van interactie zijn de effecten nul onder bepaalde In de sterkste interactievorm zijn effecten soms positief en onder andere omstandigheden negatief. z x y Multipele lineaire Deze analyse wordt in de praktijk het meeste gebruikt bij toetsen van variabelen van interval of ratio meetniveau met veel Deze manier bied namelijk de mogelijkheid om meerdere onafhankelijke interval of ratiovariabelen op te nemen. Nominale en ordinale variabelen kunnen echter ook worden gebruikt door ze eerst om te zetten naar dichotome variabelen die per definitie een rationiveau bezitten.

Was dit document nuttig?

Premium

Dit is een Premium document. Sommige documenten op Studeersnel zijn Premium. Upgrade naar Premium om toegang te krijgen.

Samenvatting met alle toetsen.

Vak: Statistiek 2 (CAOS) (SOW-MTB2008)

3 Documenten

Studenten deelden 3 documenten in dit vak

Universiteit: Radboud Universiteit Nijmegen

Was dit document nuttig?

Dit is een preview

Wil je onbeperkt toegang? Word Premium en krijg toegang tot alle 5 pagina's

Toegang tot alle documenten
Onbeperkt downloaden
Hogere cijfers halen

Uploaden

Deel jouw documenten voor gratis toegang

Ben je al Premium?

Toetsende statestiek

Symbolen:

: sigma, de standaardafwijking

: significantieniveau, manier van toetsing voor H0 en Ha

: mu, het gemiddelde

: steekproefgemiddelden bij een normale verdeling

p: overschrijdingskans

s: standaardafwijking in de steekproef

Hypothese toetsing

Waarschijnlijkheid van waarden in de populatie

Ho: de nulhypothese, verwoord een verwachting die recht tegenover de onderzoeksverwachting

staat.

Ha: alternatieve hypothese: vloeit doorgaans voort uit nieuwe inzichten/theorieën. (vaak gericht)

Ho wordt aannemelijk geacht totdat er een zeer sterke aanwijzing is dat Ha waarschijnlijker is.

Om dit te toetsen wordt een significantieniveau gebruikt. Hoe groot je significantieniveau is bepaald

het verwerpingsgebied. Dit bereken je aan de hand van de overschrijdingskans (p).

-Als de enkelzijdige overschrijdingskans kleiner of gelijk is aan het significantieniveau dan

wordt de nulhypothese verworpen en wordt de gerichte alternatieve hypothese aanvaard.

-Als de dubbelzijdige overschrijdingskans kleiner of gelijk is aan het significantieniveau dan

wordt de nulhypothese verworpen en wordt de ongerichte alternatieve hypothese aanvaard.

(p) wordt in spss aangegeven in proporties.

Het significantieniveau geeft ook aan hoe groot de kans is dat men onterecht H0 verwerpt. Dit staat

bekend als ‘type 1 fout’ of ‘fout van de eerste soort’. (hierom mag het significantieniveau niet boven

de 0.10 komen.)

-Men dient bij gerichte hypothesen eerst te controleren of de steekproefuitkomst inderdaad

in de verwachte richting afwijkt van de populatiewaarde onder de nulhypothese.

-Het niet verwerpen van de nulhypothese (bij p >

∝

) betekend niet dat H0 aanvaard

wordt.

-Het aanvaarden van Ha betekend niet dat deze waar is (men werkt met een steekproef i.p.v.

een populatie). Je kan wel zeggen dat Ha veel waarschijnlijker is dan H0.

Centrale limietstelling: de eigenschap dat een steekproevenverdeling zo goed als normaal verdeeld

is, ongeacht de vorm van de verdeling van de oorspronkelijke variabele. Dit geldt grofweg als de

steekproeven elk uit 30 individuen of meer bestaan.

Betrouwbaarheidsintervallen: Men wilt in het algemeen zowel een betrouwbare als een

informatieve schatting geven van de onbekende waarde in de populatie. Daarom is het in de sociale

wetenschappen gangbaar dat de mate van betrouwbaarheid ligt tussen de 90% en de 99%.

Univariate toetsen

Toetsen op gemiddelde: hier is maar één variabele bij betrokken. Er wordt hier getoetst of een

variabele afwijkt van een bepaald populatiegemiddelde uit de nulhypothese

Hierbij is de standaardafwijking in de populatie niet bekend. De standaardafwijking in de steekproef

(s) blijkt een goede benadering van de standaardafwijking in de populatie te zijn hiervoor in de plaats.

Omdat

geschat wordt door s resulteert dit in een wat breder gespreide steekproevenverdeling,

beter bekend als de t-verdeling. De t-waarden in deze verdeling zijn wat interpretatie betreft gelijk

Waarom is deze pagina onscherp?

Dit is een Premium document. Word Premium om het volledige document te kunnen lezen.