Longitudinelle undersøgelser

Longitudinelle undersøgelser

Bayesisk statistik - en lille introduktion med nogle anvendelser Jan Ivanouw Oversigt over oplgget Historisk Bayesiske principper Anvendelse af Bayes Hypotesetestning bruge tidligere viden? Prdiktion hvad kan man slutte fra en test?

Estimering beregning af model og strrelser Historisk baggrund Statistikkens tidlige historie - en tilskret lynoversigt

Bernoulli Bayes Legendre Galton Karl Pearson Fisher Bernoulli En hel familie der beskftigede sig med

sandsynligheder i 1600-1700-tallet Sandsynlighed for en begivenhed kan opstilles ud fra frekvensen af begivenheden Eks. hvis en mnt viser krone omtrent halvdelen af gangene den bliver kastet, s regner vi med at sandsynligheden for krone er omtrent Alts bygger vi p frekvenser -> vi er frekventister Thomas Bayes 1701-1761 Engelsk prst, der skrev et enkelt vrk Not publish or perish, but publish only after

perished(by friend in1763) Formulerede her loven for at kombinere sandsynligheder for to begivenheder Sandsynligheden for at begge forekommer er sandsynligheden for at den ene forekommer gange sandsynligheden for at den anden forekommer hvis den frste er forekommet en betinget sandsynlighed Bayes formel i grundudgave

Bayesisk princip Man bruger ikke kun frekvensen af en begivenhed til at vurdere sandsynligheden Man bruger ogs teori og tidligere viden Eks. selvom en mnt kun falder omtrent halvdelen af gangene p krone, s ved vi at der er to sider af mnten, og regner derfor allerede p forhnd med at sandsynligheden m vre Vi skal have noget solid empiri for at ndre opfattelse -> vi er s Bayesianere

Adrien-Marie Legendre 1752-1833 Least squares-metoden Udlber af problem i astronomien: nr flere foretager samme observationer, ses sm fejl Generaliseret til andre sammenhngende observationer, f.eks. to variable der undersges for sammenhng I koordinatsystem over observationerne tilpasses en linie der lgges s kvadratet p afvigelserne til begge sider p linien bliver s sm som muligt

Least Squares Francis Galton 1822-1911 Mlte alt muligt Interesseret i sammenhngene mellem ting der kunne mles som alts kan vises i koordinatsystemet Opfandt korrelationskoefficienten til at mle strrelsen af sammenhngene

Karl Pearson 1857-1936 Viderearbejde med Galtons korrelationskoefficient Tilhnger af Bayesisk statistik Opfinder af Ki-i-anden-testen Og meget mere Ronald A. Fisher 1890-1962

Modstander af Bayesiske metoder -> frekventist Modstander af Karl Pearson Statistisk hypotesetestning i lyset af eksperimentdesign Maximum Likelihood: En parameter der skal findes, varieres systematisk langs x-aksen Sandsynligheden (likelihood) for at den aktuelle vrdi af parameteren kan passe med de observerede data afbildes p y-aksen

Der hvor sandsynligheden er strst (maximum), m vi have den rigtige vrdi af parameteren Maximum likelihood Tre konkurrerende statistiske principper Least squares (Legendre) Maximum likelihood (Fisher) Bayesisk statistik (Bayes efterflgere)

Implementering i Mplus Alle tre estimationsprincipper kan anvendes i Mplus Least squares anvendes ofte ved kategoriale og ordinale data Maximum-Likelihood ofte bedre, f.eks. til hndtering af manglende data. Vanskelig ved mange variable, fordi metoden krver numerisk integration Bayesiske estimationsmetoder lser mange problemer ved de andre metoder, samt har yderligere fordele

Bayesisk statistik Udgangspunktet for Bayesisk statistik Bayes formel Kravet om uafhngighed i statistikken Baggrunden for at mange statistiske metoder forudstter uafhngighed mellem

begivenheder (data), er at sandsynligheden for kombinationerne s bliver simple produkter Hvis data er indbyrdes afhngige, bliver det mere kompliceret -> Bayes formel om betingede sandsynligheder Sandsynlighed for at to begivenheder oprtrder samtidig Hvis begivenhederne er hinanden udelukkende, er sandsynligheden for at de begge optrder,

sandsynligheden for den ene gange med sandsynligheden for den anden Hvis begivenhederne ikke er uafhngige, er sandsynligheden for at begge forekommer, sandsynligheden for at den ene forekommer gange sandsynligheden for at den anden forekommer afhngig af om den frste er forekommet en betinget sandsynlighed Betingede sandsynligheder

Anvendelse af bayesiske metoder Hypotesetestning Prdiktion Estimation Hypotesetestning Bayes formel og hypotesetestning Dette er den anvendelse der har givet anledning til mest kontrovers:

Skal man undersge en hypotese uden anden information end den som fremgr af de indsamlede data, eller skal man justere den statistiske hypotesetestning i lyset af de forventninger man har fra tidligere undersgelser og viden i almindelighed? Bayesisk hypotesetestning Der ingr tre begreber: Prior distribution Information fra undersgelsen (den empiriske fordeling)

Posterior distribution (resultatet af analysen) Det kritiske punkt er prior distribution, hvor man angiver en fordelingstype (typisk normalfordeling) med bestemte parametre (gennemsnit og varians ved normalfordeling) Prior distribution udtrykker forhndsviden eller -forventning Prior distribution integreres med fordelingen af information fra undersgelsen og danner tilsammen posterior distribution, som sledes trkkes i den ene eller den anden retning af prior distribution De tre fordelinger i Bayesisk

analyse Bayesisk hypotesetestning (meget simplificeret) Vi har en forhndsforventning om en pvrdi (prior) Den p-vrdi der kommer ud af den statistiske test fra vores undersgelse, opfattes som den nye viden som tilfjes vores samlede viden Den endelige p-vrdi (posterior) bliver en integration af prior og empiri

Prdiktion Typisk anvendelse: testning Nr vi foretager en psykologisk undersgelse, regner vi normalt med at vi s nogenlunde kan regne med resultatet (med tilfjelsen: man skal jo altid tage testresultater med et gran salt) Bayesiske principper kan bruges til at vise mere prcist hvor gode vores forudsigelser

er Bayes metode og prdiktion Vi sger den positive prdiktive vrdi, dvs sandsynligheden for at et positiv testresultat faktisk betyder at vi har fundet egenskaben (sygdom, personlighedstrk e.l.) (=P(A|B)) Vi sger den negative prdiktive vrdi, dvs sandsynligheden for at et negativt testresultat faktisk betyder at fravr af egenskaben (sygdom, personlighedstrk e.l.) For at finde dette har vi brug for to testegenskaber: testens sensitivitet og specificitet

og en egenskab ved den undersgte population: prvalens (base rate) Testegenskaber Sensitivitet: Hvis en person har egenskaben (sygdommen), hvor stor chance er der for at testen bliver positiv (=P(B|A)) ? Specificitet: Hvis personen faktisk ikke har egenskaben

(sygdommen), hvor stor er chancen for at testen bliver negativ? Egenskab ved populationen Base rate (=prvalens): Blandt de personer der typisk undersges med testen, hvor stor en del har faktisk egenskaben (sygdommen) (= P(A)? Det er det samme som prior probability: Det vi tror p forhnd uden at vide andet (dvs.

uden testning eller anden viden om personen) Prdiktive vrdier De prdiktive vrdier (positive og negative) fra en test er posterior sandsynlighed Den sandsynlighed vi kan f ved at vide noget mere (testresultat el.lign) Bayes formel i grundudgave

Prdiktion ud fra positiv test Positiv prediktiv vrdi Faktiske forhold Testresultat Syg Ikke syg Posivt B|A Negativt I alt A Pos pred

I alt B P(A|B) dvs [P(B|A) * P(A)] / P(B) Prediktion ved sjlden egenskab Testresultat Positivt Negativt I alt

Pos pred Neg pred Sensitivitet Specificitet Base rate Faktiske forhold Syg Ikke syg 40 190

10 760 50 950 0,17 0,99 0,80 0,80 0,05 (=prvalens) I alt

230 770 1000 Prediktion ved sjlden egenskab - supergod test Testresultat Positivt Negativt I alt Pos pred

Neg pred Sensitivitet Specificitet Base rate Faktiske forhold Syg Ikke syg 48 48 3

903 50 950 0,50 1,00 0,95 0,95 0,05 (=prvalens) I alt 95

905 1000 Prediktion ved hyppigere egenskab Testresultat Positivt Negativt I alt Pos pred Neg pred

Sensitivitet Specificitet Base rate Faktiske forhold Syg Ikke syg 200 150 50 600

250 750 0,57 0,92 0,80 0,80 0,25 (=prvalens) I alt 350 650

1000 Prediktion ved hyppigere egenskab supergod test Testresultat Positivt Negativt I alt Pos pred Neg pred Sensitivitet

Specificitet Base rate Faktiske forhold Syg Ikke syg 238 38 13 713 250

750 0,86 0,98 0,95 0,95 0,25 (=prvalens) I alt 275 725 1000

Prediktion ved meget hyppig egenskab supergod test Testresultat Positivt Negativt I alt Pos pred Neg pred Sensitivitet Specificitet

Base rate Faktiske forhold Syg Ikke syg 665 15 35 285 700 300

0,98 0,89 0,95 0,95 0,70 (=prvalens) I alt 680 320 1000

Sekventiel undersgelse 1. undersgelsesmetode: almindelig Faktiske forhold Testresultat Syg Ikke syg I alt Positivt 40 190 230 Negativt

10 760 770 I alt 50 950 1000 Pos pred 0,17 Neg pred 0,99

Sensitivitet 0,80 Specificitet 0,80 Base rate 0,05 2. undersgelsesmetode: supergod Faktiske forhold Testresultat Syg Ikke syg I alt

Positivt 38 10 48 Negativt 2 181 183 I alt 40 190

230 Pos pred 0,80 Neg pred 0,99 Sensitivitet 0,95 Specificitet 0,95 Base rate 0,17

Forudsigelse i almindelighed Vejret, Prsidentvalg, Jordsklv Skelne mellem prior sandsynlighed (base rate) og posterior sandsynlighed (beregnet med Bayes princip) Finde undersgelsesmetoder med hj sensitivitet og specificitet som kan forbedre posterior sands Se Nate Silvers bog fra 2012: The signal and the noise. Why so many predictions fail but some dont.

Estimering Bayes formel og estimering Denne anvendelse er ukontroversiel og er efterhnden ogs et stort hit blandt frekventister Metoden er meget beregningsintensiv og er frst blevet aktuel med de nyeste meget hurtige PC-ere

Bayesisk parameterestimation Frekventist vs. Bayesisk parameterestimation Bayesisk estimeringsteknik MCMC-beregning (Monte Carlo Markov Chain) bestr i lange beregningsflger med simulation ud fra tilfldigt valgte startvrdier og med anvendelse af en angivet prior fordeling og den empiriske fordeling

Beregningerne starter som ret drlige tilnrmelser, som imidlertid bliver bedre efter hundredevis af beregninger (her kommer de hurtige PC-er ind) Processen standses nr der er net et stabilt niveau Eksempel p MCMC-kder Bayesisk estimering Resultatet af estimeringsprocessen er ikke en enkelt vrdi, men en fordeling som tages ud fra f.eks. den halvdel af de estimerede vrdier der

kommer fra slutningen af kden (nr den er stabil) Eksempelvis bliver estimering af et testresultat for en person ikke et enkelt tal, men en fordeling af mulige vrdier. Man kan vlge at bruge gennemsnit eller median i fordelingen som personens resultat, og usikkerheden i resultatet bliver spredningen i denne fordeling Eksempel p estimatfordeling Valg af prior distribution

Man kan vlge en non-informative prior distribution som ikke trkker resultatet (posterior distribution) i nogen bestemt retning, men som bevarer fordelene ved teknikken i MCMCprocessen Man kan vlge informative prior distribution med information om gennemsnit og/eller spredning (evt. andre fordelingsparametre ved ikkenormaltfordelte priors) Non-informative prior Man kan vlge en fordeling som ikke indeholder information, dvs. med

gennemsnit 0 (s den ikke trkker i nogen bestemt retning) og varians uendelig, dvs en ret linie (s den heller ikke trkker variansen i posterior fordeling i en bestemt retning) Informative prior: spredning Ved at vlge en prior distribution med gennemsnit 0 og en vis (ofte lille) spredning, kan man give mulighed for at parametre der i ikke-bayesisk estimering sttes til 0, mulighed for at have en lille vrdi

Eksempelvis bygger konfirmatorisk faktoranalyse p hypoteser om at nogle items ikke loader p nogle af faktorerne, dvs at loadings sttes til 0 Dette kan vre en for streng forudstning og give drlige modeller (og svarer teoretisk til at anvende en prior med spredning 0) Man kan vlge at stte gennemsnit for sdanne loadings til 0, men med en lille spredning, som giver mulighed for at tillade en smule loading, og dermed opn bedre modeller Eksempel CFA

Hvor kommer prior fordeling fra? Tekniske fordele ved bayesisk estimering Modeller der er meget beregningsintensive med de andre estimationsmetoder (eks. M-L estimering af mange variable), kan gennemfres hurtigere og lettere med bayesisk estimering Modeller der ikke vil konvergere med andre

metoder, vil ofte konvergere med bayesisk estimering, evt. vha. priors med lille varians Mplusinstruktion TITLE: Bayesisk estimering af konfirmatorisk faktoranalyse. DATA: FILE IS ex5.1.dat; VARIABLE: NAMES ARE y1-y6; ANALYSIS:

ESTIMATOR = BAYES; MODEL: f1 BY y1-y3; f2 BY y4-y6; Litteratur Gill, J. (2002). Bayesian methods. A social and behavioral sciences approach. New York: Chapman & Hall Muthn, B (2011) Mplus short courses Topic 9. Bayesian analysis using Mplus. Download: www.statmodel.com Katz, V.J. (2009). A history of Mathematics. An

introduction. 3rd edition. Boston: Addison-Wesley. Senn, S. (2003). Dicing with death. Chance, risk and Health. Cambridge: Cambridge University Press. Silver, N. (2012). The signal and the noise. Why so many predictions fail but some dont. New York: Penguin.

Recently Viewed Presentations

 • QC in a Digital World - BC Centre for Disease Control

  QC in a Digital World - BC Centre for Disease Control

  On Agfa Impax, the SMPTE pattern is accessed after login by left-clicking on a system wizard icon which then displays the same SMPTE pattern on both displays. On iSite workstations, the same occurs except the SMPTE pattern is accessed through...
 • The Progressive Movement - adair.k12.ky.us

  The Progressive Movement - adair.k12.ky.us

  This meant that a bank might not have full access to its reserves when customers needed to withdraw or borrow money. Federal Reserve Act—placed national banks under control of a Federal Reserve Board, which set up regional banks to hold...
 • Online Submission and Grading of Essays - ucc.ie

  Online Submission and Grading of Essays - ucc.ie

  Note that when your 2013-2014 Blackboard module is deleted in September 2014, the essays may also be deleted. You must keep a backup copy. When next year's module is created in Blackboard, delete the places you created for essay submissions,...
 • Subject code and name Course code and name Name of ... - TAFE NSW

  Subject code and name Course code and name Name of ... - TAFE NSW

  Remuneration. However, after due consultation, it was decided NOT to ban commissions for personal insurances, at this stage. Life companies that do not offer on a direct basis, but via intermediaries such as financial planners, would pay a commission that...
 • Food Safety Regulation - Hamline University School of Law

  Food Safety Regulation - Hamline University School of Law

  All records relating to recalled product production, HACCP plans, SSOPs, and other standard requirements must be made available for FSIS review and copy . ... Buyers or sellers of wholesale or jobbing quantities. Can include retailers who sell direct to...
 • Sexual Selection - Recognized as a deviation from

  Sexual Selection - Recognized as a deviation from

  If adaptive (must be tested), then selective pressures differ - Some traits appear COSTLY to survival. Darwin (1871) described how showy plumage in birds should decrease survival. In order for it to be ADAPTIVE (increase reproductive success), this COST must...
 • CHILD PASSENGER SAFETY Vanessa Salcedo & Rebecca Turcotte

  CHILD PASSENGER SAFETY Vanessa Salcedo & Rebecca Turcotte

  Secondary safety belt laws allow law enforcement officers to only issue a citation for not wearing a seat belt only when the driver is stopped for another infraction. ... Robert Sander, Pediatrician ... Children < 4 y.o. must be restrained...
 • PLS 201: Research Methods Dr. Jungkun Seo Ms.

  PLS 201: Research Methods Dr. Jungkun Seo Ms.

  Randall Library Catalog Local and Consortium Place holds for UNCP & FSU WorldCat 9,000 libraries Which libraries own ILLiad Internet sites Google Books Amazon/BN/Bookfinder/ABEBooks Book Reviews in periodicals Databases - Starting Places CQ Electronic Library The definitive reference resource for...