Tõenäosus ja intuitsioon

Eelmises peatükis nägime, et tõenäosusteooriast mõtlemine ning tõenäosuslike kirjelduste ja vahendite kasutamine praktikas ei olegi alati nii lihtne, kui ainult täringute ja müntide baasil mõelda võiks. Saame lugejat rõõmustada – tegelikult on asi veel hullem! Tõenäosusteooria üllatab juba enne matemaatilistesse ja filosoofilistesse sügavustesse piilumist.

Monty Halli probleem

 

Oletame, et oled telemängus ning pead valima kolme ukse vahel. Ühe ukse taga on soliidne sportauto, ülejäänud kahe ukse taga seisab aga kurvameelne kits. Kuna kõik uksed on täpselt ühesugused, valid ilmselt alustuseks ühe neist ustest üsna suvaliselt. Enne veel, kui kõike teadev mängujuht Monty Hall selle ukse lahti teeb, avab ta kahest allesjäänud uksest veel ühe ukse. Kusjuures ta avab just sellise, mille taga peidab end kurvameelne kits. Nüüd pakub mängujuht Sulle valiku: kas Sa sooviksid muuta oma ukse valikut?

Loomulik küsimus on: kas oleks kasulik see vahetus teha?

Esimene reaktsioon võiks olla, et kui pärast on kaks ust alles, siis ei ole vahet, kas vahetada või mitte – on ju ühe avamata ukse taga kits ja teise taga auto ning seega auto võitmise tõenäosus täpselt pool. Sellist esmast intuitsiooni jagavad paljud, sealjuures ka uhkete doktorikraadidega matemaatikud ja teadlased.

Siiski tuleb välja, et see intuitsioon on ekslik – tegelikult tuleb alati ust vahetada, sel juhul on auto võitmise tõenäosus tervelt kaks kolmandikku. Tõepoolest, oletame, et valisid alguses suvalise ukse. Kolmandikul juhtudel valisid Sa kohe ukse, kus oli auto. Sellisel juhul on ukse vahetamine kahjulik – teise avamata ukse taga peidab ennast kits. Kahel kolmandikul (66,7%) juhtudest valid aga alguses ukse, mille taga seisab kits. Kuna mängujuht avab iseseisvalt veel teisegi ukse, mille taga on kits, jääb viimase avamata ukse taha auto. Sel juhul on vahetamine kasulik. Seega, kui Sa mitte kunagi ust ei vahetaks, siis võidaksid alati esimesel juhul ehk kolmandikul kordadest. Kui Sa aga alati vahetaksid ust, siis võidaksid kahel kolmandikul kordadest.Segaduse vältimiseks on ilmselt kõige targem kohe alguses välja kirjutada, mis on kogu olukorra tõenäosuslik kirjeldus. Seejärel järge ajades ei saa intuitsioon meie kulul nalja teha.Edasiseks mõtlemiseks jätame järgmise küsimuse: kuidas muutuksid tõenäosused, kui telejuht ise ei teaks, mis uste taga on, ning avaks kogemata ukse, mille taga on kits?

 

Simpsoni paradoks

 

Järgnevalt toome tõesti sündinud loo neerukivide vastaste ravimite katsetamisest. 1980-ndatel katsetati kahte erinevat ravimit, mõlemat eraldi väikeste neerukividega ja suurte neerukividega patsientidel.

Saadud tulemused võib koondada järgmisesse tabelisse, kus on toodud igas rühmas paranenud juhtumite protsent, sulgudes on veel lisaks kirjas täpselt, kui palju katsealuseid ühte või teise rühma kuulus.

verojat21

Nagu näeme, näitavad esmapilgul tulemused, et nii väikeste kui suurte neerukivide korral toimib ravim A paremini. Kui jätta aga suurte ja väikeste kivide eristamine ära, näeksid kokku liidetud tulemused välja järgnevad:

verojat20

Nüüd osutub paremaks hoopis ravim B! Seda on ehk raske uskuda, kontrolli parem arvutused hoolega üle ja veendu, et me Sulle vingerpussi ei mängi. Selles veendunud, on muidugi mõistlik küsida, kumba ravimit Sa ise eelistaksid. Kas see, kui Sa teaksid, et sul on väikesed neerukivid, peaks Su otsust muutma? Päris raske otsustada! Sellise paradoksaalse olukorra tagamaa ise ei ole väga keeruline. Nimelt ravimi B jaoks oli meil lihtsalt tunduvalt rohkem katseisikuid väikeste neerukividega, kellel on paremad raviväljavaated ning seega ka parem paranemisprotsent. Need paljud õnnelikud patsiendid viivad ka ravimi B üldise paranemistõenäosuse üles. Ravimi A korral oli küll väikeste neerukividega patsientidel veelgi suurem paranemise tõenäosus, kuid neid patsiente oli ise õige vähe ning seega kogu paranemisprotsenti mõjutasid eelkõige suurte neerukividega patsiendid. See tagamaa selgitus ei anna muidugi veel head vastust sellele, milline peaks olema õige otsus. Otsus oleneb sellest, kumba tõenäosuslikku kirjeldust peame täpsemaks ja tahame rakendada. Esimeses tabelis toodud tulemused vastavad täpsemale kirjeldusele: siin on eraldatud väikesed ja suured neerukivid. Teine tabel vastab üldisemale kirjeldusele: kõiki neerukivisid käsitletakse ühtlaselt. Uurides neid tabeleid lähemalt, tundub, et neerukivide suurus siiski mängib ravis ja paranemises teatavat rolli. Seega tundub loomulik, et kui oma neerukivide suurust teame (ja seda teadmist pole keeruline hankida), peaksime kasutama spetsiifilisemat kirjeldust ning valima ravimi A. Ainus probleem võiks olla selles, et võibolla on liialt vähe katseisikuid näiteks väikeste neerukividega. Võibolla on saadud protsent seeläbi liiga ebatäpne? Kui kardame seda, peaksime valima ravimi B. Nagu juba varemgi, oleme valiku ees: kas spetsiifilisem kirjeldus ja vähem andmeid või vähem spetsiifiline ja rohkem andmeid. Tegelikult on võimalik igati ka välja arvutada, kas ebatäpsus kaalub spetsiifilisuse üles või mitte, siit raamatust jääb see aga väljapoole.

 

Sünnipäeva ülesanne

 

Kui klassis on 36 õpilast, siis kui suur on tõenäosus, et kahel neist on sünnipäev samal päeval? Enne kui arvutusteni läheme, tee oma pakkumine!

Ja nüüd mõtle, mida see tõenäosus täpselt tähendab. Nagu oleme terves osas rõhutanud, viitab sõna tõenäosuse kasutamine kohe, et meil on mõttes mingi lihtsustatud kirjeldus. Lihtsustatud tähendab seda, et peame tegema ja teemegi mõned eeldused.

Näiteks seekord eeldame, et igal aasta päeval on sündimise tõenäosus võrdne. Kuigi tegelikult sünnib nädala sees rohkem lapsi kui nädalavahetusel ning kõik kuud ei ole aasta jooksul päris ühtlased, näeme ühe internetist leitud valimi graafikust, et tegemist on päris mõistliku eeldusega.

 

Teiseks, kui õpilaste hulgas pole just kaksikvendasid, võime eeldada julgelt, et kõikide õpilaste tõenäosus sündida ühel või teisel päeval on sõltumatu.

Seega võime mõelda, et veeretame lihtsalt 36 täringut, millel igal on 365 võrdväärset külge. Meie küsimus, mis tõenäosusega on kahel õpilasel samal päeval sünnipäev, on siis tõlgendatav kui küsimus, mis tõenäosusega jääb kahel täringul peale sama külg 365-st küljest.

Lihtsam on leida selle sündmuse vastandsündmuse tõenäosus: tõenäosus, et kõik täringud annavad erineva tulemuse.

Selle tarvis hakkame järjepanu arvutama. Kui meil on ainult täring, siis ta annab kindlasti eelnevatest erineva  tulemuse. Kui nüüd veeretada järgminetäring, siis tõenäosus, et tulemus tuleb erinev, on

verojat17

Kui võtta ette kolmas täring, siis juhul, kui esimeste täringute tulemused on erinevad, on tõenäosus, et tema silmade arv erineb mõlemast

verojat18

Nii võime jätkata kuni 36 täringuni välja ning leida tõenäosuse, et kõik täringud andsid erineva tulemuse

verojat19

Seega on vastandsündmuse tõenäosus, selle, et vähemalt kaks täringut  36-st andsid sama tulemuse, tervelt 1 – 0,168 = 0,832. Teisisõnu, selle kirjelduse ning nende eelduste põhjal on tõenäosus, et ühes 36 õpilasega klassis on kahel inimesel samal päeval sünnipäev, rohkem kui 0,8 ehk rohkem kui 80%! See on ikka päris kõrge!

Sama kirjeldust kasutades võib ka näidata, et juba 23 õpilasega klassis on tõenäosus, et kahel õpilasel juhtub sünnipäev täpselt samale päevale, rohkem kui pool. Kuidas on lugu Sinu klassis? Kui see tulemus üllatav tundub, siis ürita välja mõelda, miks see ikkagi üllatav tundub!