Tweet Share

Senast uppdaterad den 6 maj 2020

Sannolikhet kvantifierar osäkerheten i resultaten av en slumpmässig variabel.

det är relativt lätt att förstå och beräkna sannolikheten för en enda variabel. Men i maskininlärning har vi ofta många slumpmässiga variabler som interagerar på ofta komplexa och okända sätt.,

det finns specifika tekniker som kan användas för att kvantifiera sannolikheten för flera slumpmässiga variabler, såsom gemensam, marginell och villkorlig sannolikhet. Dessa tekniker utgör grunden för en probabilistisk förståelse för att passa en prediktiv modell till data.

i det här inlägget kommer du att upptäcka en mild introduktion till gemensam, marginell och villkorlig sannolikhet för flera slumpmässiga variabler.

Efter att ha läst det här inlägget kommer du att veta:

  • gemensam sannolikhet är sannolikheten för att två händelser inträffar samtidigt.,
  • marginell sannolikhet är sannolikheten för en händelse oavsett resultatet av en annan variabel.
  • villkorlig sannolikhet är sannolikheten för en händelse som inträffar i närvaro av en andra Händelse.

Starta ditt projekt med min nya bok Sannolikhet för maskininlärning, inklusive steg-för-steg-handledning och Python källkodsfiler för alla exempel.

låt oss komma igång.

  • uppdatera okt / 2019: Fast mindre stavfel, tack Anna.
  • Uppdatering Nov / 2019: beskrev den symmetriska beräkningen av gemensam sannolikhet.,

en mild introduktion till gemensam, marginell och villkorlig sannolikhet
foto av Masterbutler, vissa rättigheter reserverade.

översikt

denna handledning är uppdelad i tre delar; de är:

  1. sannolikheten för en slumpvariabel
  2. sannolikheten för flera slumpmässiga variabler
  3. sannolikheten för oberoende och exklusivitet

sannolikheten för en slumpvariabel

sannolikheten kvantifierar sannolikheten för en händelse.,

specifikt, det kvantifierar hur sannolikt ett specifikt resultat är för en slumpmässig variabel, såsom flip av ett mynt, roll av en tärning, eller rita ett spelkort från ett däck.

sannolikheten ger ett mått på hur sannolikt det är att något ska hända.

— sidan 57, Sannolikhet: för den entusiastiska nybörjaren, 2016.

för en slumpmässig variabel x är P(x) en funktion som tilldelar en sannolikhet till alla värden på x.,

  • sannolikhetstäthet för X = P(x)

sannolikheten för en specifik händelse A för en slumpmässig variabel x betecknas som P(x=A), eller helt enkelt som P(a).

  • sannolikheten för Händelse A = P(a)

sannolikheten beräknas som antalet önskade resultat dividerat med de totala möjliga resultaten, i de fall där alla resultat är lika sannolikt.

  • Probability = (number of desired outcomes)/(total number of possible outcomes)

det här är intuitivt om vi tänker på en diskret slumpvariabel som rullen av en dö., Till exempel beräknas sannolikheten för en die rolling a 5 som ett resultat av rullande a 5 (1) dividerat med det totala antalet diskreta resultat (6) eller 1/6 eller ca 0.1666 eller ca 16.666%.

summan av sannolikheterna för alla resultat måste vara lika med en. Om inte, har vi inte giltiga sannolikheter.

  • summan av sannolikheterna för alla resultat = 1,0.

sannolikheten för ett omöjligt resultat är noll. Det är till exempel omöjligt att rulla en 7 med en standard sexsidig dö.

  • Sannolikhet för omöjligt utfall = 0.,0

sannolikheten för ett visst resultat är en. Det är till exempel säkert att ett värde mellan 1 och 6 kommer att inträffa när man rullar en sexsidig dö.

  • Sannolikhet för visst resultat = 1,0

sannolikheten för att en händelse inte inträffar, kallad komplementet.

detta kan beräknas med en minus sannolikheten för händelsen, eller 1 – p(a). Till exempel skulle sannolikheten att inte rulla en 5 vara 1 – P(5) eller 1 – 0.166 eller ca 0.833 eller ca 83.333%.,

  • sannolikheten att inte Händelse A = 1-p (a)

nu när vi är bekanta med sannolikheten för en slumpmässig variabel, låt oss överväga sannolikheten för flera slumpmässiga variabler.

vill lära sig sannolikheten för maskininlärning

Ta min gratis 7-dagars e-postkraschkurs nu (med provkod).

Klicka för att registrera dig och även få en gratis PDF ebook version av kursen.,

ladda ner din gratis Mini-kurs

Sannolikhet för flera slumpmässiga variabler

i maskininlärning kommer vi sannolikt att arbeta med många slumpmässiga variabler.

till exempel, med en tabell med data, till exempel i excel, representerar varje rad en separat observation eller händelse, och varje kolumn representerar en separat slumpmässig variabel.

variabler kan vara antingen diskreta, vilket innebär att de tar på sig en ändlig uppsättning värden, eller kontinuerlig, vilket innebär att de tar på sig ett verkligt eller numeriskt värde.,

som sådan är vi intresserade av sannolikheten för två eller flera slumpmässiga variabler.

detta är komplicerat eftersom det finns många sätt att slumpmässiga variabler kan interagera, vilket i sin tur påverkar deras sannolikheter.

detta kan förenklas genom att minska diskussionen till bara två slumpmässiga variabler (X, Y), även om principerna generaliseras till flera variabler.

Och vidare, för att diskutera sannolikheten för bara två händelser, en för varje variabel (X=A, Y=B), även om vi lika enkelt kunde diskutera grupper av händelser för varje variabel.,

därför kommer vi att introducera sannolikheten för flera slumpmässiga variabler som sannolikheten för Händelse A och Händelse B, som i stenografi är X=A och Y=B.

vi antar att de två variablerna är relaterade eller beroende på något sätt.

som sådan finns det tre huvudtyper av sannolikhet som vi kanske vill överväga; de är:

  • gemensam sannolikhet: Sannolikhet för händelser A och B.
  • marginell Sannolikhet: Sannolikhet för Händelse X=en given variabel Y.
  • villkorlig sannolikhet: Sannolikhet för Händelse en given händelse B.,

dessa typer av sannolikhet utgör grunden för mycket av prediktiv modellering med problem som klassificering och regression. Till exempel:

  • sannolikheten för en rad data är den gemensamma sannolikheten för varje inmatningsvariabel.
  • sannolikheten för ett specifikt värde för en indatavariabel är marginalsannolikheten över värdena för de andra indatavariablerna.
  • den prediktiva modellen i sig är en uppskattning av den villkorliga sannolikheten för en utgång som ges ett inmatningsexempel.,

gemensam, marginell och villkorlig sannolikhet är grundläggande i maskininlärning.

Låt oss ta en närmare titt på var och en i sin tur.

gemensam sannolikhet för två variabler

Vi kan vara intresserade av sannolikheten för två samtidiga händelser, t.ex. resultaten av två olika slumpmässiga variabler.

sannolikheten för två (eller flera) händelser kallas den gemensamma sannolikheten. Den gemensamma sannolikheten för två eller flera slumpmässiga variabler kallas den gemensamma sannolikhetsfördelningen.,

till exempel skrivs den gemensamma sannolikheten för Händelse A och Händelse B formellt som:

  • p(a och B)

”och” eller konjunktionen betecknas med upp och ner kapital ”U” operator ”^” eller ibland ett komma”,”.

  • p(a ^ b)
  • p(a, B)

den gemensamma sannolikheten för händelser A och B beräknas som sannolikheten för Händelse A given händelse B multiplicerad med sannolikheten för Händelse B.,

detta kan formellt anges enligt följande:

  • P(a och B) = P(en given b) * p(b)

beräkningen av den gemensamma sannolikheten kallas ibland den grundläggande regeln om sannolikhet eller ”produktregeln” av sannolikhet eller ”kedjeregeln” av sannolikhet.

här är p (en given B) sannolikheten för Händelse A givet att Händelse B har inträffat, kallad den villkorliga sannolikheten, som beskrivs nedan.

den gemensamma sannolikheten är symmetrisk, vilket innebär att P(A och B) är densamma som P(b och a)., Beräkningen med den villkorliga sannolikheten är också symmetrisk, till exempel:

  • p(a och B) = P(a given B) * P(B) = P(B given a) * p(a)

marginell Sannolikhet

Vi kan vara intresserade av sannolikheten för en händelse för en slumpmässig variabel, oavsett resultatet av en annan slumpmässig variabel.

till exempel kallas sannolikheten för X=A för alla utfall av Y.

sannolikheten för en händelse i närvaro av alla (eller en delmängd av) utfall av den andra slumpmässiga variabeln marginalsannolikheten eller marginalfördelningen., Marginalsannolikheten för en slumpvariabel i närvaro av ytterligare slumpmässiga variabler kallas marginalsannolikhetsfördelningen.

det kallas marginalsannolikheten eftersom om alla resultat och sannolikheter för de två variablerna lades ut tillsammans i en tabell (X som kolumner, Y som rader), skulle marginalsannolikheten för en variabel (X) vara summan av sannolikheter för den andra variabeln (Y rader) på marginalen i tabellen.,

det finns ingen speciell notation för marginalsannolikheten; det är bara summan eller facket över alla sannolikheter för alla händelser för den andra variabeln för en given fast händelse för den första variabeln.

  • p(X=a) = sum P(X=A, Y=yi) för alla y

detta är en annan viktig grundregel i Sannolikhet, kallad ”sum-regeln.”

marginalsannolikheten skiljer sig från den villkorliga sannolikheten (beskrivs nedan) eftersom den anser att unionen av alla händelser för den andra variabeln snarare än sannolikheten för en enda händelse.,

villkorlig sannolikhet

Vi kan vara intresserade av sannolikheten för en händelse med tanke på förekomsten av en annan händelse.

sannolikheten för en händelse med tanke på förekomsten av en annan händelse kallas den villkorliga sannolikheten. Den villkorliga sannolikheten för en till en eller flera slumpmässiga variabler kallas den villkorliga sannolikhetsfördelningen.,

till exempel skrivs den villkorliga sannolikheten för Händelse en given händelse B formellt som:

  • p(en given b)

den ”givna” betecknas med pipe ” | ” – operatören; till exempel:

  • p(a | b)

den villkorliga sannolikheten för händelser en given händelse B beräknas enligt följande:

  • p(en given B) = P(A och b) / p(b)

denna beräkning förutsätter att sannolikheten för händelse b inte är noll, t.ex. inte är omöjlig.

begreppet händelse en viss händelse B betyder inte att Händelse B har inträffat (t. ex., är sannolikheten för Händelse A inträffar efter eller i närvaro av händelse B för en given rättegång.

Sannolikhet för oberoende och exklusivitet

När man överväger flera slumpmässiga variabler är det möjligt att de inte interagerar.

vi kanske vet eller antar att två variabler inte är beroende av varandra istället är oberoende.

växelvis kan variablerna interagera men deras händelser kan inte inträffa samtidigt, kallad exklusivitet.,

Vi kommer att titta närmare på sannolikheten för flera slumpmässiga variabler under dessa omständigheter i det här avsnittet.

oberoende

om en variabel inte är beroende av en andra variabel kallas detta oberoende eller statistiskt oberoende.

detta påverkar beräkningen av sannolikheterna för de två variablerna.

till exempel kan vi vara intresserade av den gemensamma sannolikheten för oberoende händelser A och B, vilket är detsamma som sannolikheten för A och sannolikheten för B.,

sannolikheter kombineras med multiplikation, därför beräknas den gemensamma sannolikheten för oberoende händelser som sannolikheten för Händelse a multiplicerad med sannolikheten för Händelse B.

detta kan anges formellt enligt följande:

  • gemensam sannolikhet: P(A och B) = P(A) * P (B)

som vi kan intuit är marginalsannolikheten för en händelse för en oberoende slumpvariabel helt enkelt sannolikheten för händelsen.,

det är tanken på sannolikheten för en enda slumpmässig variabel som är bekant med:

  • marginell Sannolikhet: p(a)

vi hänvisar till marginalsannolikheten för en oberoende Sannolikhet som helt enkelt sannolikheten.

på samma sätt är den villkorliga sannolikheten för en given B när variablerna är oberoende helt enkelt sannolikheten för A eftersom sannolikheten för B inte har någon effekt. Till exempel:

  • villkorlig sannolikhet: P(a given B) = P(a)

Vi kan känna till begreppet statistiskt oberoende från provtagning., Detta förutsätter att ett prov inte påverkas av tidigare prov och inte påverkar framtida prov.

många maskininlärningsalgoritmer antar att prover från en domän är oberoende av varandra och kommer från samma sannolikhetsfördelning, kallad oberoende och identiskt distribuerad, eller i.I.d. för kort.

exklusivitet

om förekomsten av en händelse utesluter förekomsten av andra händelser, sägs händelserna vara ömsesidigt uteslutande.

sannolikheten för händelserna sägs vara osammanhängande, vilket innebär att de inte kan interagera, är strikt oberoende.,

om sannolikheten för Händelse A är ömsesidigt uteslutande med Händelse B, är den gemensamma sannolikheten för Händelse A och Händelse B noll.

  • p(a och B) = 0.0

i stället kan sannolikheten för ett resultat beskrivas som Händelse A eller händelse B, formellt anges enligt följande:

  • p(a eller B) = P(A) + P(B)

”eller” kallas också en union och betecknas som ett kapital ”U” brev; till exempel:

  • p(a eller B) + p(b)

b) = p (a u b)

om händelserna inte utesluter varandra kan vi vara intresserade av resultatet av endera händelsen.,

sannolikheten för icke-ömsesidigt exklusiva händelser beräknas som sannolikheten för Händelse A och sannolikheten för Händelse B minus sannolikheten för att båda händelserna inträffar samtidigt.

detta kan anges formellt enligt följande:

  • p(a eller B) = P(A) + P(B) – P(A och B)

Vidare läsning

det här avsnittet ger mer resurser om ämnet om du vill gå djupare.

böcker

  • Sannolikhet: för den entusiastiska nybörjaren, 2016.
  • mönsterigenkänning och maskininlärning, 2006.,
  • maskininlärning: ett probabilistiskt perspektiv, 2012.

artiklar

  • Sannolikhet, Wikipedia.
  • Notation i sannolikhet och statistik, Wikipedia.
  • självständighet (sannolikhetsteori), Wikipedia.
  • oberoende och identiskt distribuerade slumpmässiga variabler, Wikipedia.
  • ömsesidig exklusivitet, Wikipedia.
  • Marginell distribution, Wikipedia.
  • gemensam sannolikhetsfördelning, Wikipedia.
  • villkorlig sannolikhet, Wikipedia.,

sammanfattning

i det här inlägget upptäckte du en mild introduktion till gemensam, marginell och villkorlig sannolikhet för flera slumpmässiga variabler.

specifikt lärde du dig:

  • gemensam sannolikhet är sannolikheten för att två händelser inträffar samtidigt.
  • marginell sannolikhet är sannolikheten för en händelse oavsett resultatet av en annan variabel.
  • villkorlig sannolikhet är sannolikheten för en händelse som inträffar i närvaro av en andra Händelse.

har du några frågor?,
Ställ dina frågor i kommentarerna nedan och jag kommer att göra mitt bästa för att svara.

få ett handtag på sannolikheten för maskininlärning!

utveckla din förståelse för Sannolikhet

…med bara några rader av python-kod

Upptäck hur i min nya Ebook:
Sannolikhet för maskininlärning

det ger självstudier tutorials och end-to-end-projekt på:
Bayes teorem, Bayesian optimering, distributioner, maximal sannolikhet, Cross-entropi, kalibrera modeller
och mycket mer…,

slutligen utnyttja osäkerhet i dina projekt

hoppa över akademiker. Bara Resultat.Se vad som finns inuti

Tweet Share