Tweet Dele Dele

Sist Oppdatert den Mai 6, 2020

Sannsynligheten kvantifiserer usikkerheten om utfall av en tilfeldig variabel.

Det er relativt enkelt å forstå og beregne sannsynligheten for en enkelt variabel. Likevel, i maskinlæring, vi har ofte mange tilfeldige variabler som samhandler ofte komplekse og ukjente måter.,

Det er spesielle teknikker som kan brukes til å kvantifisere sannsynligheten for flere tilfeldige variabler, slik som felles, marginale, og betinget sannsynlighet. Disse teknikkene gir grunnlag for en probabilistisk forståelse av det å montere en prediktiv modell til data.

I dette innlegget, vil du oppdage en forsiktig introduksjon til felles, marginale, og betinget sannsynlighet for flere tilfeldige variabler.

Etter å ha lest dette innlegget, vil du vite:

  • Felles sannsynlighet er sannsynligheten for at to hendelser samtidig.,
  • Marginale sannsynlighet er sannsynligheten for en hendelse, uavhengig av utfallet av en annen variabel.
  • Betinget sannsynlighet er sannsynligheten for en hendelse som finner sted i nærvær av en annen hendelse.

en Kick-start på prosjektet med min nye bok Sannsynlighet for maskinlæring, inkludert trinnvise veiledninger og Python kildekoden filer for alle eksempler.

La oss komme i gang.

  • Oppdatere Okt/2019: Fast mindre skrivefeil, takk Anna.
  • Oppdatere Nov/2019: Beskrevet den symmetriske beregning av felles sannsynlighet.,

En Forsiktig Introduksjon til Felles, Marginale, og Betinget Sannsynlighet
Foto av Masterbutler, noen rettigheter er reservert.

Oversikt

Denne opplæringen er delt inn i tre deler; de er:

  1. Sannsynligheten for at En Tilfeldig Variabel
  2. Sannsynligheten for Flere Tilfeldige Variabler
  3. Sannsynligheten for Uavhengighet og Eksklusivitet

Sannsynligheten for at En Tilfeldig Variabel

Sannsynligheten angir sannsynligheten for en hendelse.,

Spesielt, det angir hvor sannsynlig det er at et bestemt utfall er til en tilfeldig variabel, slik som å trykke på en mynt, kast av en terning, eller tegne en spiller kort fra en kortstokk.

Sannsynlighet gir et mål på hvor sannsynlig det er for at noe skal skje.

— Side 57, Sannsynlighet: For Entusiastiske Nybegynner, 2016.

For en tilfeldig variabel x, P(x) er en funksjon som tilordner en sannsynlighet for alle verdier av x.,

  • Sannsynligheten Tetthet for x = P(x)

sannsynligheten for At en bestemt hendelse En for en tilfeldig variabel x er angitt som P(x=A), eller rett og slett som P(A).

  • Sannsynligheten for en Hendelse A = P(A)

Sannsynligheten er beregnet som antall ønskede resultater, delt på totalt antall mulige utfall, i de tilfeller hvor alle utfall er like sannsynlige.

  • Sannsynlighet = (antall ønskede resultater) / (totalt antall mulige utfall)

Dette er intuitiv hvis vi tenker på en diskret tilfeldig variabel som for eksempel kast av en terning., For eksempel sannsynligheten for en terning rullende 5 er beregnet som ett resultat av rullende 5 (1), dividert på totalt antall diskrete utfall (6) eller 1/6 eller om 0.1666 eller om 16.666%.

summen av sannsynlighetene for alle utfall må være lik én. Hvis ikke, kan vi ikke har gyldig sannsynligheter.

  • Summen av Sannsynlighetene for Alle Utfall = 1.0.

sannsynligheten for en umulig resultatet er null. For eksempel er det umulig å rulle en 7 med en standard seks-kantede terningen.

  • Sannsynligheten for Umulig Utfallet = 0.,0

sannsynligheten for et bestemt utfall er ett. Det er For eksempel ikke sikkert at en verdi mellom 1 og 6 vil oppstå når du kaster en seks-kantede terningen.

  • Sannsynligheten for Visse Utfall = 1.0

sannsynligheten for en hendelse som ikke er oppstått, kalt komplement.

Dette kan beregnes ved ett minus sannsynligheten for hendelsen, eller 1 – P(A). For eksempel, sannsynligheten for at du ikke kaster en 5 ville være 1 – S(5) eller 1 – 0.166 eller om 0.833 eller om 83.333%.,

  • Sannsynligheten for Ikke Tilfelle A = 1 – P(A)

Nå som vi er kjent med sannsynligheten for at en tilfeldig variabel, la oss vurdere sannsynligheten for flere tilfeldige variabler.

Vil Lære Sannsynlighet for maskinlæring

Ta min gratis 7-dagers e-post lynkurs nå (med eksempelkode).

Klikk for å registrere deg, og også få en gratis PDF Ebok-versjon av kurset.,

Last ned Din GRATIS Mini-Kurs

Sannsynligheten for Flere Tilfeldige Variabler

I maskinlæring, vi er sannsynlig å jobbe med mange tilfeldige variabler.

For eksempel, gitt en tabell med data, som for eksempel i excel, hver rad representerer en egen observasjon eller en hendelse, og hver kolonne representerer en separat tilfeldig variabel.

Variabler kan enten være diskret, noe som betyr at de tar et endelig sett av verdier, eller kontinuerlig, noe som betyr at de tar på en ekte eller numerisk verdi.,

Som sådan, vi er interessert i sannsynligheten for over to eller flere tilfeldige variabler.

Dette er komplisert som det er mange måter som tilfeldige variabler kan samhandle, som i sin tur påvirker deres sannsynligheter.

Dette kan forenkles ved å redusere diskusjonen til bare to tilfeldige variabler (X, Y), selv om prinsippene generalisere til flere variabler.

Og videre, for å diskutere sannsynligheten for bare to hendelser, en for hver variabel (X=A, Y= – B), selv om vi kunne like gjerne være å diskutere grupper av hendelser for hver variabel.,

Derfor, vil vi introdusere sannsynligheten for flere tilfeldige variabler som sannsynligheten for at en hendelse og En hendelse B, som i stenografi er X=A og Y=B

Vi anta at de to variablene er i slekt eller avhengige på noen måte.

Som sådan, det er tre hovedtyper av sannsynligheten for at vi kan være lurt å vurdere; de er:

  • Felles Sannsynlighet: Sannsynlighet for hendelser A og B.
  • Marginale Sannsynlighet: Sannsynligheten for hendelsen X=En gitt variabel Y.
  • Betinget Sannsynlighet: Sannsynligheten for at En gitt hendelse hendelse B.,

Disse typer av sannsynlighet danner grunnlaget for mye av prediktiv modellering med problemer som klassifisering og regresjon. For eksempel:

  • sannsynligheten for en rad med data som er felles sannsynlighet over hver inngang variabel.
  • sannsynligheten for en bestemt verdi av en input variable er den marginale sannsynlighet over verdier av den andre input-variabler.
  • logisk modell i seg selv er et estimat av den betingede sannsynligheten for en utgang gitt et innspill eksempel.,

Felles, marginale, og betinget sannsynlighet, er grunnleggende i maskinlæring.

La oss ta en nærmere titt på hver av dem etter tur.

Felles Sannsynligheten for To Variabler

Vi kan være interessert i sannsynligheten for to samtidige hendelser, for eksempel utfall av to forskjellige tilfeldige variabler.

sannsynligheten for At to (eller flere) hendelser kalles felles sannsynlighet. Felles sannsynligheten for at to eller flere tilfeldige variabler som er referert til som felles sannsynlighetsfordeling.,

For eksempel, felles sannsynligheten for En hendelse og event B er skrevet formelt som:

  • P(A og B)

«og» eller sammen er merket med opp-ned hovedstaden «U» operatør «^» eller noen ganger et komma «,».

  • P(A ^ B)
  • P(A, B)

Den felles sannsynlighet for hendelser A og B er beregnet som sannsynligheten for at En gitt hendelse hendelse B multiplisert med sannsynligheten for at en hendelse B.,

Dette kan være oppgitt formelt som følger:

  • P(A og B) = P(A gitt B) * P(B)

beregning av felles sannsynligheten er noen ganger kalt den grunnleggende regel om sannsynlighet eller «produktet regelen» av sannsynlighet eller «chain rule» av sannsynlighet.

Her er P(A gitt B) er sannsynligheten for En hendelse gitt at hendelse B har oppstått, kalt betinget sannsynlighet, som er beskrevet nedenfor.

Den felles sannsynligheten er symmetrisk, noe som betyr at P(A og B) er det samme som P(B og A)., Beregning ved hjelp av betinget sannsynlighet er også symmetrisk, for eksempel:

  • P(A og B) = P(A gitt B) * P(B) = P(B gitt A) * P(A)

Marginale Sannsynlighet

Vi kan være interessert i sannsynligheten for en hendelse for en tilfeldig variabel, uavhengig av utfallet av en annen tilfeldig variabel.

For eksempel, sannsynligheten for X=A for alle utfall av Y.

sannsynligheten for en hendelse i nærvær av alle (eller en delmengde av) utfall av de andre tilfeldig variabel kalles den marginale sannsynlighet eller den marginale fordelingen., Den marginale sannsynligheten for at en tilfeldig variabel i nærvær av flere tilfeldige variabler er referert til som den marginale sannsynlighetsfordeling.

Det kalles den marginale sannsynlighet fordi hvis alle utfall og sannsynligheter for de to variablene ble lagt ut sammen i en tabell (X som kolonner, Y som rader), deretter den marginale sannsynligheten for at en variabel (X) vil være summen av sannsynlighetene for de andre variable (Y rader) på kanten av bordet.,

Det er ingen spesiell notasjon for den marginale sannsynlighet; det er bare summen eller union over alle sannsynlighetene for alle hendelser for den andre variabelen for en gitt fast hendelsen for den første variabelen.

  • P(X=A) = sum P(X=A, Y=yi) for alle y

Dette er en annen viktig grunnleggende regel i sannsynlighet, referert til som «summen regelen.»

Den marginale sannsynligheten er forskjellig fra den betingede sannsynlighet (beskrevet nedenfor), fordi den mener unionen av alle hendelsene for den andre variabelen heller enn sannsynligheten for at en enkelt hendelse.,

Betinget Sannsynlighet

Vi kan være interessert i sannsynligheten for en hendelse som er gitt forekomsten av en annen hendelse.

sannsynligheten for en hendelse gitt forekomsten av en annen hendelse som kalles betinget sannsynlighet. Den betingede sannsynligheten for én-til-én eller flere tilfeldige variabler som er referert til som betinget sannsynlighetsfordeling.,

For eksempel, den betingede sannsynligheten for at En gitt hendelse hendelse B er skrevet formelt som:

  • P(A gitt B)

«gitt» er merket med pipe «|» operatør, for eksempel:

  • P(A | B)

Den betingede sannsynligheten for hendelser i En gitt hendelse B er beregnet som følger:

  • P(A gitt B) = P(A og B) / P(B)

Denne beregningen forutsetter at sannsynligheten for at hendelse B er ikke null, f.eks. er ikke umulig.

begrepet arrangement til En gitt hendelse B betyr ikke at hendelse B har oppstått (f.eks., er visst); i stedet, det er sannsynligheten for En hendelse som skjer etter det, eller i nærvær av hendelse B for en gitt prøve.

Sannsynligheten for Uavhengighet og Eksklusivitet

Når du vurderer flere tilfeldige variabler, er det mulig at de ikke samhandler.

Vi kan vite eller anta at to variabler er ikke avhengig av hverandre i stedet er uavhengige.

Vekselvis variablene kan samhandle men deres hendelser kan ikke forekomme samtidig, referert til som eksklusivitet.,

Vi vil ta en nærmere titt på sannsynligheten for flere tilfeldige variabler under disse omstendigheter i denne delen.

Uavhengighet

Hvis en variabel er ikke avhengig av andre variable, dette kalles uavhengighet eller statistisk uavhengighet.

Dette har en innvirkning på å beregne sannsynlighetene for de to variablene.

For eksempel, kan vi være interessert i felles sannsynligheten for uavhengige hendelser A og B, som er det samme som sannsynligheten for at En og sannsynligheten for B.,

Sannsynligheter er kombinert med multiplikasjon, derfor felles sannsynligheten for uavhengige hendelser er beregnet som sannsynligheten for at En hendelse multiplisert med sannsynligheten for at en hendelse B.

Dette kan være oppgitt formelt som følger:

  • Felles Sannsynlighet: P(A og B) = P(A) * P(B)

Som vi kan oppfatte, den marginale sannsynligheten for en hendelse for en uavhengig tilfeldig variabel er rett og slett sannsynligheten for hendelsen.,

Det er ideen om sannsynligheten for et enkelt tilfeldig variabel som er kjent med:

  • Marginale Sannsynlighet: P(A)

Vi henviser til den marginale sannsynligheten for en uavhengig sannsynlighet som rett og slett sannsynlighet.

på samme måte, den betingede sannsynligheten for A gitt B når variablene er uavhengige er rett og slett sannsynligheten for En som sannsynligheten for at B ikke har noen effekt. For eksempel:

  • Betinget Sannsynlighet: P(A gitt B) = P(A)

Vi kan bli kjent med begrepet statistisk uavhengighet fra prøvetaking., Dette forutsetter at ett eksempel er upåvirket av tidligere prøver og påvirker ikke fremtidige prøver.

Mange algoritmer for maskinlæring anta at prøver fra et domene er uavhengige av hverandre, og kommer fra samme sannsynlighetsfordeling, referert til som uavhengig og identisk fordelt, eller jeg.jeg har.d. for kort.

Eksklusivitet

Hvis forekomsten av en hendelse utelukker forekomsten av andre hendelser, så hendelsene er sagt å være gjensidig utelukkende.

sannsynligheten for hendelser er sagt å være disjoint, noe som betyr at de ikke samhandler, er strengt uavhengig.,

Hvis sannsynligheten for en hendelse A er gjensidig utelukkende med event B, må den samlede sannsynligheten for En hendelse og event B er null.

  • P(A og B) = 0.0

i Stedet, vil sannsynligheten for et utfall kan beskrives som En hendelse eller en hendelse B, uttalte formelt som følger:

  • P(A eller B) = P(A) + P(B)

«eller» er også kalt en union, og er betegnet som en stor «U» – brev, for eksempel:

  • P(A eller B) = P(A U B)

Hvis hendelsene er ikke gjensidig utelukkende, kan vi være interessert i utfallet av begge tilfelle.,

sannsynligheten for ikke-gjensidig utelukkende hendelser er beregnet som sannsynligheten for at En hendelse og sannsynligheten for at hendelse B minus sannsynligheten for at begge hendelser samtidig.

Dette kan være oppgitt formelt som følger:

  • P(A eller B) = P(A) + P(B) – P(A og B)

Mer å Lese

Dette avsnittet gir mer ressurser på emnet dersom du er ute etter å gå dypere.

Bøker

  • Sannsynlighet: For Entusiastiske Nybegynner, 2016.
  • mønstergjenkjenning og maskinlæring, 2006.,
  • Maskin Læring: En Probabilistisk Perspektiv, 2012.

Artikler

  • Sannsynlighet Wikipedia.
  • Notasjon i sannsynlighet og statistikk, Wikipedia.
  • Uavhengighet (sannsynlighetsteori), Wikipedia.
  • Uavhengige og identisk fordelt tilfeldige variabler, Wikipedia.
  • Gjensidig eksklusivitet, Wikipedia.
  • Marginale distribusjon, Wikipedia.
  • Felles sannsynlighetsfordeling, Wikipedia.
  • Betinget sannsynlighet, Wikipedia.,

Oppsummering

I dette innlegget, du har oppdaget en forsiktig introduksjon til felles, marginale, og betinget sannsynlighet for flere tilfeldige variabler.

Spesifikt, du lært:

  • Felles sannsynlighet er sannsynligheten for at to hendelser samtidig.
  • Marginale sannsynlighet er sannsynligheten for en hendelse, uavhengig av utfallet av en annen variabel.
  • Betinget sannsynlighet er sannsynligheten for en hendelse som finner sted i nærvær av en annen hendelse.

har du spørsmål?,
Stille dine spørsmål i kommentarfeltet under, og jeg vil gjøre mitt beste for å svare.

– >

Få et Håndtak på Sannsynligheten for maskinlæring!

Utvikle Din Forståelse av Sannsynlighet

…med bare et par linjer av python-kode

Oppdag hvordan i min nye Bok:
Sannsynligheten for maskinlæring

Det gir selvstudium tutorials og ende-til-ende prosjekter på:
Bayes Teorem, Bayesianske Optimalisering, Distribusjoner, Maximum Likelihood, Cross-Entropi, Kalibrere Modellene
og mye mer…,

til Slutt Sele Usikkerhet i Prosjekter

Hoppe over Akademikere. Bare Resultater.Se Hva som er Inni

Tweet Dele Dele