A Gentle Introduction to Joint, Marginal, and Conditional Probability

Tweet Share Share

Last Updated on May 6, 2020

prawdopodobieństwo określa niepewność wyników zmiennej losowej.

stosunkowo łatwo jest zrozumieć i obliczyć prawdopodobieństwo dla pojedynczej zmiennej. Niemniej jednak w uczeniu maszynowym często mamy wiele zmiennych losowych, które oddziałują na często złożone i nieznane sposoby.,

istnieją specyficzne techniki, które można wykorzystać do określenia prawdopodobieństwa dla wielu zmiennych losowych, takich jak prawdopodobieństwo łączne, marginalne i warunkowe. Techniki te stanowią podstawę probabilistycznego zrozumienia dopasowania modelu predykcyjnego do danych.

w tym poście odkryjesz delikatne wprowadzenie do wspólnego, marginalnego i warunkowego prawdopodobieństwa dla wielu zmiennych losowych.

Po przeczytaniu tego postu dowiesz się:

prawdopodobieństwo wspólne to prawdopodobieństwo wystąpienia dwóch zdarzeń jednocześnie.,
prawdopodobieństwo krańcowe jest prawdopodobieństwem zdarzenia niezależnie od wyniku innej zmiennej.
prawdopodobieństwo warunkowe to prawdopodobieństwo wystąpienia jednego zdarzenia w obecności drugiego zdarzenia.

Rozpocznij swój projekt z moją nową książką prawdopodobieństwo uczenia maszynowego, zawierającą samouczki krok po kroku i pliki kodu źródłowego Pythona dla wszystkich przykładów.

zaczynajmy.

aktualizacja październik/2019: Naprawiono drobne literówki, dzięki Anna.
aktualizacja listopad / 2019: opisano symetryczne obliczanie prawdopodobieństwa wspólnego.,

delikatne Wprowadzenie do wspólnego, marginalnego i warunkowego prawdopodobieństwa
Photo by Masterbutler, niektóre prawa zastrzeżone.

przegląd

Ten poradnik jest podzielony na trzy części:

prawdopodobieństwo jednej zmiennej losowej
prawdopodobieństwo wielu zmiennych losowych
prawdopodobieństwo niezależności i wyłączności

prawdopodobieństwo jednej zmiennej losowej

prawdopodobieństwo określa prawdopodobieństwo zdarzenia.,

w szczególności określa, jak prawdopodobny jest konkretny wynik dla zmiennej losowej, takiej jak rzut monetą, rzut kostką lub losowanie karty do gry z talii.

prawdopodobieństwo daje miarę prawdopodobieństwa, że coś się wydarzy.

— p > – Strona 57,

dla zmiennej losowej x, P(x) jest funkcją, która przypisuje Prawdopodobieństwo do wszystkich wartości x.,

gęstość prawdopodobieństwa x = P(x)

prawdopodobieństwo określonego zdarzenia a dla zmiennej losowej x jest oznaczane jako P(x=A) lub po prostu jako P(a).

prawdopodobieństwo zdarzenia A = P(a)

Prawdopodobieństwo jest obliczane jako liczba pożądanych wyników podzielona przez całkowite możliwe wyniki, w przypadku gdy wszystkie wyniki są jednakowo prawdopodobne.

prawdopodobieństwo = (liczba pożądanych wyników)/(całkowita liczba możliwych wyników)

jest to intuicyjne, jeśli myślimy o dyskretnej zmiennej losowej, takiej jak rolka matrycy., Na przykład, prawdopodobieństwo matrycy toczenia 5 jest obliczana jako jeden wynik toczenia 5 (1) podzielona przez całkowitą liczbę dyskretnych wyników (6) lub 1/6 lub około 0.1666 lub około 16.666%.

suma prawdopodobieństw wszystkich wyników musi być równa jednej. Jeśli nie, nie mamy wiarygodnych prawdopodobieństw.

suma prawdopodobieństw dla wszystkich wyników = 1.0.

prawdopodobieństwo niemożliwego wyniku wynosi zero. Na przykład niemożliwe jest zrolowanie 7 ze standardową matrycą sześciostronną.

prawdopodobieństwo niemożliwego wyniku = 0.,0

prawdopodobieństwo pewnego wyniku jest jedno. Na przykład pewne jest, że wartość między 1 A 6 wystąpi podczas obracania sześciostronnej matrycy.

prawdopodobieństwo pewnego wyniku = 1.0

prawdopodobieństwo wystąpienia zdarzenia, zwane dopełnieniem.

można to obliczyć przez jeden minus prawdopodobieństwo zdarzenia, lub 1 – P(A). Na przykład prawdopodobieństwo Nie wyrzucenia 5 wynosiłoby 1 – P(5) lub 1-0,166 lub około 0,833 lub około 83,333%.,

prawdopodobieństwo Nie zdarzenia A = 1 – P(A)

teraz, gdy znamy prawdopodobieństwo jednej zmiennej losowej, rozważmy Prawdopodobieństwo dla wielu zmiennych losowych.

chcesz nauczyć się prawdopodobieństwa uczenia maszynowego

weź mój darmowy 7-dniowy kurs e-mail crash course już teraz (z przykładowym kodem).

Kliknij, aby się zapisać, a także otrzymać darmową wersję kursu w formacie PDF.,

Pobierz swój darmowy Mini-kurs

prawdopodobieństwo wystąpienia wielu zmiennych losowych

w uczeniu maszynowym prawdopodobnie będziemy pracować z wieloma zmiennymi losowymi.

na przykład, biorąc pod uwagę tabelę danych, na przykład w programie excel, każdy wiersz reprezentuje oddzielną obserwację lub zdarzenie, a każda kolumna reprezentuje oddzielną zmienną losową.

zmienne mogą być dyskretne, co oznacza, że przyjmują skończony zbiór wartości, lub ciągłe, co oznacza, że przyjmują wartość rzeczywistą lub liczbową.,

jako takie, jesteśmy zainteresowani prawdopodobieństwem dla dwóch lub więcej zmiennych losowych.

jest to skomplikowane, ponieważ istnieje wiele sposobów interakcji zmiennych losowych, co z kolei wpływa na ich prawdopodobieństwo.

można to uprościć redukując dyskusję do tylko dwóch zmiennych losowych (X, Y), chociaż zasady uogólniają się na wiele zmiennych.

i dalej, aby omówić prawdopodobieństwo tylko dwóch zdarzeń, po jednym dla każdej zmiennej (X=A, Y=B), chociaż równie łatwo moglibyśmy omawiać grupy zdarzeń dla każdej zmiennej.,

dlatego wprowadzimy prawdopodobieństwo wielu zmiennych losowych jako prawdopodobieństwo zdarzenia A i zdarzenia B, które w skrócie Jest X = A i Y = B.

Zakładamy, że dwie zmienne są powiązane lub zależne w jakiś sposób.

jako takie, istnieją trzy główne rodzaje prawdopodobieństwa, które możemy rozważyć; Są to:

wspólne prawdopodobieństwo: prawdopodobieństwo zdarzeń A I B.
prawdopodobieństwo krańcowe: prawdopodobieństwo zdarzenia X=dana zmienna Y.
prawdopodobieństwo warunkowe: prawdopodobieństwo zdarzenia a dane zdarzenie B.,

te typy prawdopodobieństwa stanowią podstawę wielu modeli predykcyjnych z problemami takimi jak klasyfikacja i regresja. Na przykład:

prawdopodobieństwo rzędu danych jest wspólnym prawdopodobieństwem dla każdej zmiennej wejściowej.
prawdopodobieństwo określonej wartości jednej zmiennej wejściowej jest prawdopodobieństwem krańcowym w stosunku do wartości innych zmiennych wejściowych.
sam model predykcyjny jest oszacowaniem prawdopodobieństwa warunkowego na wyjściu podanym w przykładzie wejściowym.,

prawdopodobieństwo łączne, marginalne i warunkowe są fundamentalne w uczeniu maszynowym.

przyjrzyjmy się bliżej każdemu po kolei.

wspólne prawdopodobieństwo dwóch zmiennych

możemy być zainteresowani prawdopodobieństwem dwóch równoczesnych zdarzeń, np. wyników dwóch różnych zmiennych losowych.

prawdopodobieństwo dwóch (lub więcej) zdarzeń nazywa się prawdopodobieństwem wspólnym. Wspólne prawdopodobieństwo dwóch lub więcej zmiennych losowych jest określany jako wspólny rozkład prawdopodobieństwa.,

na przykład wspólne prawdopodobieństwo zdarzenia A i zdarzenia B jest zapisywane formalnie jako:

P(a i B)

„and” lub koniunkcja jest oznaczana za pomocą odwróconej litery „U” operator „^” lub czasami przecinek „,”.

P(A ^ B)
P(A, B)

wspólne Prawdopodobieństwo dla zdarzeń A i B jest obliczane jako prawdopodobieństwo zdarzenia a dane zdarzenie B pomnożone przez prawdopodobieństwo zdarzenia B.,

można to formalnie stwierdzić w następujący sposób:

P(a i b) = p(a b) * P(b)

obliczanie wspólnego prawdopodobieństwa jest czasami nazywane podstawową zasadą prawdopodobieństwa lub „regułą iloczynową” prawdopodobieństwa lub „regułą łańcuchową” prawdopodobieństwa.

tutaj, P (dane B) jest prawdopodobieństwem zdarzenia a, biorąc pod uwagę, że zdarzenie B miało miejsce, zwane prawdopodobieństwem warunkowym, opisane poniżej.

prawdopodobieństwo zespolone jest symetryczne, co oznacza, że P(A i B) jest takie samo jak P(B I A)., Obliczenia przy użyciu prawdopodobieństwa warunkowego są również symetryczne, na przykład:

P (a i B) = P(A) * P (B) = P (B podana a) * p(a)

prawdopodobieństwo krańcowe

możemy być zainteresowani prawdopodobieństwem zdarzenia dla jednej zmiennej losowej, niezależnie od wyniku innej zmiennej losowej.

na przykład prawdopodobieństwo X = A dla wszystkich wyników Y.

prawdopodobieństwo jednego zdarzenia w obecności wszystkich (lub podzbiorów) wyników drugiej zmiennej losowej nazywa się prawdopodobieństwem krańcowym lub rozkładem krańcowym., Prawdopodobieństwo krańcowe jednej zmiennej losowej w obecności dodatkowych zmiennych losowych jest określane jako krańcowy rozkład prawdopodobieństwa.

nazywa się to prawdopodobieństwem krańcowym, ponieważ gdyby wszystkie wyniki i prawdopodobieństwa dla dwóch zmiennych były ułożone razem w tabeli (X jako kolumny, Y jako wiersze), to prawdopodobieństwo krańcowe jednej zmiennej (X) byłoby sumą prawdopodobieństw dla drugiej zmiennej (wiersze Y) na marginesie tabeli.,

nie ma specjalnej notacji dla prawdopodobieństwa krańcowego; jest to po prostu suma lub Unia nad wszystkimi prawdopodobieństwami wszystkich zdarzeń dla drugiej zmiennej dla danego stałego zdarzenia dla pierwszej zmiennej.

P(X=A) = suma P(X=A, Y=yi) dla wszystkich y

jest to kolejna ważna fundamentalna reguła prawdopodobieństwa, zwana „regułą sumy”.”

prawdopodobieństwo krańcowe różni się od prawdopodobieństwa warunkowego (opisanego dalej) , ponieważ uwzględnia związek wszystkich zdarzeń dla drugiej zmiennej, a nie prawdopodobieństwo pojedynczego zdarzenia.,

prawdopodobieństwo warunkowe

możemy być zainteresowani prawdopodobieństwem zdarzenia biorąc pod uwagę wystąpienie innego zdarzenia.

prawdopodobieństwo jednego zdarzenia biorąc pod uwagę wystąpienie innego zdarzenia nazywa się prawdopodobieństwem warunkowym. Prawdopodobieństwo warunkowe jednej do jednej lub więcej zmiennych losowych jest określany jako warunkowy rozkład prawdopodobieństwa.,

na przykład prawdopodobieństwo warunkowe zdarzenia danego zdarzenia B jest zapisywane formalnie jako:

P(a podane B)

„given” jest oznaczane za pomocą operatora”|”; na przykład:

p(a | B)

prawdopodobieństwo warunkowe dla zdarzeń danego zdarzenia B jest obliczane w następujący sposób:

P(a podane B) = p(a i b) / p(b)

obliczenie to zakłada, że prawdopodobieństwo zdarzenia b nie jest zerowe, np. nie jest niemożliwe.

pojęcie zdarzenia a dane zdarzenie B nie oznacza, że zdarzenie B miało miejsce (np., jest pewne); zamiast tego jest to prawdopodobieństwo wystąpienia zdarzenia A po lub w obecności zdarzenia B dla danej próby.

prawdopodobieństwo niezależności i wyłączności

rozważając wiele zmiennych losowych, możliwe jest, że nie oddziałują ze sobą.

możemy wiedzieć lub założyć, że dwie zmienne nie są zależne od siebie, zamiast tego są niezależne.

zmienne mogą wchodzić w interakcje, ale ich zdarzenia mogą nie występować jednocześnie, określane jako wyłączność.,

w tej sekcji przyjrzymy się bliżej prawdopodobieństwu wystąpienia wielu zmiennych losowych w tych okolicznościach.

niezależność

Jeśli jedna zmienna nie jest zależna od drugiej zmiennej, nazywa się to niezależnością lub niezależnością statystyczną.

ma to wpływ na obliczanie prawdopodobieństwa obu zmiennych.

na przykład możemy być zainteresowani wspólnym prawdopodobieństwem niezależnych zdarzeń A i B, które jest takie samo jak Prawdopodobieństwo a i prawdopodobieństwo B.,

prawdopodobieństwa są łączone za pomocą mnożenia, dlatego wspólne prawdopodobieństwo niezależnych zdarzeń jest obliczane jako prawdopodobieństwo zdarzenia a pomnożone przez prawdopodobieństwo zdarzenia B.

można to formalnie stwierdzić w następujący sposób:

wspólne prawdopodobieństwo: P(A i B) = P(A) * P(B)

jak możemy przypuszczać, marginalne prawdopodobieństwo zdarzenia dla niezależnej zmiennej losowej jest po prostu prawdopodobieństwem zdarzenia.,

jest to pojęcie prawdopodobieństwa pojedynczej zmiennej losowej, które są znane z:

prawdopodobieństwo krańcowe: P(A)

nazywamy prawdopodobieństwo krańcowe niezależnego prawdopodobieństwa po prostu prawdopodobieństwem.

podobnie prawdopodobieństwo warunkowe danego B, gdy zmienne są niezależne, jest po prostu prawdopodobieństwem a, ponieważ prawdopodobieństwo B nie ma wpływu. Na przykład:

prawdopodobieństwo warunkowe: P(A) = P (a)

możemy być zaznajomieni z pojęciem niezależności statystycznej od pobierania próbek., Zakłada to, że jedna próbka nie ma wpływu na wcześniejsze próbki i nie ma wpływu na przyszłe próbki.

wiele algorytmów uczenia maszynowego zakłada, że próbki z danej dziedziny są niezależne od siebie i pochodzą z tego samego rozkładu prawdopodobieństwa, określanego jako niezależne i identycznie rozproszone, lub w skrócie i.i.d.

wyłączność

Jeśli wystąpienie jednego zdarzenia wyklucza wystąpienie innych zdarzeń, wtedy zdarzenia są uważane za wzajemnie się wykluczające.

prawdopodobieństwo zdarzeń mówi się, że są rozdzielne, co oznacza, że nie mogą wchodzić w interakcje, są ściśle niezależne.,

Jeśli prawdopodobieństwo zdarzenia A jest wzajemnie wykluczające się ze zdarzeniem B, to wspólne prawdopodobieństwo zdarzenia A i zdarzenia B wynosi zero.

P(a i B) = 0.0

zamiast tego prawdopodobieństwo wyniku może być opisane jako zdarzenie A lub zdarzenie B, podane formalnie w następujący sposób:

P(a lub B) = P(A) + P(B)

„or” jest również nazywany Unią i jest oznaczany jako wielka litera „U”; na przykład:

P(a lub B) A lub b) = p(a u b)

Jeśli zdarzenia nie wykluczają się wzajemnie, możemy być zainteresowani wynikiem każdego z nich.,

prawdopodobieństwo zdarzeń nie wykluczających się wzajemnie oblicza się jako prawdopodobieństwo zdarzenia A i prawdopodobieństwo zdarzenia B minus prawdopodobieństwo wystąpienia obu zdarzeń jednocześnie.

można to formalnie określić w następujący sposób:

P(a lub B) = P(A) + P(B) – P(A i B)

Czytaj dalej

Ta sekcja zawiera więcej zasobów na ten temat, jeśli chcesz zajrzeć głębiej.

Książki

Pattern Recognition and Machine Learning, 2006.,
Machine Learning: A Probabilistic Perspective, 2012.

Artykuły

prawdopodobieństwo, Wikipedia.
notacja w rachunku prawdopodobieństwa i statystyce, Wikipedia.
niezależność (teoria prawdopodobieństwa), Wikipedia.
niezależne i identycznie rozłożone zmienne losowe, Wikipedia.
wzajemna wyłączność, Wikipedia.
Dystrybucja marginalna, Wikipedia.
wspólny rozkład prawdopodobieństwa, Wikipedia.
prawdopodobieństwo warunkowe, Wikipedia.,

podsumowanie

w tym poście odkryłeś delikatne wprowadzenie do wspólnego, marginalnego i warunkowego prawdopodobieństwa dla wielu zmiennych losowych.

w szczególności nauczyłeś się:

prawdopodobieństwo wspólne to prawdopodobieństwo wystąpienia dwóch zdarzeń jednocześnie.
prawdopodobieństwo krańcowe jest prawdopodobieństwem zdarzenia niezależnie od wyniku innej zmiennej.
prawdopodobieństwo warunkowe to prawdopodobieństwo wystąpienia jednego zdarzenia w obecności drugiego zdarzenia.

masz jakieś pytania?,
Zadaj swoje pytania w komentarzach poniżej, a ja Dołożę wszelkich starań, aby odpowiedzieć.

zapoznaj się z prawdopodobieństwem uczenia maszynowego!

Rozwiń swoje zrozumienie prawdopodobieństwa

…dzięki kilku linijkom kodu Pythona

Odkryj, jak w moim nowym ebooku:
Prawdopodobieństwo dla uczenia maszynowego

zapewnia samouczki i kompleksowe projekty dotyczące:
twierdzenia Bayesa, optymalizacji bayesowskiej, dystrybucji, maksymalnego prawdopodobieństwa, entropii krzyżowej, kalibracji modeli
i wielu innych…,

wreszcie Okiełznaj niepewność w swoich projektach

Tylko Wyniki.Zobacz co jest w środku