i Major League Baseball ‘ s første 134 år, 1876-2009, nogle af de mest interessante og usædvanlige begivenheder, der har været 260 no-hitter (18, som har været perfekt spil. I 2010 kastede kander seks ikke-hitters, hvoraf to (og næsten en tredjedel) var perfekte. I dette papir undersøger vi, om enkle matematiske modeller kan forklare hyppigheden af perfekte spil og ikke-hitters gennem årene., Vi undersøger også, om de kander, der faktisk slog de perfekte spil, var dem, der “burde have været forventet” at gøre det.
Gennem Major League Baseball ‘s første 134 år, 1876-2009, nogle af de mest interessante og usædvanlige begivenheder, der har været 260 no-hitter (18, som har været perfekt spil”No-Hitter – BR Anses.”Baseball-Reference.com -Major League Baseball statistik og historie. Web. Juni-Juli 2010. http://www.baseball-reference.com/bullpen/No_hitter.,”PerfectGame.”Baseball-Reference.com -Major League Baseball statistik og historie. Web. Juni-Juli 2010. http://www.baseball-reference.com/bullpen/Perfect_game.)., I 2010 kastede kander seks ikke-hitters, hvoraf to (og næsten en tredjedel) var perfekte. I dette papir undersøger vi, om enkle matematiske modeller kan forklare hyppigheden af perfekte spil og ikke-hitters gennem årene. Vi undersøger også, om de kander, der faktisk slog de perfekte spil, var dem, der “burde have været forventet” at gøre det.

perfekte spil

fra 1876 til 2009 kastede pitchers 18 perfekte spil., Hver blev opnået med en anden kande, og kun en gang før 2010 (helt tilbage i 1880) fandt to perfekte spil sted i samme år (se tabel 1). Af disse perfekte spil kom 17 i løbet af grundspillet. I dette papir overvejer vi kun regelmæssige sæsonbegivenheder.

enkleste MODEL

muligvis den enkleste tilgang til modellering forekomsten af perfekte spil er at behandle alle årstider, alle kander og alle slag. I betragtning af denne tilsyneladende urealistiske antagelse, man kan spørge,hvor mange perfekte spil skulle have været sat?,

i Løbet af de første 134 år af Major League Baseball historie, den samlede on base percentage (OBP) har været ca 0.3279,standard definition af OBP-er (H + BB + HBP)/(AB + BB + HBP + SF). At nå base på en fejl bruges ikke i denne definition. For en liste over forkortelser, der bruges i dette papir, se tillægget. betyder det i omkring 1?3 af plade optrædener, dejen nåede base. Endnu, for at slå et perfekt spil, en startkande skal trække de 27 på hinanden følgende hitters han står overfor., Sandsynligheden for pitching en ud er (1-OBP), og så sandsynligheden for pitching et perfekt spil er (1-OBP) 27.

I almindelighed, derfor er antallet af perfekte spil kan forventes i henhold til denne analyse er:

grunden til “2” er, at begge hold i et spil, der kan slå en perfekt spil. 195.177 regulære sæsonkampe blev spillet fra 1876-2009, så antallet af perfekte spil, der kan forventes fra 1876-2009, er 195.177 * 2 * (1-.3279) 27 = 8,55, kun halvdelen af de 17 observerede.,

man kan nærme sig denne sag på den modsatte måde og beregne den OBP, der er nødvendig for at opnå resultatet af 17 perfekte spil. Løsning af ligning (1) for OBP, har vi

Dette fører til en 0.3106 OBP. Fra OBP ‘ s perspektiv, en forskel på 0,0173 (det vil sige .3279 – .3106), eller omkring 5% af OBP-værdien, kan tegne sig for forskellen mellem det observerede antal perfekte spil (17) og det forventede antal fra denne enkle model (8.55)., Dette viser følsomheden af det forventede antal perfekte spil til variationer i OBP. Vi præsenterer i Graf 1 forholdet mellem OBP og det forventede antal perfekte spil. Efterhånden som OBP stiger, kommer flere batters på basen, og sandsynligheden for et perfekt spil krymper.

Vi bemærker, at OBP har varieret fra et lavt niveau på 0.267 i 1880 til et højt niveau på 0.379 i 1894. Hvis disse værdier fortsatte gennem de 134 år, der blev undersøgt, ville det forventede antal perfekte spil have været henholdsvis 89 og en. Den årlige spilvægtede standardafvigelse for OBP er 0.,0150, så et standardafvigelsesområde for OBP giver et interval på 0.3129 til 0.3429 (det vil sige .3279 ± 0.0150. Dette resulterer i det forventede antal perfect games til at variere fra 4.6 til 15.5, hvilket kommer tæt på, men når ikke det observerede antal 17 perfect games. Dette demonstrerer yderligere følsomheden af forventede perfekte spil til små ændringer i OBP. Det indikerer også, at selvom denne enkle model ikke er meget tilfredsstillende, er den ikke helt uforenelig med det observerede antal perfekte spil.,

år for år MODEL

resultaterne af den enkle model fik os til at overveje en revideret model, hvor den samme tilgang bruges, men hvor hvert år betragtes separat. Det er klart, at ikke alle år i baseball har været ens, som angivet ovenfor af rækkevidden af observerede OBP-værdier gennem årene. Hvis vi betragter hvert år separat, med sin egen OBP, hvordan ville det forventede antal perfekte spil ændre sig?,

anvendelse af ligning (1) til hvert år individuelt og under hensyntagen til antallet af regulære sæson spil spillede, vi beregnet det forventede antal perfekte spil for hvert år. Efter opsummering disse spil, fandt vi, at det forventede antal perfekte spil i 1876-2009 var 10,6. Året med det laveste forventede antal perfekte spil var 1894, med 0.004 forventede perfekte spil; antallet af spillede spil (799) var lille og OBP (0.379) højt.

det største antal perfekte spil (0.451) blev forventet i 1884, da OBP var lav .,279 og antallet af spil spillede en høj 1.544, den fjerde-højeste antal spil i en sæson før 1960. At 10.6 perfekte spil blev forventet af denne model snarere end den faktiske 17 indikerer, at en forbedret tilgang er nødvendig for at opnå et mere realistisk resultat. Endnu mere bekymrende er, at standard OBP udelader at nå base on error( ROE), som faktisk tæller mod en ud i at-bat sigt, sænke OBP, og en enkelt spiller, der når base på en fejl, folier et ellers perfekt spil., Mindst fem næsten perfekte spil, brudt op af blot en enkelt fejl, er opstået i baseball historie.Vi takker en anonym dommer for at foreslå at inkorporere ROE i vores Analyse.

inkorporering af BATTERS, der når BASE på fejl

komplette data for batters, der når base på en fejl, er kun tilgængelig i 40 af årene fra 1960 til nutiden.Rui,, Williamilliam. “Næsten Perfekte Spil.”Baseball Research Journal 20 (1991): 46-51 . Udskrive. Det samlede antal fejl hvert år for alle år fra 1876 til nutiden kan dog let placeres., Det er interessant, for 40 år med fuldstændige data, forholdet mellem lagkager nå base på en fejl, at det samlede antal af fejl er næsten konstant, i gennemsnit 63.4% med en standard afvigelse på 1,1%. Således kan vi med rimelighed tage 63,4% af det samlede antal fejl i hele baseball historie, eller år-til-år, for de år, for hvilke der er ufuldstændige eller ikke ROE data, som et estimat for antallet af lagkager nå base på en fejl., Den OBP justeret til at optage nå base på en fejl, bliver således:

Bemærk, at pladen optrædener af dem, lagkager nå base på en fejl allerede er inkluderet i nævneren (som outs) i AB. Foretager den samme analyse som for den Simpleste Model (OBPROE = 0.3490 med standardafvigelse 0.0165) fører til det forventede antal perfekt spil fra 1876 gennem 2009 med 3,6; et en-standard-afvigelse række udbytter 1,8 7.1 forventet perfekte spil., disse resultater er præsenteret i Graf 2, hvor det er klart, at OBPROES standardafvigelsesområde ikke kommer i nærheden, herunder det rigtige antal perfekte spil. Anvendelse af OBPROE til år for år-modellen fører til den marginalt mere realistiske forventning om 4.3 perfekte spil fra 1876-2009. Vi ser dog, at justering af OBP for at inkorporere ROE forværrer fejlen og yderligere fremhæver behovet for et mere omhyggeligt kig på forekomsten af perfekte spil.,

KANDE-AF-KANDE MODEL

For de tidligere modeller, alle lagkager og kander var der formodes at have samme evne hele baseball historie (i den simpleste model) eller for hvert år, individuelt (i år-for-år-modellen). Dette fører til forventningen om mindre end en tredjedel af det faktiske antal perfekte spil, når der tages hensyn til ROE. Fordi den lige evne antagelse er urealistisk, vi udforskede en mere sofistikeret model., Siden løbet af et spil, og helt sikkert er en “no-hitter, synes at afhænge mere af en pitcher’ s ydeevne end nogen enkelt hitter (se for eksempel Frohlich oplæg om ikke-drenge), som et næste skridt, vi overvejet en model, hvor kander har forskellige evner. Specifikt overvejede vi udførelsen af hver enkelt kande. Hvor ofte en bestemt kande generere outs? Vil denne variation i pitching evne føre til resultater mere i tråd med dem, der har fundet sted i baseball historie?,

for at besvare disse spørgsmål udarbejdede vi dataene (OBPROE) for hver kande i hvert år af hans karriere (dvs.hvis en kande slog ti år, har han ti separate datasæt).Sean Lahman Baseball-Arkiv. Web. Juni-Juli 2010. http://www.baseball1.com. Da ROE-data for hver kande ikke er tilgængelige, vi antog, at hver kande var underlagt den samme sandsynlighed for, at en dej nåede base på en fejl som alle andre kander i hvert bestemt år.

denne værdi er forskellen mellem år for år OBP med og uden at inkludere ROE, som vi betegner af ROE_diff., Spil blev begået, er denne værdi så høj som 0.097, hvilket betyder, at cirka 10% af alle slagere nåede base på en fejl. 0,01, hvilket betyder, at omkring 1% af alle batters når base på en fejl. Naturligvis resulterer dette i et stort handicap for kander i baseball tidlige år med hensyn til lethed pitching et perfekt spil., For en kande, sandsynligheden for at få en dej ud bliver (se Tillæg til udledning):

Vi har derefter overvejet, hvor mange spil hver kande gang hvert år (siden en kande kan ikke slå en perfekt spillet, hvis han ikke starter). Vi behandlede kun kander, der slog mindst 54 outs i en sæson til at fjerne tilfælde af meget lave data (Vi bemærker at slappe af denne betingelse til minimum 27 outs behov for at pitche et perfekt spil fører til en forskel på mindre end halvdelen et perfekt spil i løbet af de 134 år taget i betragtning)., Sandsynligheden for kanden pitching et perfekt spil er, som før, sandsynligheden for en ud hævet til den 27.magt, P(ud)27.

Vi brugte derefter en computer til at simulere, om et givet spil ville være “perfekt” ved at bruge en random number generator, der ville markere et perfekt spil, når den (ensartet fordelt på ) tilfældige værdi var mindre end P(ud)27. Dette blev gjort for hvert spil startet af hver kande i hvert år-mere end 39,000 sager i alt.For eksempel, siden Roger Clemens slog 23 år, 23 af de 39,000 + sager er årene sat af Clemens., Denne simuleringsmetode ligner meget den, der blev brugt af Arbesman og Strogat.i deres undersøgelse af Joe DiMaggio ‘ s 56-game hitting streak.Arbesman, S. og S. H. Strogatz. “En Monte Carlo tilgang til Joe DiMaggio og striber i Baseball.”ar :iv:0807. 5082v2. 1 August 2008. En sådan beregning giver et baseball “univers”, en simulering af baseballhistorie fra 1876-2009 ved hjælp af kande OBP-værdier fra disse års spil. Vi kørte simuleringen for 2.000 universer og analyserede output for det gennemsnitlige antal perfekte spil og deres distribution., Derudover udarbejdede vi resultater, for hvilke kander burde have været mest tilbøjelige til at pitche perfekte spil.

I vores universer, det anslåede antal perfekt spil varierede fra 3 til 35 over de 134 år, med gennemsnit var 15.9 (se figur 3) med en standardafvigelse på 4,1, hvilket betyder, at den sande værdi af 17 falder godt inden for én standardafvigelse af den beregnede værdi.,

selvfølgelig kan man inkludere flere aspekter af spillet baseball, såsom variation i at ramme evne blandt de forskellige holds lineups eller variation i at ramme evne inden for en enkelt lineup. I sin undersøgelse af no-hitters splitter FrohlichRetrosheet ML batting og pitching for hvert år. Dette er for 1996 sæsonen, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. diskuterede dette rammer variation problem og fandt effekten at være lille. Vi har udelukket nogle andre baseball begivenheder såsom strikeouts, dobbelt og tredobbelt spiller, og nå base på interferens fra vores papir., Disse begivenheder og andre kan være vanskelige at medtage i modelleringen, kan være problematisk at opnå pålidelige data for, forekommer sjældent eller sandsynligvis ikke har stor indflydelse på resultaterne.

som en kontrol af beregningernes rimelighed så vi på, hvordan de kander, der faktisk slog perfekte spil, klarede sig i simuleringerne såvel som hos de kander, der oftest slog perfekte spil i disse simuleringer. Vi rangerede kander i rækkefølge af antallet af perfekte spil “slog” af hver kande i de 2.000 universer og undersøgte, hvor de faktiske 17 perfekte spil kander placeret., Otte af de 17 var i top 1% (i toppen 84 af mere end 8.300 kander, der har fremlagt i de Store Ligaer) i vores ranking, mens seks andre, der var i top 5% (85–420.), en mere i de øverste 10%, og de andre
to i top 25%. disse resultater fremgår af tabel 2. De 10 bedste kander med det største antal perfekte spil i simuleringerne er præsenteret i tabel 3. Alle er velkendte blandt baseball fans, selvom bare en af dem (Sandy Koufa.) faktisk slog et perfekt spil. En af de andre (Johnsonalter Johnson) slog et “næsten perfekt spil.,”

Vi bemærker, at kun omkring 2.700 af de mere end 8.300 kander i baseballhistorien nogensinde slog et perfekt spil i simuleringen af 2.000 baseballuniverser. De andre manglede enten det nødvendige færdighedsniveau eller startede aldrig et spil. Standardafvigelsen for de resultater, der er anført i tabel 3 handler om 16 spil.

NO-HITTERS

alle perfekte spil er no-hitters, men no-hitters er mere almindelige end perfekte spil, da de ikke brydes op af en gåtur, hit-by-pitch eller fejl. Stadig, pitching en no-hitter er noget af en præstation., I et perfekt spil, de eneste involverede sandsynligheder er at komme på basen og af en ud. I modsætning, i modellering no-hitters, man skal også beskæftige sig med sandsynlighederne for en gåtur, en hit-by-pitch og nå base på en fejl. Der var 250 single-pitcher no-hitters i løbet af 1876-2009 regulære sæsoner.

FrolichRetrosheet ML pladevat og pitching splits for hvert år. Dette er for 1996 sæsonen, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. nærmede sig det mere generelle spørgsmål om, hvor ofte et givet antal hits skal opnås i et baseball-spil., Han overvejede hits og outs, mens han ignorerede alle andre begivenheder, og udviklede en negativ binomial formel for fordelingen af antallet af hits, der kan forventes i et spil i betragtning af den samlede sandsynlighed for et hit hvert år studerede han. Han byggede på denne model, først variere den gennemsnitlige kander’ evner og derefter variere den gennemsnitlige kander ‘ evner. Han fandt god aftale med at forudsige antallet af tre-hit spil gennem ti-hit spil for femårsperioden fra 1989 til 1993. Hans resultater uden for denne række hits var imidlertid mindre tilfredsstillende., Hans model forudsagde kun omkring to tredjedele det faktiske antal no-hitters for 1900-93 perioden.

vores indsats er fokuseret på at opnå forbedrede resultater i modellering af ikke-hitters. Vi modellerede matematisk antallet af no-hitters i 1876-2009 og sammenlignede derefter vores resultat med den sande værdi.

ENKLESTE NO-HITTER MODEL

Vi revideret vores edb-model til at genskabe vores universer i baseball historie ved at inddrage tre typer af begivenheder, der kan forekomme i en baseball spil: (1) hits; (2) walks, hit-med-pladser og nåede base på en fejl; og (3) outs., For at undersøge no-hitter-problemet var vi nødt til at gå gennem lineups en dej ad gangen gennem hvert spil (hvor alle batters antages at have samme evne). Et tilfældigt tal blev valgt ensartet fordelt på at afgøre, om en dej var ude, fik et hit, eller nået base ved en gåtur, hit-by-pitch eller nå på en fejl. Hvis et hit blev opnået før 27 outs blev optaget, spillet kunne ikke være en no-hitter. På den anden side, hvis 27 outs blev optaget uden nogen hits opnås, spillet blev anset for at være en no-hitter., Dette blev gentaget for at simulere 2.000 universer med 195.177 spil i hver.

først, som vi gjorde for modellering perfect games, brugte vi sandsynlighederne for outs, hits og BB+HBP +ROE (som beskrevet tidligere) i 134 årene fra 1876 til 2009. Sandsynligheden for en ud var 0.6510; sandsynligheden for et hit var 0.2374; og sandsynligheden for en BB, HBP eller ROE var 0.1116. Denne indledende simulering projicerede en utilfredsstillende 123 no-hitters i et gennemsnitligt univers med en standardafvigelse på 14.5 no-hitters. (Målet antal no-hitters var 250).,

år for år NO-HITTER MODEL

Vi kørte simuleringen igen, men nu har vi beregnet sandsynlighederne for outs, hits og BB+HBP+ROE separat for hver sæson. Sandsynlighederne blev input til programmet sammen med antallet af spil, der finder sted hvert år. Endnu en gang simulerede vi 2.000 baseballuniverser. Disse resultater var lidt bedre, men stadig utilfredsstillende. Denne simulering producerede 135.4 no-hitters i gennemsnit med en standardafvigelse på 14.8. Dette indikerede, som med vores perfekte spilanalyse, at vi måske har det bedre med at gentage vores kande-for-kande-tilgang.,

KANDE-AF-KANDE NO-HITTER MODEL

Vi revideret vores pitcher-af-kande tilgang til perfekt-spil modeller til at undersøge no-hitter på samme måde, som vi gjorde brug af den Simpleste No-Hitter, og År-til-År No-Hitter modeller, der er, vi anså sagen for at komme på base uden et hit i tillæg til de tilfælde af hits og tilfælde af outs. Vi kiggede på sandsynlighederne for de forskellige forekomster for hver kande, der startede et spil for hvert år og fortsatte som beskrevet i afsnittet ovenfor “perfekt spil”., Endnu en gang overvejede vi kun kander, der startede mindst et spil og slog mindst 54 outs i den sæson. resultaterne var slående. I de 2.000 universer, vi løb, fandt vi i gennemsnit 243 no-hitters, med mindre end 4% fra de 250 single pitcher no-hitters, der faktisk opstod i 1876-2009. Standardafvigelsen var 15,7 no-hitters. Således giver denne sidste model, der bruger individuelle kande data, igen en stor forbedring i forhold til de tidligere modeller., Resultaterne af simuleringerne af de tre metoder til undersøgelse af no-hitters er præsenteret i figur 4.

diskussion og konklusion

modellering af sjældne begivenheder er tilbøjelig til betydelig relativ fejl, uanset om man modellerer ekstrem opførsel på de finansielle markeder eller sjældne vejrbegivenheder. Det samme er tilfældet i modellering sjældne forekomster i baseball. Vores Analyse og simuleringer viser, at brug af multiyear kombinerede data fører til unøjagtige forudsigelser for forekomsten af sjældne begivenheder (såsom perfekte spil og ikke-hitters)., Ved hjælp af år-for-år data forbedret resultaterne lidt, mens herunder kande-for-kande data i hvert år af sin karriere i høj grad forbedret resultaterne for både det perfekte spil og no-hitter undersøgelser. Dette indikerer, at de, der har sat no-hitters og perfekte spil havde, generelt, langt overlegen pitching evne end den gennemsnitlige kande i baseball historie.

for at kunne udføre beregningerne var vi nødt til at justere for de ufuldstændige data, der var tilgængelige vedrørende batters, der nåede base via fejl., På trods af manglen på data i de første år af Major League Baseball er de opnåede resultater ret realistiske. Da vi udførte analysen i sæsonen 2010, inkluderede vi kun komplette sæsoner. Med overflod af perfekte spil (og et perfekt spil brudt op af et dårligt opkald fra en dommer) og ikke-hitters i 2010 ser det ud til, at 2010 var en særlig sæson af den slags, der ikke burde komme sammen meget ofte, i det mindste for perfekte spil og ikke-hitters., Mens en kande evne til at kaste et perfekt spil er sikkert forstærket af den meget lavere sats af fejl i det moderne spil, kan vi overveje os selv heldige at have været vidne til sådan en særlig sæson.

man kan spørge, om holdene, der blev besejret i perfect games, havde mindre offensiv evne end ligagennemsnittet, og om dette aspekt skulle påvirke antallet af perfect games. Det viser sig, at det besejrede hold i de 17 regulære perfekte kampe havde en bedre standard OBP end ligagennemsnittet syv gange og en værre OBP ti gange., I gennemsnit var standard OBP for det besejrede hold 0, 0046 mindre end liga gennemsnittet. Detaljer er præsenteret i tabel 4. Vi konkluderer heraf, ligesom Frohlich gjorde i no-hitter-sagen, at variationen i batter evne har en lille effekt på perfekte spil.

tabel 1 angiver en 42-årig kløft mellem den regulære sæson perfekte spil slog af Charlie Robertson i 1922 og den ene slog af Jim Bunning i 1964. Dette fik os til at undre os over, om et lignende stort hulfænomen forekommer i simuleringerne., Vi kiggede på det længste hul i hver af vores 2.000 universe perfect game pitcher-by-pitcher simuleringer. Vores længste kløft mellem perfekt spil i gennemsnit 24.1 år med en standardafvigelse på 12,4 år, med minimum længste kløft bliver tre år, og den maksimale længste kløft være blevet 86 år i vores 2,000 universer. Vi har demonstreret i dette papir, hvordan man kan anvende matematiske metoder til at modellere selv sjældne aspekter af baseball. Vi håber, at dette arbejde vil føre til yderligere matematiske undersøgelser i spørgsmål vedrørende Amerikas største spil.,

tillæg

følgende forkortelser er anvendt i dette papir.

AB – På-Flagermus
BB – Baser på Bolde
BF – Meningsmålinger Står
H – Hits
HBP Ramt af Pladser
OBP – On Base percentage
ROE – Nåede Base på Fejl
SF – Offer Flyve

Beregning af Sandsynligheden for, at der Ud, Hit, og Nå Bunden uden et Hit for de Enkelte Kander fra Tilgængelige Data