Modellering Perfekt Spel och No-Hitters i Baseball

Genom Major League Baseball första 134 år, 1876-2009, några av de mest intressanta och ovanliga händelser har varit 260 no-hitters (varav 18 har varit perfekt spel. Under 2010 kastade pitchers sex no-hitters, varav två (och nästan en tredjedel) var perfekta. I detta dokument undersöker vi om enkla matematiska modeller kan förklara frekvensen av perfekta spel och no-hitters genom åren., Vi undersöker också om pitchers som faktiskt slog de perfekta spelen var de som” borde ha förväntats ” att göra det.
Genom Major League Baseball första 134 år, 1876-2009, några av de mest intressanta och ovanliga händelser har varit 260 no-hitters (varav 18 har varit perfekt spel”No-Hitter – BR Bullpen.”Baseball-Reference.com – Major League Baseball Statistik och Historia. Webb. Juni-Juli 2010. http://www.baseball-reference.com/bullpen/No_hitter.,”PerfectGame.”Baseball-Reference.com – Major League Baseball Statistik och Historia. Webb. Juni-Juli 2010. http://www.baseball-reference.com/bullpen/Perfect_game.)., Under 2010 kastade pitchers sex no-hitters, varav två (och nästan en tredjedel) var perfekta. I detta dokument undersöker vi om enkla matematiska modeller kan förklara frekvensen av perfekta spel och no-hitters genom åren. Vi undersöker också om pitchers som faktiskt slog de perfekta spelen var de som” borde ha förväntats ” att göra det.

perfekta spel

från 1876 till 2009 kastade pitchers 18 perfekta spel., Var och en uppnåddes av en annan kanna och endast en gång före 2010 (långt tillbaka i 1880) gjorde två perfekta spel inträffar samma år (se Tabell 1). Av dessa perfekta spel kom 17 under ordinarie säsong. I det här dokumentet anser vi bara regelbundna säsongshändelser.

enklaste modellen

möjligen det enklaste sättet att modellera förekomsten av perfekta spel är att behandla alla årstider, alla kannor och alla batters lika. Med tanke på detta till synes orealistiska antagande kan man fråga, hur många perfekta spel borde ha blivit placerade?,

under de första 134 åren av Major League Baseball historia, den totala on-base procent (OBP) har varit ungefär 0.3279,standarddefinitionen av OBP är (H + BB + HBP)/(AB + BB + HBP + SF). Att nå basen på ett fel används inte i denna definition. För en förteckning över förkortningar som används i detta dokument, Se bilagan. vilket betyder att om 1?3 av plattans utseende nådde smeten basen. Men för att kasta ett perfekt spel måste en startkärl gå i pension de 27 på varandra följande hitters han står inför., Sannolikheten att pitching an out är (1-OBP), och så är sannolikheten att pitching ett perfekt spel (1-OBP)27.

i allmänhet är antalet perfekta spel som kan förväntas enligt denna analys:

anledningen till ”2” är att båda lagen i ett spel kan kasta ett perfekt spel. 195,177 ordinarie säsong spel spelades från 1876-2009, så antalet perfekta spel som kan förväntas från 1876-2009 är 195,177 * 2 * (1-.3279) 27 = 8,55, bara hälften av de 17 observerade.,

man kan närma sig denna fråga på motsatt sätt och beräkna OBP som behövs för att få resultatet av 17 perfekta spel. Lösa ekvation (1) för OBP, vi har

detta leder till en 0.3106 OBP. Ur OBP-perspektivet, en skillnad på 0,0173 (det vill säga .3279 – .3106), eller ca 5% av OBP-värdet, kan stå för skillnaden mellan det observerade antalet perfekta Spel (17) och det antal som förväntas från denna enkla modell (8.55)., Detta visar känsligheten hos det förväntade antalet perfekta spel till variationer i OBP. Vi presenterar i diagram 1 förhållandet mellan OBP och det förväntade antalet perfekta spel. När OBP ökar kommer fler batters på basen och sannolikheten för ett perfekt spel krymper.

vi noterar att OBP har varierat från en låg av 0.267 i 1880 till en hög av 0.379 i 1894. Om dessa värden kvarstod genom de 134 år som studerades skulle det förväntade antalet perfekta spel ha varit 89 respektive en. Den årliga spelvägda standardavvikelsen för OBP är 0.,0150, så ett standardavvikelseområde för OBP ger ett intervall på 0.3129 till 0.3429 (det vill säga .3279 ± 0.0150. Detta resulterar i det förväntade antalet perfekta spel för att sträcka sig från 4,6 till 15,5, som kommer nära men når inte det observerade antalet 17 perfekta spel. Detta visar vidare känsligheten hos förväntade perfekta spel till små förändringar i OBP. Det indikerar också att även om denna enkla modell inte är mycket tillfredsställande, är den inte helt oförenlig med det observerade antalet perfekta spel.,

år för år modell

resultaten av den enkla modellen ledde oss att överväga en reviderad modell där samma metod används men där varje år behandlas separat. Uppenbarligen har inte alla år i baseball varit lika, vilket indikeras ovan av intervallet av observerade OBP-värden under åren. Om vi betraktar varje år separat, med sin egen OBP, hur skulle det förväntade antalet perfekta spel förändras?,

tillämpa ekvation (1) till varje år individuellt och med hänsyn till antalet ordinarie säsong spel som spelas, vi beräknat det förväntade antalet perfekta spel för varje år. Efter att ha sammanfattat dessa spel fann vi att det förväntade antalet perfekta spel 1876-2009 var 10.6. Året med det lägsta förväntade antalet perfekta spel var 1894, med 0.004 förväntade perfekta spel; antalet spel som spelades (799) var litet och OBP (0.379) högt.

det största antalet perfekta spel (0.451) förväntades 1884, när OBP var låg .,279 och antalet matcher spelade en hög 1,544, det fjärde högsta antalet matcher under en säsong före 1960. Att 10.6 perfekta spel förväntades av denna modell snarare än den faktiska 17 indikerar att ett förbättrat tillvägagångssätt behövs för att få ett mer realistiskt resultat. Ännu mer oroande är att standard OBP utelämnar att nå base on error (ROE), som faktiskt räknar mot en ut i At-bat-termen, sänker OBP och en enda spelare som når basen på ett fel folier ett annars perfekt spel., Minst fem nästan perfekta spel, uppbrutna av bara ett enda fel, har inträffat i baseball historia.Vi tackar en anonym domare för att föreslå att ROE ingår i vår analys.

det är bara 40 av åren från 1960 till nutid som innehåller BATTERS som når bas på fel.Ruiz, William. ”Nästan Perfekt Spel.”Baseball Forskning Tidning 20 (1991): 46-51. Skriva. Det totala antalet fel varje år för alla år från 1876 till idag kan dock enkelt placeras., Intressant, för de 40 år av fullständiga uppgifter, förhållandet mellan batters når bas på ett fel till det totala antalet fel är nästan konstant, i genomsnitt 63,4% med en standardavvikelse på 1,1%. Således kan vi rimligen ta 63,4% av det totala antalet fel under hela baseballhistoriken, eller år för år, för de år för vilka det finns ofullständiga eller inga ROE-data, som en uppskattning för antalet batters som når basen på ett fel., OBP justeras för att införliva nå bas på ett fel blir således:

Observera att plattan framträdanden av de batters når bas på ett fel har redan inkluderats i nämnaren (som outs) i AB. Att utföra samma analys som gjort för den enklaste modellen (OBPROE = 0.3490 med standardavvikelse 0.0165) leder till det förväntade antalet perfekta spel från 1876 till 2009 av 3.6; ett standardavvikelseintervall ger 1.8 till 7.1 förväntade perfekta spel., dessa resultat presenteras i diagram 2, där det är uppenbart att det enda standardavvikelseområdet för OBPROE inte kommer i närheten, inklusive det sanna antalet perfekta spel. Att tillämpa OBPROE till år för år-modellen leder till marginellt mer realistiska förväntningar på 4.3 perfekta spel från 1876-2009. Vi ser dock att justering av OBP för att införliva ROE förvärrar felet och ytterligare belyser behovet av en mer noggrann titt på förekomsten av perfekta spel.,

PITCHER-BY-PITCHER modell

för de tidigare modellerna, alla batters och kannor förmodades ha lika förmåga under hela baseball historia (i den enklaste modellen) eller för varje år individuellt (i år för år modell). Detta leder till förväntan på mindre än en tredjedel av det faktiska antalet perfekta spel när ROE beaktas. Eftersom antagandet om lika förmåga är orealistiskt utforskade vi en mer sofistikerad modell., Eftersom loppet av ett spel, och säkert av en no-hitter, verkar bero mer på en kanna prestanda än på någon enskild torped (se till exempel Frohlichs papper om no-hitters), som ett nästa steg, ansåg vi en modell där kannor har olika förmågor. Specifikt ansåg vi utförandet av varje enskild kanna. Hur ofta genererar en viss kanna outs? Kommer denna variation i pitching förmåga att leda till resultat mer i linje med de som har inträffat i baseballhistoria?,

för att svara på dessa frågor sammanställde vi data (OBPROE) för varje kanna under varje år av sin karriär (dvs. om en kanna slog tio år har han tio separata datauppsättningar).Sean Lahmans Basebollarkiv. Webb. Juni-Juli 2010. http://www.baseball1.com. Eftersom ROE data för varje kanna inte är tillgänglig, antog vi att varje kanna var föremål för samma sannolikhet för en smet når bas på ett fel som alla andra kannor i varje enskilt år.

det värdet är skillnaden mellan år för år OBP med och utan att inkludera ROE, som vi betecknar av ROE_diff., För tidiga år av baseball, när i genomsnitt cirka tio fel per spel begåtts, är detta värde så högt som 0.097, vilket innebär att cirka 10% av alla batters nådde bas på ett fel. Under de senaste åren är värdet ca 0,01, vilket betyder ungefär 1% av alla batters når basen på ett fel. Naturligtvis resulterar detta i ett stort handikapp för kannor i basebollens tidiga år med avseende på att underlätta pitching ett perfekt spel., För en kanna blir sannolikheten att få en smet ut (se bilagan för härledningen):

vi övervägde sedan hur många spel varje kanna startade varje år (eftersom en kanna inte kasta ett perfekt spel om han inte startar). Vi ansåg vidare att endast pitchers som slog minst 54 outs under en säsong för att eliminera fall av mycket låga data (vi noterar att avkopplande detta tillstånd till minst 27 outs som behövs för att kasta ett perfekt spel leder till en skillnad på mindre än en halv perfekt spel under de 134 år som beaktas)., Sannolikheten för kannan pitching ett perfekt spel är, som tidigare, sannolikheten för en ut upp till 27: e makt, P(ut)27.

vi använde sedan en dator för att simulera om ett visst spel skulle vara ”perfekt”genom att använda en slumpgenerator som skulle markera ett perfekt spel när det (jämnt fördelat på ) slumpmässiga värdet var mindre än P (ut)27. Detta gjordes för varje spel som startades av varje kanna i varje år – mer än 39 000 fall i alla.Till exempel, sedan Roger Clemens slog 23 år, 23 av de 39,000+ fallen är de år som Clemens slog., Denna simuleringsmetod är mycket lik den som användes av Arbesman och Strogatz i sin studie av Joe Dimaggios 56-spel som slår streak.Arbesman, S. och S. H. Strogatz. ”En Monte Carlo inställning till Joe DiMaggio och strimmor i Baseball.”arXiv:0807.5082v2. 1 augusti 2008. En sådan beräkning ger en baseball ”universum”, en simulering av baseball historia från 1876-2009 med hjälp av pitcher OBP värden från dessa års spel. Vi körde simuleringen för 2000 universum och analyserade produktionen för det genomsnittliga antalet perfekta spel och deras distribution., Dessutom sammanställde vi resultat för vilka kannor borde ha varit mest benägna att kasta perfekta spel.

I våra universum varierade det uppskattade antalet perfekta spel mellan 3 och 35 under de 134 åren, med medelvärdet 15,9 (se diagram 3) med en standardavvikelse på 4,1, vilket betyder att det verkliga värdet på 17 faller väl inom en standardavvikelse för det beräknade värdet.,

naturligtvis kan man inkludera fler aspekter av spelet baseball, såsom variation i att slå förmåga bland de olika lagens laguppställningar eller variation i att slå förmåga inom en enda lineup. I sin studie av no-hitters, FrohlichRetrosheet ML batting och pitching splittras för varje år. Detta gäller för 1996 års säsong, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. diskuterade denna slående variationsfråga och fann att effekten var liten. Vi har uteslutit några andra baseball händelser som strikeouts, dubbel och trippel pjäser, och nå bas på störningar från våra papper., Dessa händelser och andra kan vara svåra att inkludera i modellering, kan vara problematiskt att få tillförlitliga uppgifter för, förekommer sällan, eller är osannolikt att ha ett stort inflytande på resultaten.

som en kontroll av beräkningarnas rimlighet tittade vi på hur pitchers som faktiskt slog perfekt spel klarade sig i simuleringarna såväl som hos pitchers som oftast slog perfekt spel i dessa simuleringar. Vi rankade kannor i ordning antalet perfekta spel ”pitched” av varje kanna i 2000 universum och undersökte där den faktiska 17 perfekta spelet kannor placeras., Åtta av de 17 var i topp 1% (i topp 84 av de över 8,300 kannor som har pitched i de stora ligorna) i vår ranking, medan sex andra var i topp 5% (85th–420th), en mer i topp 10%, och den andra
två i topp 25%. dessa resultat visas i Tabell 2. Topp 10 kannor med det största antalet perfekta spel i simuleringarna presenteras i tabell 3. Alla är välkända bland baseball fans, även om bara en av dem (Sandy Koufax) faktiskt slog ett perfekt spel. En av de andra (Walter Johnson) slog ett ”nästan perfekt spel.,”

vi noterar att endast cirka 2,700 av de mer än 8,300 kannor i baseball historia någonsin slog ett perfekt spel i simuleringen av 2,000 baseball universum. De andra saknade antingen den nödvändiga kompetensnivån eller startade aldrig ett spel. Standardavvikelsen för de resultat som anges i tabell 3 är cirka 16 matcher.

no-HITTERS

alla perfekta spel är no-hitters, men no-hitters är vanligare än perfekta spel eftersom de inte bryts upp av en promenad, hit-by-pitch eller fel. Ändå är pitching en no-hitter en ganska prestation., I ett perfekt spel är de enda sannolikheterna som är inblandade att komma på basen och av en ut. Däremot måste man i modellering av no-hitters också hantera sannolikheterna för en promenad, en hit-by-pitch och nå bas på ett fel. Det var 250 enda kanna no-hitters under 1876-2009 ordinarie säsonger.

FrolichRetrosheet ML batting och pitching splittras för varje år. Detta gäller för 1996 års säsong, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. närmade sig den mer allmänna frågan om hur ofta ett visst antal träffar ska erhållas i ett basebollspel., Han ansåg träffar och outs, samtidigt som han ignorerade alla andra händelser och utvecklade en negativ binomialformel för fördelningen av antalet träffar som kan förväntas i ett spel med tanke på den totala sannolikheten för en träff varje år han studerade. Han byggde sedan på den modellen, först variera den genomsnittliga kannor ’förmågor och sedan variera den genomsnittliga batters’ förmågor. Han fann bra överenskommelse med att förutsäga antalet tre-hit-spel genom tio-hit-spel för femårsperioden från 1989 till 1993. Hans resultat utanför detta antal träffar var dock mindre tillfredsställande., Hans modell förutspådde endast cirka två tredjedelar det faktiska antalet no-hitters för 1900-93-perioden.

våra ansträngningar är inriktade på att få förbättrade resultat i modellering av no-hitters. Vi modellerade matematiskt antalet no-hitters 1876-2009 och jämförde sedan vårt resultat med det sanna värdet.

enklaste no-HITTER modell

vi reviderade vår datormodell för att återskapa våra universum av baseball historia genom att införliva tre typer av händelser som kan förekomma i en baseballmatch: (1) träffar; (2) promenader, hit-by-platser och nå bas på ett fel; och (3) outs., För att undersöka no-hitter-problemet behövde vi gå igenom laguppställningar en smet i taget genom varje spel (där alla batters antas ha lika förmåga). Ett slumptal valdes jämnt fördelat på att avgöra om en smet var ute, fick en träff eller nådde basen med en promenad, hit-by-pitch eller nå på ett fel. Om en träff erhölls innan 27 outs spelades in misslyckades spelet att vara en no-hitter. Å andra sidan, om 27 outs spelades in utan att några träffar erhölls, ansågs spelet vara en no-hitter., Detta upprepades för att simulera 2,000 universum med 195,177 spel i varje.

först, som vi gjorde för att modellera perfekta spel, använde vi sannolikheterna för outs, hits och BB+HBP +ROE (som beskrivits tidigare) för 134-åren från 1876 till 2009. Sannolikheten för en ut var 0.6510; sannolikheten för en träff var 0.2374; och sannolikheten för en BB, HBP eller ROE var 0.1116. Denna initiala simulering projicerade en otillfredsställande 123 no-hitters i ett genomsnittligt universum med en standardavvikelse på 14,5 no-hitters. (Måltalet för no-hitters var 250).,

år för år ingen HITTER modell

vi körde simuleringen igen, men nu har vi beräknat sannolikheterna för outs, hits, och BB+HBP+ROE separat för varje säsong. Sannolikheterna var ingång i programmet tillsammans med antalet spel som äger rum varje år. Återigen simulerade vi 2000 baseballuniverser. Dessa resultat var något bättre men ändå otillfredsställande. Denna simulering producerade 135.4 no-hitters i genomsnitt med en standardavvikelse på 14.8. Detta indikerade, som med vår perfekta spelanalys, att vi kanske borde upprepa vår pitcher-by-pitcher-strategi.,

PITCHER-BY-PITCHER no-HITTER MODEL

vi reviderade vår pitcher-by-pitcher-strategi för perfekt spelmodellering för att undersöka no-hitters på samma sätt som vi gjorde med de enklaste No-Hitter-och år-för-år-no-Hitter-modellerna, det vill säga vi ansåg att det var fallet att komma på basen utan en träff utöver fallet med träffar och fallet med outs. Vi tittade på sannolikheterna för de olika förekomsterna för varje kanna som startade ett spel för varje år och fortsatte som beskrivs i avsnittet ”perfekt spel” ovan., Återigen ansåg vi bara pitchers som startade minst ett spel och slog minst 54 outs under den säsongen. resultaten var slående. I 2000 universum vi sprang, fann vi i genomsnitt 243 no-hitters, av med mindre än 4% från 250 enda kanna no-hitters som faktiskt inträffade i 1876-2009. Standardavvikelsen var 15,7 no-hitters. Således ger denna sista modell, som använder individuella kanndata, återigen en stor förbättring jämfört med tidigare modeller., Resultaten av simuleringarna av de tre metoderna för att undersöka no-hitters presenteras i diagram 4.

diskussion och slutsats

modellering sällsynta händelser är benägna att betydande relativa fel om man modellerar extrema beteende på finansmarknaderna eller sällsynta väderhändelser. Detsamma gäller för modellering av sällsynta händelser i baseball. Vår analys och simuleringar visar att användning av multiyear kombinerade data leder till felaktiga förutsägelser för förekomsten av sällsynta händelser (som perfekta spel och no-hitters)., Med hjälp av år för år förbättrade resultaten lite, samtidigt som pitcher-by-pitcher-data i varje år av sin karriär förbättrade resultaten för både det perfekta spelet och no-hitter-studierna. Detta indikerar att de som har pitched no-hitters och perfekta spel hade i allmänhet överlägsen pitching förmåga än den genomsnittliga pitcher i baseball historia.

för att kunna utföra beräkningarna behövde vi justera för de ofullständiga data som fanns tillgängliga om batters som nådde basen via fel., Trots bristen på data under de första åren av Major League Baseball är de erhållna resultaten ganska realistiska. Sedan vi utförde analysen under 2010-säsongen inkluderade vi bara kompletta årstider. Med de många perfekta spelen (och ett perfekt spel som bryts upp av ett dåligt samtal av en domare) och no-hitters i 2010 verkar det som om 2010 var en speciell säsong av det slag som inte borde komma mycket ofta, åtminstone för perfekta spel och no-hitters., Medan en kanna förmåga att kasta ett perfekt spel säkert förbättras av den mycket lägre graden av fel i det moderna spelet, kan vi betrakta oss lyckliga att ha bevittnat en sådan speciell säsong.

man kan fråga om lagen besegrade i de perfekta spelen hade mindre offensiv förmåga än ligan genomsnittet och om denna aspekt bör påverka antalet perfekta spel. Det visar sig att i de 17 ordinarie säsongens perfekta spel hade det besegrade laget en bättre standard OBP än ligans genomsnitt sju gånger och en sämre OBP tio gånger., I genomsnitt var standard OBP för det besegrade laget 0.0046 mindre än ligans genomsnitt. Närmare uppgifter Finns i Tabell 4. Vi drar slutsatsen av detta, precis som Frohlich gjorde i no-hitter-fallet, att variationen i smetförmågan har en liten effekt på perfekta spel.

tabell 1 visar en 42-årig klyfta mellan den ordinarie säsongen perfekt spel pitched av Charlie Robertson 1922 och den som pitched av Jim Bunning 1964. Detta fick oss att undra om ett liknande stort gapfenomen uppstår i simuleringarna., Vi tittade på den längsta klyftan i var och en av våra 2000 universe perfect game pitcher-by-pitcher simuleringar. Vårt längsta gap mellan perfect games i genomsnitt 24,1 år med en standardavvikelse på 12,4 år, med den minsta längsta gapet är tre år och den maximala längsta gapet är 86 år i våra 2000 universum. Vi har i detta dokument visat hur man kan tillämpa matematiska metoder för att modellera även sällsynta aspekter av baseball. Vi hoppas att detta arbete kommer att leda till ytterligare matematiska undersökningar av frågor om Amerikas största spel.,

bilaga

följande förkortningar har använts i detta dokument.

AB – At-Bats
BB – baser på bollar
Bf – Batters inför
H – träffar
HBP – Hit av platser
OBP – On-Base procent
Roe – nått bas på fel
SF – Sacrifice Fly

härledning av sannolikheten för ut, Hit och nå bas utan träff för enskilda kannor från tillgängliga data

Ottima

Lämna ett svar

Senaste inläggen

Arkiv

Meta