Modeling Perfect Games and No-Hitters in Baseball

a través de los primeros 134 años de las Grandes Ligas de béisbol, 1876-2009, algunos de sus eventos más interesantes y poco comunes han sido los 260 no-hitters (18 de los cuales han sido juegos perfectos. En 2010, lanzadores lanzaron seis no-hitters, dos de los cuales (y casi un tercero) fueron perfectos. En este artículo, investigamos si los modelos matemáticos simples pueden explicar la frecuencia de los juegos perfectos y los no-hitters a lo largo de los años., También investigamos si los lanzadores que realmente lanzaron los juegos perfectos fueron aquellos a quienes «se debería haber esperado» que lo hicieran.
a través de los primeros 134 años de las Grandes Ligas de béisbol, 1876-2009, algunos de sus eventos más interesantes y poco comunes han sido los 260 no-hitters (18 de los cuales han sido juegos perfectos»no-Hitter – br Bullpen.»Baseball-Reference.com -estadísticas e Historia de las Grandes Ligas de béisbol. Web. Junio-Julio De 2010. http://www.baseball-reference.com/bullpen/No_hitter., «PerfectGame.»Baseball-Reference.com -estadísticas e Historia de las Grandes Ligas de béisbol. Web. Junio-Julio De 2010. http://www.baseball-reference.com/bullpen/Perfect_game.)., En 2010, lanzadores lanzaron seis no-hitters, dos de los cuales (y casi un tercero) fueron perfectos. En este artículo, investigamos si los modelos matemáticos simples pueden explicar la frecuencia de los juegos perfectos y los no-hitters a lo largo de los años. También investigamos si los lanzadores que realmente lanzaron los juegos perfectos fueron aquellos a quienes «se debería haber esperado» que lo hicieran.

PERFECT GAMES

desde 1876 hasta 2009, los lanzadores lanzaron 18 perfect games., Cada uno fue logrado por un lanzador diferente y solo una vez antes de 2010 (en 1880) se produjeron dos juegos perfectos en el mismo año (Ver Tabla 1). De estos juegos perfectos, 17 llegaron durante la temporada regular. En este artículo, solo consideramos los eventos de temporada regular.

modelo más simple

posiblemente el enfoque más simple para modelar la ocurrencia de juegos perfectos es tratar todas las estaciones, todos los lanzadores y todos los bateadores por igual. Dada esta suposición aparentemente poco realista, uno puede preguntarse, ¿cuántos juegos perfectos deberían haber sido lanzados?,

durante los primeros 134 años de Historia de las Grandes Ligas de béisbol, el porcentaje total en base (OBP) ha sido de aproximadamente 0.3279,la definición estándar de OBP es (H + BB + HBP)/(AB + BB + HBP + SF). Alcanzar la base en un error no se utiliza en esta definición. Para una lista de las abreviaturas utilizadas en este documento, véase el Apéndice. lo que significa que en aproximadamente 1?3 de las apariencias del plato, el bateador alcanzó la base. Sin embargo, para lanzar un juego perfecto, un lanzador titular debe retirar a los 27 bateadores consecutivos que enfrenta., La probabilidad de lanzar un out es (1-OBP), por lo que la probabilidad de lanzar un juego perfecto es (1-OBP)27.

en general, por lo tanto, el número de juegos perfectos que se espera de acuerdo con este análisis es:

la razón del «2» es que cualquiera de los equipos en un juego puede lanzar un juego perfecto. 195.177 partidos de la temporada regular se jugaron de 1876 a 2009, por lo que el número de partidos perfectos que se espera de 1876 a 2009 es de 195.177 * 2 * (1-.3279) 27 = 8.55, solo la mitad de los 17 observados.,

uno puede abordar este asunto de la manera opuesta y calcular el OBP necesario para obtener el resultado de 17 juegos perfectos. Resolviendo la ecuación (1) para OBP, tenemos

esto conduce a un OBP 0.3106. Desde la perspectiva del OBP, una diferencia de 0.0173 (es decir, .3279 – .3106), o alrededor del 5% del valor OBP, puede explicar la diferencia entre el número observado de juegos perfectos (17) y el número esperado de este modelo simple (8.55)., Esto demuestra la sensibilidad del número esperado de juegos perfectos a las variaciones en OBP. Presentamos en el gráfico 1 la relación entre OBP y el número esperado de juegos perfectos. A medida que aumenta la OBP, más bateadores se ponen en la base y la probabilidad de un juego perfecto se reduce.

notamos que OBP ha oscilado desde un mínimo de 0.267 en 1880 a un máximo de 0.379 en 1894. Si estos valores persistieran durante los 134 años estudiados, el número esperado de juegos perfectos habría sido de 89 y uno respectivamente. La desviación estándar ponderada por juego año por año de OBP es 0.,0150, por lo que un rango de desviación estándar para OBP da un rango de 0.3129 a 0.3429 (es decir, .3279 ± 0.0150. Esto da como resultado que el número esperado de juegos perfectos varíe de 4.6 a 15.5, lo que se acerca pero no alcanza el número observado de 17 juegos perfectos. Esto demuestra aún más la sensibilidad de los juegos perfectos esperados a los pequeños cambios en OBP. También indica que si bien este modelo simple no es muy satisfactorio, no es del todo incompatible con el número observado de juegos perfectos.,

modelo año por año

los resultados del modelo simple nos llevaron a considerar un modelo revisado en el que se utiliza el mismo enfoque pero en el que cada año se considera por separado. Claramente, no todos los años en el béisbol han sido iguales, como se indica anteriormente por el rango de valores OBP observados a lo largo de los años. Si consideramos cada año por separado, con su propio OBP, ¿cómo cambiaría el número esperado de juegos perfectos?,

aplicando la ecuación (1) a cada año individualmente y teniendo en cuenta el número de partidos de temporada regular jugados, calculamos el número esperado de partidos perfectos para cada año. Después de sumar estos juegos, encontramos que el número esperado de juegos perfectos en 1876-2009 era de 10.6. El año con el menor número esperado de juegos perfectos fue 1894, con 0.004 juegos perfectos esperados; el número de juegos jugados (799) fue pequeño y el OBP (0.379) alto.

el mayor número de juegos perfectos (0.451) se esperaba en 1884, cuando el OBP fue un mínimo .,279 y el número de partidos jugados un máximo de 1.544, el cuarto número más alto de juegos en una temporada anterior a 1960. El hecho de que este modelo esperara 10.6 juegos perfectos en lugar de los 17 reales indica que se necesita un enfoque mejorado para obtener un resultado más realista. Aún más preocupante es que el OBP estándar omite llegar a la base por error (ROE), que en realidad cuenta para un out en el término al bate, bajando el OBP, y un solo jugador que llega a la base por un error frustra un juego perfecto., Al menos cinco juegos casi perfectos, divididos por un solo error, han ocurrido en la historia del béisbol.Agradecemos a un árbitro anónimo por sugerir la incorporación de ROE en nuestro análisis.

INCORPORATING BATTERS REACHING BASE ON ERRORS

Los datos completos para bateadores que alcanzan la base en un error solo están disponibles para 40 de los años desde 1960 hasta el presente.Ruiz, William. «Juegos Casi Perfectos.»The Baseball Research Journal 20( 1991): 46-51. Imprimir. El número total de errores cada año para todos los años desde 1876 hasta el presente, sin embargo, puede ser fácilmente localizado., Curiosamente, para los 40 años de Datos Completos, la relación de bateadores que alcanzan la base en un error con el número total de errores es casi constante, promediando 63.4% con una desviación estándar de 1.1%. Por lo tanto, podemos razonablemente tomar el 63.4% del número total de errores a lo largo de la historia del béisbol, o año por año, para aquellos años para los que no hay datos de ROE incompletos o no, como una estimación del número de bateadores que alcanzan la base en un error., El OBP ajustado para incorporar alcanzar la base en un error se convierte así en:

tenga en cuenta que las apariencias de los bateadores que alcanzan la base en un error ya se han incluido en el denominador (como outs) en AB. Realizar el mismo análisis que se hizo para el modelo más simple (OBPROE = 0.3490 con desviación estándar 0.0165) conduce al número esperado de juegos perfectos desde 1876 hasta 2009 de 3.6; un rango de una desviación estándar produce 1.8 a 7.1 juegos perfectos esperados., estos resultados se presentan en el gráfico 2, donde está claro que el rango de desviación estándar de OBPROE no está ni cerca de incluir el número real de juegos perfectos. La aplicación del OBPROE al modelo año por año conduce a la expectativa marginalmente más realista de 4.3 juegos perfectos de 1876 a 2009. Vemos, sin embargo, que ajustar OBP para incorporar ROE exacerba el error y resalta aún más la necesidad de una mirada más cuidadosa a la ocurrencia de juegos perfectos.,

modelo lanzador por Lanzador

para los modelos anteriores, se presumía que todos los bateadores y lanzadores tenían la misma capacidad a lo largo de la historia del béisbol (en el modelo más simple) o para cada año individualmente (en el modelo año por año). Esto lleva a la expectativa de menos de un tercio del número real de juegos perfectos cuando se tiene en cuenta ROE. Debido a que la suposición de la capacidad igual es poco realista, exploramos un modelo más sofisticado., Dado que el curso de un juego, y seguramente de un no-hitter, parecería depender más del rendimiento de un lanzador que del de cualquier bateador individual (ver, por ejemplo, el artículo de Frohlich sobre los no-hitters), como siguiente paso, consideramos un modelo en el que los lanzadores tienen habilidades diferentes. Específicamente, consideramos el desempeño de cada lanzador individual. ¿Con qué frecuencia un lanzador en particular genera outs? Esta variación en la capacidad de lanzar llevará a resultados más acordes con los que han ocurrido en la historia del béisbol?,

para responder a estas preguntas, compilamos los datos (el OBPROE) para cada lanzador en cada año de su carrera (es decir, si un lanzador lanzó diez años, tiene diez conjuntos de datos separados).Sean Lahman de Béisbol del Archivo. Web. Junio-Julio De 2010. http://www.baseball1.com. Dado que los datos de ROE para cada lanzador no están disponibles, asumimos que cada lanzador estaba sujeto a la misma probabilidad de que un bateador alcanzara la base en un error que todos los demás lanzadores en cada año en particular.

ese valor es la diferencia entre el OBP año por año con y sin incluir ROE, que denotamos por ROE_diff., Para los primeros años del béisbol, cuando en promedio se cometieron unos diez errores por juego, este valor es tan alto como 0.097, lo que significa que aproximadamente el 10% de todos los bateadores alcanzaron la base de un error. Para los últimos años, el valor es de aproximadamente 0.01, lo que significa que aproximadamente el 1% de todos los bateadores alcanzan la base en un error. Naturalmente, esto resulta en un gran handicap para los lanzadores en los primeros años del béisbol con respecto a la facilidad de lanzar un juego perfecto., Para un lanzador, La probabilidad de sacar a un bateador es (ver Apéndice para la derivación):

luego consideramos cuántos juegos comenzó cada lanzador cada año (ya que un lanzador no puede lanzar un juego perfecto si no comienza). Además, consideramos solo a los lanzadores que lanzaron al menos 54 outs en una temporada para eliminar los casos de datos muy bajos (observamos que relajar esta condición al mínimo de 27 outs necesarios para lanzar un juego perfecto conduce a una diferencia de menos de la mitad de un juego perfecto durante los 134 años considerados)., La probabilidad de que el lanzador lance un juego perfecto es, como antes, la probabilidad de un out elevado a la potencia 27, P(Out)27.

luego usamos una computadora para simular si un juego dado sería «perfecto» mediante el uso de un generador de números aleatorios que marcaría un juego perfecto cuando el valor aleatorio (distribuido uniformemente en ) fuera menor que P(Out)27. Esto se hizo para cada juego iniciado por cada lanzador en cada año—más de 39.000 casos en total.Por ejemplo, ya que Roger Clemens lanzó 23 años, 23 de los 39,000+ casos son los años lanzados por Clemens., Este método de simulación es muy similar al que fue utilizado por Arbesman y Strogatz en su estudio de la racha de 56 juegos de Joe DiMaggio.Arbesman, S., and S. H. Strogatz. «A Monte Carlo Approach to Joe DiMaggio and Streaks in Baseball.»arXiv: 0807. 5082v2. 1 de agosto de 2008. Uno de estos cálculos produce un «universo» de béisbol, una simulación de la historia del béisbol desde 1876 hasta 2009 utilizando valores de OBP del lanzador de los juegos de estos años. Ejecutamos la simulación de 2.000 universos y analizado la salida para el número promedio de juegos perfectos y su distribución., Además, compilamos los resultados para los que los lanzadores deberían haber sido más propensos a lanzar juegos perfectos.

en nuestros universos, el número estimado de juegos perfectos osciló entre 3 y 35 durante los 134 años, con un promedio de 15.9 (Ver Gráfico 3) con una desviación estándar de 4.1, lo que significa que el valor verdadero de 17 cae dentro de una desviación estándar del valor calculado.,

Por supuesto, uno puede incluir más aspectos del juego de béisbol, como la variación en la capacidad de bateo entre las alineaciones de los diferentes equipos o la variación en la capacidad de bateo dentro de una sola alineación. En su estudio de no-hitters, FrohlichRetrosheet ML bateo y pitcheo se divide para cada año. Esto es para la temporada de 1996, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. discutimos este problema de variación de impacto y encontramos que el efecto es pequeño. Hemos excluido algunos otros eventos de béisbol como ponches, jugadas dobles y triples, y llegar a la base de la interferencia de nuestro periódico., Estos eventos y otros pueden ser difíciles de incluir en el modelado, pueden ser problemáticos para obtener datos confiables, ocurren raramente, o es poco probable que tengan una influencia importante en los resultados.

para verificar la razonabilidad de los cálculos, observamos cómo les fue a los lanzadores que realmente lanzaron juegos perfectos en las simulaciones, así como a los lanzadores que más a menudo lanzaron juegos perfectos en estas simulaciones. Clasificamos a los lanzadores en orden del número de juegos perfectos «lanzados»por cada lanzador en los 2.000 universos e investigamos dónde se colocaron los 17 lanzadores de juegos perfectos., Ocho de los 17 estaban en el top 1% (en el top 84 de los más de 8.300 lanzadores que han lanzado en las Grandes Ligas) en nuestro ranking, mientras que otros seis estaban en el top 5% (85º–420º), uno más en el top 10%, y el otro
Dos en el top 25%. estos resultados aparecen en la Tabla 2. Los 10 mejores lanzadores con el mayor número de juegos perfectos en las simulaciones se presentan en la Tabla 3. Todos son bien conocidos entre los fanáticos del béisbol, aunque solo uno de ellos (Sandy Koufax) lanzó un juego perfecto. Uno de los otros (Walter Johnson) lanzó un «juego casi perfecto».,»

notamos que solo alrededor de 2,700 de los más de 8,300 lanzadores en la historia del béisbol lanzaron un juego perfecto en la simulación de 2,000 universos de béisbol. Los otros carecían del nivel de habilidad necesario o nunca comenzaron un juego. La desviación estándar para los resultados enumerados en la Tabla 3 es de aproximadamente 16 juegos.

NO-HITTERS

Todos los juegos perfectos son no-hitters, pero los no-hitters son más comunes que los juegos perfectos, ya que no se rompen por una caminata, hit-by-pitch o error. Aún así, lanzar un no-hitter es todo un logro., En un juego perfecto, Las únicas probabilidades involucradas son de llegar a la base y de un out. En contraste, en el modelado de no-hitters, uno también debe lidiar con las probabilidades de una caminata, un hit-by-pitch y llegar a la base en un error. Hubo 250 no-hitters de un solo lanzador durante las temporadas regulares 1876-2009.

FrolichRetrosheet ML División de bateo y lanzamiento para cada año. Esto es para la temporada de 1996, http://www.retrosheet.org/boxesetc/1996/YS_1996.htm. se acercó a la cuestión más general de la frecuencia con la que un número determinado de golpes debe obtenerse en un juego de béisbol., Consideró hits y outs, mientras ignoraba todos los demás eventos, y desarrolló una fórmula binomial negativa para la distribución del número de hits que se pueden esperar en un juego dada la probabilidad general de un hit cada año que estudió. Luego construyó sobre ese modelo, primero variando las habilidades de los lanzadores promedio y luego variando las habilidades de los bateadores promedio. Encontró un buen acuerdo con la predicción del número de juegos de tres hits a través de juegos de diez hits para el período de cinco años de 1989 a 1993. Sus resultados fuera de esta gama de éxitos, sin embargo, fueron menos satisfactorios., Su modelo predijo solo alrededor de dos tercios del número real de no-hitters para el período 1900-93.

nuestros esfuerzos se centran en obtener mejores resultados en el modelado de no-hitters. Modelamos matemáticamente el número de no-hitters en 1876-2009 y luego comparamos nuestro resultado con el valor verdadero.

el modelo más simple de no-HITTER

revisamos nuestro modelo de computadora para recrear nuestros universos de la historia del béisbol incorporando tres tipos de eventos que pueden ocurrir en un juego de béisbol: (1) hits; (2) walks, hit-by-pitches y reaching base on an error; y (3) outs., Para investigar el problema del no-hitter, necesitábamos ir a través de alineaciones de un bateador a la vez a través de cada juego (donde se supone que todos los bateadores tienen la misma habilidad). Se eligió un número aleatorio distribuido uniformemente para determinar si un bateador estaba fuera, obtuvo un hit, o alcanzó la base por una caminata, hit-by-pitch o alcanzando un error. Si se obtuvo un hit antes de que se registraran 27 outs, el juego no pudo ser un no-hitter. Por otro lado, si se registraban 27 outs sin que se obtuvieran hits, el juego se consideraba un no-hitter., Esto se repitió para simular 2.000 universos con 195.177 juegos en cada uno.

primero, como hicimos para modelar perfect games, usamos las probabilidades de outs, hits y BB+HBP +ROE (como se describió anteriormente) para los 134 años desde 1876 hasta 2009. La probabilidad de un out fue de 0.6510; la probabilidad de un hit fue de 0.2374; y la probabilidad de un BB, HBP o ROE fue de 0.1116. Esta simulación inicial proyectó un insatisfactorio 123 no-hitters en un universo promedio con una desviación estándar de 14.5 no-hitters. (El número objetivo de no-hitters era 250).,

modelo NO-HITTER año por año

ejecutamos la simulación de nuevo, pero Ahora calculamos las probabilidades de outs, hits y BB+HBP+ROE por separado para cada temporada. Las probabilidades se introdujeron en el programa junto con el número de juegos que se llevan a cabo cada año. Una vez más simulamos 2.000 universos de béisbol. Estos resultados fueron ligeramente mejores pero aún insatisfactorios. Esta simulación produjo 135.4 no-hitters en promedio con una desviación estándar de 14.8. Esto indicaba, al igual que con nuestro análisis perfecto del juego, que sería mejor repetir nuestro enfoque lanzador por Lanzador.,

modelo no-HITTER lanzador por Lanzador

revisamos nuestro enfoque lanzador por lanzador para el modelado de juego perfecto para investigar a los no-hitters de la misma manera que lo hicimos usando los modelos más simples de no-Hitter y Año por año de No-Hitter; es decir, consideramos el caso de llegar a la base sin un hit además del caso de hits y el caso de outs. Observamos las probabilidades de las diversas ocurrencias para cada lanzador que comenzó un juego para cada año y procedimos como se describe en la sección anterior «juego perfecto»., Una vez más, solo consideramos a los lanzadores que comenzaron al menos un partido y lanzaron al menos 54 outs en esa temporada. Los resultados fueron sorprendentes. En los 2,000 universos que corrimos, encontramos un promedio de 243 no-hitters, menos de un 4% de los 250 no-hitters de un solo lanzador que realmente ocurrieron en 1876-2009. La desviación estándar fue de 15,7 no-hitters. Por lo tanto, este último modelo, que utiliza datos individuales de lanzador, una vez más proporciona una gran mejora sobre los modelos anteriores., Los resultados de las simulaciones de los tres métodos para investigar a los no-hitters se presentan en el gráfico 4.

discusión y conclusión

El modelado de eventos raros es propenso a errores relativos significativos, ya sea que se esté modelando un comportamiento extremo en los mercados financieros o eventos climáticos raros. Lo mismo es cierto en el modelado de ocurrencias raras en el béisbol. Nuestros análisis y simulaciones demuestran que el uso de datos combinados de varios años conduce a predicciones inexactas para la ocurrencia de eventos raros (como juegos perfectos y no-hitters)., El uso de datos año por año mejoró un poco los resultados, mientras que la inclusión de datos lanzador por Lanzador en cada año de su carrera mejoró en gran medida los resultados tanto para el juego perfecto como para los estudios de no-hitter. Esto indica que aquellos que han lanzado sin hits y juegos perfectos tenían, en general, una capacidad de lanzamiento muy superior a la del lanzador promedio en la historia del béisbol.

para realizar los cálculos, necesitábamos ajustar los datos incompletos disponibles sobre los bateadores que llegaban a la base por error., A pesar de la falta de datos en los primeros años de las Grandes Ligas de béisbol, los resultados obtenidos son bastante realistas. Dado que realizamos el análisis durante la temporada 2010, solo incluimos temporadas completas. Con la plétora de juegos perfectos (y un juego perfecto roto por una mala llamada por un árbitro) y no-hitters en 2010, parece que 2010 fue una temporada especial del tipo que no debería venir muy a menudo, al menos para juegos perfectos y no-hitters., Si bien la capacidad de un lanzador para lanzar un juego perfecto seguramente se ve reforzada por la tasa mucho más baja de errores en el juego moderno, podríamos considerarnos afortunados de haber presenciado una temporada tan especial.

uno podría preguntarse si los equipos derrotados en los juegos perfectos tenían menos capacidad ofensiva que el promedio de la liga y si este aspecto debería influir en el número de juegos perfectos. Resulta que en los 17 juegos perfectos de la temporada regular, el equipo derrotado tuvo un mejor OBP estándar que el promedio de la Liga siete veces y un peor OBP diez veces., En promedio, el OBP estándar del equipo derrotado fue 0.0046 menos que el promedio de la Liga. Los detalles se presentan en el cuadro 4. Concluimos de esto, al igual que lo hizo Frohlich en el caso de no-hitter, que la variación en la capacidad de bateo tiene un pequeño efecto en los juegos perfectos.

La Tabla 1 indica una brecha de 42 años entre el juego perfecto de la temporada regular lanzado por Charlie Robertson en 1922 y el lanzado por Jim Bunning en 1964. Esto nos hizo preguntarnos si un fenómeno similar de gran brecha ocurre en las simulaciones., Observamos la brecha más larga en cada una de nuestras 2.000 simulaciones de juego perfecto lanzador por Lanzador. Nuestra brecha más larga entre perfect games promedió 24.1 años con una desviación estándar de 12.4 años, con la brecha más larga mínima de tres años y la brecha más larga máxima de 86 años en nuestros 2.000 universos. Hemos demostrado en este artículo cómo uno puede aplicar métodos matemáticos para modelar incluso aspectos raros del béisbol. Esperamos que este trabajo conduzca a nuevas investigaciones matemáticas sobre cuestiones relacionadas con el juego más grande de Estados Unidos.,

Apéndice

en este trabajo se han utilizado las siguientes abreviaturas.

AB – at-Bats
BB – Bases en bolas
BF – Batters Faced
Hits
HBP – Hit by Pitches
OBP – On – Base Percentage
ROE-Reached Base on Error
SF – Sacrifice Fly

Derivation of the probabilidad de out, hit y alcanzar la base sin un hit para lanzadores individuales a partir de los datos disponibles

Ottima

Deja una respuesta

Entradas recientes

Archivos

Meta