Artículos

11.9: La regla empírica - Matemáticas


Objetivo

Aquí aprenderá a usar la regla empírica para estimar la probabilidad de un evento.

Si el precio por libra de USDA Choice Beef se distribuye normalmente con una media de $ 4.85 / lb y una desviación estándar de $ 0.35 / lb, ¿cuál es la probabilidad estimada de que una muestra elegida al azar (de un mercado elegido al azar) esté entre $ 5.20 y $ 5.55 por libra?

Guia

Esta lectura sobre el Regla empírica es una extensión de la lectura anterior "Comprensión de la distribución normal". En la lectura anterior, el objetivo era desarrollar una intuición de la interacción entre la disminución de la probabilidad y el aumento de la distancia de la media. En esta lectura, practicaremos la aplicación de la regla empírica para estimar la probabilidad específica de ocurrencia de una muestra basada en el rango de la muestra, medida en desviaciones estándar.

El siguiente gráfico es una representación de la regla empírica:

El gráfico es un resumen bastante conciso de la estadísticas vitales de una distribución normal. ¿Observa cómo el gráfico se parece a una campana? Ahora sabe por qué la distribución normal también se denomina "curva de campana".

  • El 50% de los datos está por encima y el 50% por debajo de la media de los datos.
  • Aproximadamente el 68% de los datos ocurren dentro de 1 DE de la media
  • Aproximadamente el 95% ocurre dentro de 2 DE de la media
  • Aproximadamente el 99,7% de los datos ocurren dentro de las 3 DE de la media

Debido a las probabilidades asociadas con 1, 2 y 3 DE, la regla empírica también se conoce como Regla 68−95−99.7.

Ejemplo 1

Si el diámetro de una pelota de baloncesto se distribuye normalmente, con una media (µ) de 9 ″ y una desviación estándar (σ) de 0,5 ″, ¿cuál es la probabilidad de que una pelota de baloncesto elegida al azar tenga un diámetro entre 9,5 ″ y 10,5 ″? ?

Solución

Dado que σ = 0.5 ″ y µ = 9 ″, estamos evaluando la probabilidad de que una bola elegida al azar tenga un diámetro entre 1 y 3 desviaciones estándar por encima de la media. El gráfico siguiente muestra la parte de la distribución normal incluida entre 1 y 3 DE:

El porcentaje de los datos que abarcan la segunda y la tercera DE es 13,5% + 2,35% = 15,85%

La probabilidad de que una pelota de baloncesto elegida al azar tenga un diámetro de entre 9,5 y 10,5 pulgadas es del 15,85%.

Ejemplo 2

Si la profundidad de la nieve en mi jardín se distribuye normalmente, con µ = 2.5 ″ y σ = .25 ″, ¿cuál es la probabilidad de que una ubicación elegida al azar tenga una profundidad de nieve entre 2.25 y 2.75 pulgadas?

Solución

2,25 pulgadas es µ - 1σ y 2,75 pulgadas es µ + 1σ, por lo que el área abarcada representa aproximadamente 34% + 34% = 68%.

La probabilidad de que una ubicación elegida al azar tenga una profundidad de entre 2,25 y 2,75 pulgadas es del 68%.

Ejemplo 3

Si la altura de las mujeres en los Estados Unidos se distribuye normalmente con µ = 5 ′ 8 ″ y σ = 1.5 ″, ¿cuál es la probabilidad de que una mujer elegida al azar en los Estados Unidos sea menor de 5 ′ 5 ″?

Solución

Este es un poco diferente, ya que no buscamos la probabilidad de un rango limitado de valores. Queremos evaluar la probabilidad de que un valor ocurra en cualquier lugar por debajo de 5 ′ 5 ″. Dado que el dominio de una distribución normal es infinito, en realidad no podemos establecer la probabilidad de la porción de la distribución en "ese extremo" porque no tiene "fin". Lo que tenemos que hacer es sumar las probabilidades que conocemos y restarlas del 100% para obtener el resto.

Aquí está el gráfico de distribución normal nuevamente, con los datos de altura insertados:

Recuerde que una distribución normal siempre tiene el 50% de los datos a cada lado de la media. Eso indica que el 50% de las mujeres estadounidenses miden más de 5 ′ 8 ″, y nos da un punto de partida sólido para calcular. Hay otro 34% entre 5 ′ 6,5 ″ y 5 ′ 8 ″ y un 13,5% final entre 5 ′ 5 ″ y 5 ′ 6,5 ″. En última instancia, eso totaliza: 50% + 34% + 13,5% = 97,5%. Dado que el 97,5% de las mujeres estadounidenses miden 5 ′ 5 ″ o más, eso deja un 2,5% de menos de 5 ′ 5 ″ de altura.

Revisión del problema de introducción

Si el precio por libra de USDA Choice Beef se distribuye normalmente con una media de $ 4.85 / lb y una desviación estándar de $ 0.35 / lb, ¿cuál es la probabilidad estimada de que una muestra elegida al azar (de un mercado elegido al azar) estar entre $ 5,20 y $ 5,55 por libra?

$ 5.20 es µ + 1σ y $ 5.55 es µ + 2σ, por lo que la probabilidad de que ocurra un valor en ese rango es aproximadamente 13.5%.

Vocabulario

Distribución normal: una distribución común, pero específica, de datos con un conjunto de características detalladas en la lección anterior.

Regla empírica: un nombre para la forma en que la distribución normal divide los datos por desviaciones estándar: 68% dentro de 1 DE, 95% dentro de 2 DE y 99,7 dentro de 3 DE de la media

Regla 68-95-99.7: otro nombre para la regla empírica

Curva de campana: la forma de una distribución normal

Práctica guiada

  1. Un conjunto de datos distribuidos normalmente tiene µ = 10 y σ = 2.5, ¿cuál es la probabilidad de seleccionar aleatoriamente un valor mayor que 17.5 del conjunto?
  2. Un conjunto de datos distribuidos normalmente tiene µ = .05 y σ = .01, ¿cuál es la probabilidad de elegir al azar un valor entre .05 y .07 del conjunto?
  3. Un conjunto de datos distribuidos normalmente tiene µ = 514 y una desviación estándar desconocida, ¿cuál es la probabilidad de que un valor seleccionado al azar sea menor que 514?

Soluciones

  1. Si µ = 10 y σ = 2.5, entonces 17.5 = µ + 3σ. Dado que estamos buscando todos los datos por encima de ese punto, necesitamos restar la probabilidad de que un valor ocurra por debajo de ese valor del 100%: la probabilidad de que un valor sea menor que 10 es del 50%, ya que 10 es la media. Hay otro 34% entre 10 y 12,5, otro 13,5% entre 12,5 y 15, y un 2,35% final entre 15 y 17,5. 100% −50% −34% −13,5% −2,35% = 0,15% de probabilidad de un valor superior a 17,5
  2. 0.05 es la media y 0.07 es 2 desviaciones estándar por encima de la media, por lo que la probabilidad de un valor en ese rango es 34% + 13.5% = 47.5%
  3. 514 es la media, por lo que la probabilidad de que un valor sea menor es del 50%.

Preguntas de práctica

Suponga que todas las distribuciones son normales o aproximadamente normales y calcule los porcentajes usando la regla 68-95-99.7.

  1. Dada la media 63 y la desviación estándar de 168, calcule el porcentaje aproximado de la distribución que se encuentra entre −105 y 567.
  2. Aproximadamente, ¿qué porcentaje de una distribución normal se encuentra entre 2 desviaciones estándar y 3 desviaciones estándar de la media?
  3. Dada la desviación estándar de 74 y la media de 124, ¿aproximadamente qué porcentaje de los valores son mayores que 198?
  4. Dado σ = 39 y µ = 101, ¿aproximadamente qué porcentaje de los valores son menores que 23?
  5. Dada la media 92 y la desviación estándar 189, calcule el porcentaje aproximado de la distribución que se encuentra entre −286 y 470.
  6. Aproximadamente, ¿qué porcentaje de una distribución normal se encuentra entre µ + 1σ y µ + 2σ?
  7. Dada la desviación estándar de 113 y la media de 81, ¿aproximadamente qué porcentaje de los valores son menores que −145?
  8. Dada la media 23 y la desviación estándar 157, calcule el porcentaje aproximado de la distribución que se encuentra entre 23 y 337.
  9. Dado σ = 3 y µ = 84, ¿aproximadamente qué porcentaje de los valores son mayores que 90?
  10. Aproximadamente, ¿qué porcentaje de una distribución normal está entre µ y µ + 1σ?
  11. Dada la media 118 y la desviación estándar 145, calcule el porcentaje aproximado de la distribución que se encuentra entre −27 y 118.
  12. Dada la desviación estándar de 81 y la media de 67, ¿aproximadamente qué porcentaje de valores son mayores que 310?
  13. Aproximadamente, ¿qué porcentaje de una distribución normal tiene menos de 2 desviaciones estándar de la media?
  14. Dado µ + 1σ = 247 y µ + 2σ = 428, calcule el porcentaje aproximado de la distribución que se encuentra entre 66 y 428.
  15. Dado µ - 1σ = −131 y µ + 1σ = 233, ¿aproximadamente qué porcentaje de los valores son mayores que −495?

  • Se estima que el 68% de los datos dentro del conjunto se coloca dentro de una desviación estándar de la media, es decir, el 68% se encuentra dentro del rango [M - SD, M + SD].
  • Se estima que el 95% de los datos dentro del conjunto se coloca dentro de dos desviaciones estándar de la media, es decir, el 95% se encuentra dentro del rango [M - 2SD, M + 2SD].
  • Se estima que el 97,7% de los datos dentro del conjunto se coloca dentro de tres desviaciones estándar de la media, es decir, el 99,7% se encuentra dentro del rango [M - 3SD, M + 3SD].

Digamos que los puntajes de un examen siguen una distribución en forma de campana que tiene una media de 100 y una desviación estándar de 16. ¿Qué porcentaje de las personas que completaron el examen obtuvieron un puntaje entre 68 y 132?

Solución: 132 - 100 = 32, que es 2 (16). Como tal, 132 son 2 desviaciones estándar a la derecha de la media. 100 - 68 = 32, que es 2 (16). Esto significa que una puntuación de 68 son 2 desviaciones estándar a la izquierda de la media. Dado que 68 a 132 está dentro de 2 desviaciones estándar de la media, 95% de los participantes del examen obtuvieron una puntuación de entre 68 y 132.

También puede estar interesado en nuestra calculadora de puntuación Z o calculadora de valor P


Regla empírica

Regla empírica
La teoría de la probabilidad y la estadística son las ramas principales y muy importantes de las matemáticas. El primero se ocupa de las posibilidades de que ocurra un evento, mientras que el segundo se ocupa de la gran cantidad de datos numéricos y varios cálculos sobre ellos.

Regla empírica: Si un conjunto de datos se distribuye aproximadamente normalmente (en forma de campana), entonces
aproximadamente el 68% de los datos estarán dentro de 1 desviación estándar de la media
Aproximadamente el 95% de los datos estarán dentro de 2 desviaciones estándar de la media.
aproximadamente el 99,7% de los datos estarán dentro de 3 desviaciones estándar de la media.

Regla empírica (p. 76): Para los datos con una distribución simétrica en forma de campana, aproximadamente el 68% de los datos se encuentra dentro de 1 desviación estándar de la media, aproximadamente el 95% está dentro de 2 desviaciones estándar de la media y aproximadamente el 99,7% está dentro de 3 desviaciones estándar de la media.

Si una distribución tiene aproximadamente forma de campana, entonces
Aproximadamente el 68% de los datos estarán dentro de 1 desviación estándar de la media.
Aproximadamente el 95% de los datos estarán dentro de 2 desviaciones estándar de la media.
Aproximadamente el 99,7% de los datos estarán dentro de las 3 desviaciones estándar de la media.

: Suponga que el histograma de los datos es simétrico alrededor de la línea vertical x = x de la siguiente manera:
En otras palabras, el histograma debe encajar en una curva en forma de campana.
Curva en forma de campana.

En conjunto, estos puntos se conocen como

o la regla 68-95-99.7. Claramente, dada una distribución normal, la mayoría de los resultados estarán dentro de las 3 desviaciones estándar de la media.

El análisis empírico basado en gráficos de Duane realizados a partir de muchas pruebas de mejora de la fiabilidad en muchas industrias es el siguiente:
Las pendientes de crecimiento de la confiabilidad de la parcela de Duane deben estar entre 0,3 y 0,6.

para Media, Mediana y Moda
Cómo medir la tendencia central usando la media, la mediana o la moda
7 pasos para crear un histograma.

de pulgar para utilizar un pedido mínimo de. La desventaja de un pedido grande es que muchos parámetros deben estimarse con restricciones. Las restricciones se pueden clasificar como condiciones de estacionariedad y parámetros estrictamente positivos.

La desviación estándar sigue la

. En pocas palabras, la regla establece que una desviación estándar de la media (en cualquier dirección) abarcará el 68% de los datos, dos desviaciones en cualquier dirección abarcarán el 95% de los datos y tres desviaciones de la media abarcarán 99.

En el uso práctico, en contraste con el

, que se aplica a distribuciones normales, bajo la desigualdad de Chebyshev, un mínimo de solo 75% de los valores debe estar dentro de dos desviaciones estándar de la media y 89% dentro de tres desviaciones estándar. [1] [2] .

Dio la suma de una serie cuyos términos son cuadrados de una progresión aritmética, y dio

- comprobar el porcentaje de datos que se encuentra dentro de 1, 2 y 3 DE de la media (debe ser aproximadamente 68%, 95% y 99,7%).
O podemos hacer un gráfico de probabilidad cuantil-cuantil comparando los cuantiles de los datos con sus contrapartes de distribución normal.

La regla de los tres sigma establece que, en una distribución normal, casi todos los valores permanecen dentro de las tres desviaciones estándar de la media. La regla de tres sigma también se conoce como


Responder a esta pregunta

Estadística

Las alturas de los hombres adultos tienen una media de 69.0 pulgadas y una desviación estándar de 2.8 pulgadas. Aproximadamente, ¿qué porcentaje de hombres adultos tienen una estatura entre 66.2 y 77.4 pulgadas? Debe mostrar el número y la regla empírica

Las puntuaciones de una prueba de CI tienen una distribución en forma de campana con una media de 100 y una desviación estándar de 19. Utilice la regla empírica para determinar lo siguiente. a.) ¿Qué porcentaje de personas tiene un coeficiente intelectual entre 81 y 119?

Estadísticas

Suponga que las puntuaciones de CI tienen una distribución en forma de campana con una media de 95 95 y una desviación estándar de 18 18. Usando la regla empírica, ¿qué porcentaje de puntajes de CI son al menos 149 149? Por favor, no redondee su respuesta.

Estadísticas

"Supongamos que los puntajes de CI tienen una distribución en forma de campana con una media de 97 y una desviación estándar de 17. Utilizando la regla empírica, ¿qué porcentaje de puntajes de CI son menores que 46?"

Estadísticas

Solución de un problema: he encontrado la media, la varianza y la desviación estándar de la siguiente información: A continuación se muestra la probabilidad de que un quiosco de una compañía de telefonía celular venda X cantidad de contratos de teléfono nuevos por día ---- X = 4, 5,

Estadísticas

Suponga que los puntajes de CI tienen una distribución en forma de campana con una media de 99 y una desviación estándar de 12. Usando la regla empírica, ¿qué porcentaje de puntajes de CI son menores que 87? Por favor, no redondee su respuesta. 87-99 = -12/12 = -1

Estadísticas AP

La distribución de las alturas de los hombres estadounidenses adultos es aproximadamente normal con una media de 69 pulgadas y una desviación estándar de 2,5 pulgadas. Utilice la regla 68-95-99.7 para responder las siguientes preguntas: (d) Una altura de 71.5 pulgadas corresponde a

Álgebra

Usa una calculadora para encontrar la desviación estándar y media de los datos. Redondea a la décima más cercana. 6,7,19,7,18,7 A. media = 9 desviación estándar = 26,4 B. media = 11,9 desviación estándar = 26,4 C. media = 10,6 desviación estándar =

Estadísticas elementales

Las alturas de las mujeres tienen una distribución en forma de campana con una media de 161 cm y una desviación estándar de 7 cm. Usando el teorema de Chebyshev, ¿qué sabemos sobre el porcentaje de mujeres con estatura dentro de 2 desviaciones estándar?

Álgebra

La media en una prueba de álgebra avanzada fue 78 con una desviación estándar de 8. Si las puntuaciones de la prueba tienen una distribución normal, encuentre el intervalo sobre la media que contiene el 99,7% de las puntuaciones. Usa la regla empírica.

Álgebra

La media en una prueba de álgebra avanzada fue 78 con una desviación estándar de 8. Si las puntuaciones de la prueba tienen una distribución normal, encuentre el intervalo sobre la media que contiene el 99,7% de las puntuaciones. Utilice la regla empírica.

Estadísticas

Las alturas de las mujeres tienen una distribución en forma de campana con una media de 158 cm y una desviación estándar de 8 cm. Usando el teorema de Chebyshev, ¿qué sabemos sobre el porcentaje de mujeres con estatura dentro de las 3 desviaciones estándar?


Teorema de Chebyshev

La regla empírica no se aplica a todos los conjuntos de datos, solo a los que tienen forma de campana, e incluso entonces se expresa en términos de aproximaciones. Un resultado que se aplica a todos los conjuntos de datos se conoce como teorema de Chebyshev.

Teorema de Chebyshev

Para cualquier conjunto de datos numéricos,

  1. al menos 3/4 de los datos se encuentran dentro de dos desviaciones estándar de la media, es decir, en el intervalo con puntos finales x - ± 2 s para muestras y con puntos finales μ ± 2 σ para poblaciones
  2. al menos 8/9 de los datos se encuentran dentro de tres desviaciones estándar de la media, es decir, en el intervalo con puntos finales x - ± 3 s para muestras y con puntos finales μ ± 3 σ para poblaciones
  3. al menos 1 - 1 ∕ k 2 de los datos se encuentran dentro k desviaciones estándar de la media, es decir, en el intervalo con puntos finales x - ± k s para muestras y con puntos finales μ ± k σ para poblaciones, donde k es cualquier número entero positivo mayor que 1.

La figura 2.19 "Teorema de Chebyshev" ofrece una ilustración visual del teorema de Chebyshev.

Figura 2.19 Teorema de Chebyshev

Es importante prestar mucha atención a las palabras "al menos" al comienzo de cada una de las tres partes. El teorema da la mínimo proporción de los datos que deben estar dentro de un número dado de desviaciones estándar de la media, las proporciones verdaderas encontradas dentro de las regiones indicadas podrían ser mayores de lo que garantiza el teorema.

Ejemplo 21

Una muestra de tamaño norte = 50 tiene media x - = 28 y desviación estándar s = 3. Sin saber nada más sobre la muestra, ¿qué se puede decir sobre el número de observaciones que se encuentran en el intervalo (22,34)? ¿Qué se puede decir sobre el número de observaciones que se encuentran fuera de ese intervalo?

El intervalo (22,34) es el que se forma sumando y restando dos desviaciones estándar de la media. Según el teorema de Chebyshev, al menos 3/4 de los datos están dentro de este intervalo. Dado que 3/4 de 50 es 37,5, esto significa que hay al menos 37,5 observaciones en el intervalo. Pero no se puede tomar una observación fraccionaria, por lo que concluimos que al menos 38 observaciones deben estar dentro del intervalo (22,34).

Si al menos 3/4 de las observaciones están en el intervalo, entonces como máximo 1/4 de ellas están fuera de él. Dado que 1/4 de 50 es 12,5, como máximo 12,5 observaciones están fuera del intervalo. Dado que nuevamente una fracción de una observación es imposible, x (22,34).

Ejemplo 22

Se observó y registró el número de vehículos que pasaban por una intersección con mucho tráfico entre las 8:00 a.m. y las 10:00 a.m. todas las mañanas de los días laborables del año pasado. El conjunto de datos contiene norte = 251 números. La media muestral es x - = 725 y la desviación estándar muestral es s = 25. Identifique cuál de las siguientes afirmaciones deber ser cierto.

  1. Aproximadamente el 95% de las mañanas entre semana el año pasado, la cantidad de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. estaba entre 675 y 775.
  2. En al menos el 75% de las mañanas entre semana del año pasado, la cantidad de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. estaba entre 675 y 775.
  3. En al menos 189 mañanas entre semana el año pasado, la cantidad de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. estaba entre 675 y 775.
  4. El año pasado, como máximo en el 25% de las mañanas de los días laborables, el número de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. fue menor de 675 o mayor de 775.
  5. El año pasado, como máximo el 12,5% de las mañanas entre semana, la cantidad de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. fue inferior a 675.
  6. El año pasado, como máximo el 25% de las mañanas entre semana, el número de vehículos que pasaban por la intersección de 8:00 a.m. a 10:00 a.m. fue inferior a 675.
  1. Dado que no se establece que el histograma de frecuencia relativa de los datos tenga forma de campana, la regla empírica no se aplica. La declaración (1) se basa en la regla empírica y, por lo tanto, es posible que no sea correcta.
  2. El enunciado (2) es una aplicación directa de la parte (1) del teorema de Chebyshev porque (x - - 2 s, x - + 2 s) = (675,775). Debe ser correcto.
  3. El enunciado (3) dice lo mismo que el enunciado (2) porque el 75% de 251 es 188,25, por lo que el número entero mínimo de observaciones en este intervalo es 189. Por tanto, el enunciado (3) es definitivamente correcto.
  4. El enunciado (4) dice lo mismo que el enunciado (2) pero con diferentes palabras y, por lo tanto, es definitivamente correcto.
  5. La declaración (4), que es definitivamente correcta, establece que como máximo el 25% del tiempo, menos de 675 o más de 775 vehículos pasaron por la intersección. La declaración (5) dice que la mitad de ese 25% corresponde a días de tráfico ligero. Esto sería correcto si se supiera que el histograma de frecuencia relativa de los datos es simétrico. Pero esto no se indica, quizás todas las observaciones fuera del intervalo (675,775) son menores que 75. Por lo tanto, el enunciado (5) podría no ser correcto.
  6. El enunciado (4) es definitivamente correcto y el enunciado (4) implica el enunciado (6): incluso si cada medida que está fuera del intervalo (675,775) es menor que 675 (lo cual es concebible, ya que no se sabe que la simetría se mantenga), aun así como máximo el 25% de todas las observaciones son menos de 675. Por lo tanto, el enunciado (6) debe ser definitivamente correcto.

Conclusiones clave

  • La regla empírica es una aproximación que se aplica solo a conjuntos de datos con un histograma de frecuencia relativa en forma de campana. Estima la proporción de las mediciones que se encuentran dentro de una, dos y tres desviaciones estándar de la media.
  • El teorema de Chebyshev es un hecho que se aplica a todos los conjuntos de datos posibles. Describe la proporción mínima de las medidas que deben estar dentro de una, dos o más desviaciones estándar de la media.

Ejercicios

Básico

Describa las condiciones bajo las cuales se puede aplicar la regla empírica.

Describe las condiciones bajo las cuales se puede aplicar el teorema de Chebyshev.

Un conjunto de datos de muestra con una distribución en forma de campana tiene una media x - = 6 y una desviación estándar s = 2. Encuentre la proporción aproximada de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de población con una distribución en forma de campana tiene una media μ = 6 y desviación estándar σ = 2. Encuentre la proporción aproximada de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de población con una distribución en forma de campana tiene una media μ = 2 y desviación estándar σ = 1,1. Encuentre la proporción aproximada de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de muestra con una distribución en forma de campana tiene una media x - = 2 y una desviación estándar s = 1,1. Encuentre la proporción aproximada de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de población con una distribución y tamaño en forma de campana norte = 500 tiene media μ = 2 y desviación estándar σ = 1,1. Encuentre el número aproximado de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de muestra con una distribución y tamaño en forma de campana norte = 128 tiene media x - = 2 y desviación estándar s = 1,1. Encuentre el número aproximado de observaciones en el conjunto de datos que se encuentran:

Un conjunto de datos de muestra tiene una media x - = 6 y una desviación estándar s = 2. Encuentre la proporción mínima de observaciones en el conjunto de datos que debe estar:

Un conjunto de datos de población tiene una media μ = 2 y desviación estándar σ = 1,1. Encuentre la proporción mínima de observaciones en el conjunto de datos que debe estar:

Un conjunto de datos de población de tamaño norte = 500 tiene media μ = 5,2 y desviación estándar σ = 1,1. Encuentre el número mínimo de observaciones en el conjunto de datos que debe estar:

Un conjunto de datos de muestra de tamaño norte = 128 tiene media x - = 2 y desviación estándar s = 2. Encuentre el número mínimo de observaciones en el conjunto de datos que debe estar:

Un conjunto de datos de muestra de tamaño norte = 30 tiene media x - = 6 y desviación estándar s = 2.

  1. ¿Cuál es la proporción máxima de observaciones en el conjunto de datos que pueden estar fuera del intervalo (2,10)?
  2. ¿Qué se puede decir acerca de la proporción de observaciones en el conjunto de datos que están por debajo de 2?
  3. ¿Qué se puede decir sobre la proporción de observaciones en el conjunto de datos que están por encima de 10?
  4. ¿Qué se puede decir sobre el número de observaciones en el conjunto de datos que están por encima de 10?

Un conjunto de datos de población tiene una media μ = 2 y desviación estándar σ = 1.1.

  1. ¿Cuál es la proporción máxima de observaciones en el conjunto de datos que pueden estar fuera del intervalo (-1, 3,5, 3)?
  2. ¿Qué se puede decir acerca de la proporción de observaciones en el conjunto de datos que están por debajo de -1,3?
  3. ¿Qué se puede decir acerca de la proporción de observaciones en el conjunto de datos que están por encima de 5.3?

Aplicaciones

Los puntajes en un examen final realizado por 1200 estudiantes tienen una distribución en forma de campana con una media de 72 y una desviación estándar de 9.

  1. ¿Cuál es la puntuación media del examen?
  2. ¿Aproximadamente cuántos estudiantes obtuvieron entre 63 y 81?
  3. ¿Aproximadamente cuántos estudiantes obtuvieron entre 72 y 90?
  4. Aproximadamente, ¿cuántos estudiantes obtuvieron calificaciones por debajo de 54?

Las longitudes de los peces capturados por un barco de pesca comercial tienen una distribución en forma de campana con una media de 23 pulgadas y una desviación estándar de 1,5 pulgadas.

  1. Aproximadamente, ¿qué proporción de todos los peces capturados tienen entre 20 y 26 pulgadas de largo?
  2. Aproximadamente, ¿qué proporción de todos los peces capturados tienen entre 20 y 23 pulgadas de largo?
  3. Aproximadamente, ¿cuánto tiempo se captura el pez más largo (solo una pequeña fracción de un porcentaje es más largo)?

Los discos de hockey utilizados en los juegos de hockey profesional deben pesar entre 5,5 y 6 onzas. Si el peso de los discos fabricados mediante un proceso en particular tiene forma de campana, tiene una media de 5,75 onzas y una desviación estándar de 0,125 onzas, ¿qué proporción de los discos se podrán utilizar en juegos profesionales?

Los discos de hockey utilizados en los juegos de hockey profesional deben pesar entre 5,5 y 6 onzas. Si el peso de los discos fabricados mediante un proceso en particular tiene forma de campana y tiene una media de 5,75 onzas, ¿qué tan grande puede ser la desviación estándar si el 99,7% de los discos se pueden utilizar en juegos profesionales?

Las velocidades de los vehículos en una sección de la carretera tienen una distribución en forma de campana con una media de 60 mph y una desviación estándar de 2.5 mph.

  1. Si el límite de velocidad es de 55 mph, ¿aproximadamente qué proporción de vehículos están acelerando?
  2. ¿Cuál es la velocidad media de los vehículos en esta carretera?
  3. ¿Cuál es el rango percentil de la velocidad de 65 mph?
  4. ¿Qué velocidad corresponde al percentil 16?

Suponga que, como en el ejercicio anterior, las velocidades de los vehículos en una sección de la carretera tienen una media de 60 mph y una desviación estándar de 2.5 mph, pero ahora se desconoce la distribución de velocidades.

  1. Si el límite de velocidad es de 55 mph, ¿al menos qué proporción de vehículos deben acelerar?
  2. ¿Qué se puede decir sobre la proporción de vehículos que van a 65 mph o más rápido?

Un instructor anuncia a la clase que las puntuaciones de un examen reciente tenían una distribución en forma de campana con una media de 75 y una desviación estándar de 5.

  1. ¿Cuál es la puntuación media?
  2. Aproximadamente, ¿qué proporción de estudiantes en la clase obtuvieron puntajes entre 70 y 80?
  3. Aproximadamente, ¿qué proporción de estudiantes de la clase obtuvieron calificaciones superiores a 85?
  4. ¿Cuál es el rango percentil de la puntuación 85?

Los GPA de todos los estudiantes actualmente registrados en una gran universidad tienen una distribución en forma de campana con una media de 2,7 y una desviación estándar de 0,6. Los estudiantes con un GPA por debajo de 1.5 se colocan en período de prueba académica. Aproximadamente, ¿qué porcentaje de los estudiantes actualmente registrados en la universidad están en período de prueba académica?

Treinta y seis estudiantes tomaron un examen en el que el promedio fue de 80 y la desviación estándar fue de 6. Un rumor dice que cinco estudiantes obtuvieron puntajes de 61 o menos. ¿Puede ser cierto el rumor? ¿Por qué o por qué no?

Ejercicios adicionales

x 26 27 28 29 30 31 32 f 3 4 16 12 6 2 1

Σ x = 1.256 y Σ x 2 = 35.926.

  1. Calcule la media y la desviación estándar.
  2. Aproximadamente, cuántas de las mediciones predice la regla empírica que estarán en el intervalo (x - - s, x - + s), el intervalo (x - - 2 s, x - + 2 s) y el intervalo (x - - 3 s, x - + 3 s)?
  3. Calcule el número de mediciones que se encuentran realmente en cada uno de los intervalos enumerados en la parte (a) y compárelos con los números predichos.

Una muestra de tamaño norte = 80 tiene una media de 139 y una desviación estándar de 13, pero no se sabe nada más al respecto.


En la última sección, hablamos de una distribución normal, que es una curva simétrica en forma de campana para datos distribuidos normalmente, que se parece a esto:

Creo cursos en línea para ayudarte a mejorar tu clase de matemáticas. Lee mas.

Pasaremos mucho tiempo trabajando con distribuciones como esta, así que hablemos de algunas de las propiedades más importantes de una distribución normal.

La regla empírica

Las distribuciones normales siguen las regla empírica, también llamado el Regla 68-95-99.7. La regla nos dice que, para una distribución normal, hay un

. 68 \%. posibilidad de que un punto de datos se encuentre dentro. 1. desviación estándar de la media

. 95 \%. posibilidad de que un punto de datos se encuentre dentro. 2. desviaciones estándar de la media

. 99,7 \%. posibilidad de que un punto de datos se encuentre dentro. 3. desviaciones estándar de la media

En otras palabras, si queremos mostrar esto gráficamente,

podemos mostrar eso. 68 \%. de los datos se incluirán. 1. desviación estándar de la media, que está dentro. 2. Desviaciones estándar completas de la media que tendremos. 95 \%. de los datos, y eso dentro. 3. Desviaciones estándar completas de la media que tendremos. 97,7 \%. de los datos.

Y podemos sacar todo tipo de conclusiones basándonos en esta información, y en el hecho de que todo el área debajo del gráfico representa. 100 \%. de los datos. Por ejemplo, dado que el área total es. 100 \%. y los datos dentro de tres desviaciones estándar son. 99,7 \%. eso significa que siempre lo haremos. 0,3 \%. de los datos en una distribución normal que se encuentra fuera de tres desviaciones estándar de la media. O si quisiéramos saber qué cantidad de nuestros datos se encontrarán entre una y dos desviaciones estándar de la media, podemos decir que sí. 95 \% - 68 \% = 27 \%.

Percentil

Observamos mucho los percentiles dentro de una distribución normal. El enésimo percentil es el valor tal que el n por ciento de los valores se encuentran por debajo de él. En otras palabras, un valor en el percentil 95 es mayor que. 95 \%. de los datos. El percentil 50 en una distribución normal siempre da la mediana, y el IQR siempre se calcula utilizando el percentil 75 menos el percentil 25.

Puntuaciones Z

UNA . z. -puntaje le dice el número de desviaciones estándar que tiene un punto de la media. Para calcular un. z. -puntaje para datos distribuidos normalmente (distribuciones normales) usamos el

dónde . X. es el punto de datos,. mu. es la media y. sigma. es la desviación estándar.

La . z. -score para un punto de datos es qué tan lejos está de la media, y siempre desea dar el. z. -puntuación en términos de desviaciones estándar. Por lo tanto, para encontrar el. z. -puntaje en un cierto punto de la distribución, usamos la fórmula anterior, tomando el punto de datos, restando la media y luego dividiendo ese resultado por la desviación estándar. Eso nos da un valor para. z.

Buscaremos el. z. -puntaje en a. z. -table, que es una tabla que toma el número de desviaciones estándar y le dice el porcentaje del área bajo la curva hasta ese punto.

Los puntos de datos que sean menores que la media estarán a la izquierda de la media y tendrán un negativo. z. -puntaje. Deben buscarse en la tabla de negativos. z. -puntuaciones:

Los puntos de datos que sean mayores que la media estarán a la derecha de la media y tendrán un positivo. z. -puntaje. Deben buscarse en la tabla de positivos. z. -puntuaciones:

UNA . z. -La puntuación es inusual si está más allá de tres desviaciones estándar de la media. Esencialmente el. z. -score nos dice el rango percentil del punto de datos con el que comenzamos. Si el . z. -La puntuación de nuestro punto de datos es. 0,7123. significa que el punto de datos es mayor que. 71,23 \%. de los datos, lo que significa que nuestro punto de datos está en el. 71,23. percentil.

Recuerda el . z. -table siempre le da el porcentaje de datos que está por debajo de su punto de datos. Por lo tanto, para encontrar el porcentaje de datos por encima de su punto de datos, debe tomar. 1. menos el valor de la tabla.

Umbrales

A veces queremos saber el umbral, o corte, en nuestro conjunto de datos. En otras palabras, es posible que queramos saber "¿Cuál es el valor mínimo necesario para estar en la parte superior". 10 \%. ”De los datos?

Para resolver esto, necesitamos trabajar hacia atrás comenzando desde el. z. -mesa. Por ejemplo, si queremos encontrar la parte superior. 30 \%. de los datos, utilizaríamos el. z. -tabla para encontrar el primero. z. -puntuación que está apenas por encima. 70 \%. o . 0,7000. Luego, veremos los encabezados de fila y columna que se corresponden con un. z. -valor de tabla de. 0,7000. El número decimal dado por los encabezados de fila y columna nos dice cuántas desviaciones estándar por encima de la media debemos estar para estar por encima. 70 \%. o, en la parte superior. 30 \%.

Si multiplicamos ese número decimal por la desviación estándar y luego sumamos el resultado a la media, eso nos dirá el valor que está en la parte inferior de la parte superior. 30 \%. Si en cambio estuviéramos mirando hacia arriba el “fondo. 40 \%. " en el . z. -table, tendríamos que buscar el. z. -valor de tabla que está un poco por debajo. 0,4000.


DEVRY MATH399 Asignación de la semana 1 Introducción a la regla empírica y al teorema de Chebyshev & # 8217s Último julio de 2019

Pregunta en
un carnaval, se les pide a los concursantes que sigan tirando un par de dados hasta que
poner los ojos en blanco. El número de rollos
needed has a mean of 36 rolls, with a standard deviation of 5.4 rolls. La
distribution of the number of rolls needed is not assumed to be symmetric.

Entre
what two numbers of rolls does Chebyshev’s Theorem guarantee that we will find
at least 75% of the contestants?

Round your
answers to the nearest tenth.

QuestionA
random sample of SAT scores has a sample mean of x¯=1060 and sample standard
deviation of s=195. Use the Empirical
Rule to estimate the approximate percentage of SAT scores that are less than
865.

Round your
answer to the nearest whole number (percent).

QuestionToyotas
manufactured in the 1990s have a mean lifetime of 22.6 years, with a standard
deviation of 3.1 years. The distribution of their lifetimes is not assumed to
be symmetric.

Entre
what two lifetimes does Chebyshev’s Theorem guarantee that we will find at
least 95% of the Toyotas?

Round your
answers to the nearest hundredth.

QuestionA
random sample of small business stock prices has a sample mean of x¯=$54.82 and
sample standard deviation of s=$8.95.
Use the Empirical Rule to estimate the percentage of small business
stock prices that are more than $81.67.

Round your
answer to the nearest hundredth.

QuestionPatients
coming to a medical clinic have a mean weight of 207.6 pounds, with a standard
deviation of 22.6 pounds. The distribution of weights is not assumed to be
symmetric.

Entre
what two weights does Chebyshev’s Theorem guarantees that we will find at least
95% of the patients?

Round your
answers to the nearest tenth.

QuestionSuppose
that the distribution of snake lengths in a certain park is not assumed to be
symmetric.

According
to Chebyshev’s Theorem, at least what percentage of snake lengths are within
k=2.9standard deviations of the mean?

Round your
answer to the nearest whole number (percent).

QuestionA
random sample of hybrid vehicle fuel consumptions has a sample mean of x¯=53.2
mpg and sample standard deviation of s=4.8 mpg.
Use the Empirical Rule to estimate the percentage of hybrid vehicle fuel
consumptions that are less than 43.6 mpg.

Round your
answer to the nearest tenth.

QuestionA
random sample of lobster tail lengths has a sample mean of x¯=4.7 inches and
sample standard deviation of s=0.4 inches.
Use the Empirical Rule to determine the approximate percentage of
lobster tail lengths that lie between 4.3 and 5.1 inches.


Unified Sampling Theory

Example 2.7.2

Consider the population U = (1,2,3,4) of 4 units from which an ordered sample s = (1,2,2) is selected. Let the y-values of the units selected in the sample s be y1 = 50 and y2 = 100. In this case, D = <(1,50),(2,100),(2,100)> Ωy = (−∞ < y1 < ∞,−∞ < y2 < ∞,−∞ < y3 < ∞,−∞<y4<∞) = R 4 , d ˜ = < ( 1,50 ) , ( 2,100 ) >, Ω y d = Ω y d ˜ = ( 50, 100, − ∞ < y 3 < ∞ , − ∞ < y 4 < ∞ ) . Here both D and d ˜ are consistent with parameter y = (50,100,500,600) but inconsistent with y = (100,100,500,600). Data (D), a random variable, depends on the selection of the sample and realization of the parametric vector y. Given data D = D, the likelihood function of the parameter y was obtained by Godambe (1966) as

dónde, ID(y) is an indicator variable defined as

The likelihood function (2.7.2) is flat (constant), equal to pag(s) por y ∈ Ωyd, and zero outside Ωyd. Hence no unique maximum likelihood of y exists, and the likelihood function is noninformative.


Contenido

The prediction interval for any standard score z corresponds numerically to (1−(1− Φ μ,σ 2 (z))·2).

For example, Φ(2) ≈ 0.9772 , or Pr(Xμ + 2σ) ≈ 0.9772 , corresponding to a prediction interval of (1 − (1 − 0.97725)·2) = 0.9545 = 95.45%. This is not a symmetrical interval – this is merely the probability that an observation is less than μ + 2σ . To compute the probability that an observation is within two standard deviations of the mean (small differences due to rounding):

Pr ( μ − 2 σ ≤ X ≤ μ + 2 σ ) = Φ ( 2 ) − Φ ( − 2 ) ≈ 0.9772 − ( 1 − 0.9772 ) ≈ 0.9545

The "68–95–99.7 rule" is often used to quickly get a rough probability estimate of something, given its standard deviation, if the population is assumed to be normal. It is also used as a simple test for outliers if the population is assumed normal, and as a normality test if the population is potentially not normal.

To pass from a sample to a number of standard deviations, one first computes the deviation, either the error or residual depending on whether one knows the population mean or only estimates it. The next step is standardizing (dividing by the population standard deviation), if the population parameters are known, or studentizing (dividing by an estimate of the standard deviation), if the parameters are unknown and only estimated.

To use as a test for outliers or a normality test, one computes the size of deviations in terms of standard deviations, and compares this to expected frequency. Given a sample set, one can compute the studentized residuals and compare these to the expected frequency: points that fall more than 3 standard deviations from the norm are likely outliers (unless the sample size is significantly large, by which point one expects a sample this extreme), and if there are many points more than 3 standard deviations from the norm, one likely has reason to question the assumed normality of the distribution. This holds ever more strongly for moves of 4 or more standard deviations.

One can compute more precisely, approximating the number of extreme moves of a given magnitude or greater by a Poisson distribution, but simply, if one has multiple 4 standard deviation moves in a sample of size 1,000, one has strong reason to consider these outliers or question the assumed normality of the distribution.

For example, a 6σ event corresponds to a chance of about two parts per billion. For illustration, if events are taken to occur daily, this would correspond to an event expected every 1.4 million years. This gives a simple normality test: if one witnesses a 6σ in daily data and significantly fewer than 1 million years have passed, then a normal distribution most likely does not provide a good model for the magnitude or frequency of large deviations in this respect.

En The Black Swan, Nassim Nicholas Taleb gives the example of risk models according to which the Black Monday crash would correspond to a 36-σ event: the occurrence of such an event should instantly suggest that the model is flawed, i.e. that the process under consideration is not satisfactorily modeled by a normal distribution. Refined models should then be considered, e.g. by the introduction of stochastic volatility. In such discussions it is important to be aware of the problem of the gambler's fallacy, which states that a single observation of a rare event does not contradict that the event is in fact rare [ cita necesaria ]. It is the observation of a plurality of purportedly rare events that increasingly undermines the hypothesis that they are rare, i.e. the validity of the assumed model. A proper modelling of this process of gradual loss of confidence in a hypothesis would involve the designation of prior probability not just to the hypothesis itself but to all possible alternative hypotheses. For this reason, statistical hypothesis testing works not so much by confirming a hypothesis considered to be likely, but by refuting hypotheses considered unlikely.

Because of the exponential tails of the normal distribution, odds of higher deviations decrease very quickly. From the rules for normally distributed data for a daily event:


Suppose a teacher has collected all the final exam scores for all statistics classes she has ever taught. This dataset is normally distributed with a mean of 81 and a std dev of 3.5.

Using this information, estimate the percentage of students who will get the following scores using the Empirical Rule (also called the 95 – 68 – 34 Rule and the 50 – 34 – 14 Rule):

a) Probability that a score is above 81?

In this example, the mean of the dataset (the average score) is 81. Therefore, 50% of students are expected to score above this value and 50% below. The answer here is 50%

B) Probability that a score is below 81?

In this example, the mean of the dataset (the average score) is 81. Therefore, 50% of students are expected to score above this value and 50% below. The answer here is 50%

C) Probability that a score is between 81 (the mean) and 84.5?

Here, 81 is the mean, so we know that 50% of the class is below this point. Next, the score of 84.5 is a one standard deviation above the mean. ¿Por qué? Because each deviation in this question is “3.5” points. So, a score of 84.5 is 81 + 3.5 or one deviation above the mean.

Using the Empirical Rule, we can see that about 34% of scores are BETWEEN the mean and the first deviation. So there is 34% chance that a student will score between 81 and 84.5.

D) Probability that a score is between 81 (the mean) and 74?

Here, 81 is the mean, so we know that 50% of the class is below this point. Next, the score of 74 is a two standard deviations BELOW the mean. ¿Por qué? Because each deviation in this question is “3.5” points. So, a score of 74 is 81 – 3.5 – 3.5 = 74 or TWO deviations below the mean.

Using the Empirical Rule, we can see that about 34% + 14% of scores are BETWEEN the mean and the second deviation below it. So there is a 34% + 14% = 48% chance that a student will score between 81 and 74.

mi) Probability that a score is between 74 and 88?

Here, 74 is two deviation below the mean and 88 is two deviations above the mean. Using the Empirical Rule, we can see that about 14% + 34% + 34% + 14% of scores are BETWEEN 74 and 88 and to there is a 95% chance that a score will be between 74 and 88.

F) Probability that a score is above 88?

Here, 88 is two deviations above the mean. To score ABOVE 88 there is only a 2.5% chance.

NOTICE: These examples use the Empirical Rule to Estimate the Probability. However, the z value (also called z score) and z table can be used to get the exact probability for any score.


Ver el vídeo: Ejemplo regla empírica (Septiembre 2021).