Artículos

5.E: La distribución chi-cuadrado (ejercicios) - Matemáticas


Estos son ejercicios de tarea para acompañar el mapa de texto creado para "Estadísticas introductorias" por OpenStax.

11.2: Hechos sobre la distribución chi-cuadrado

Decide si las siguientes afirmaciones son verdaderas o falsas.

Q 11.2.1

A medida que aumenta el número de grados de libertad, la gráfica de la distribución de chi-cuadrado parece cada vez más simétrica.

Q 11.2.2

La desviación estándar de la distribución de chi-cuadrado es el doble de la media.

Q 11.2.3

La media y la mediana de la distribución de chi-cuadrado son iguales si (df = 24 ).

11: 3: Prueba de bondad de ajuste

Para cada problema, use una hoja de solución para resolver el problema de prueba de hipótesis. Vaya a [enlace] para ver la hoja de solución de chi-cuadrado. Redondea la frecuencia esperada a dos decimales.

Q 11.3.1

Un dado de seis caras se lanza 120 veces. Complete la columna de frecuencia esperada. Luego, realice una prueba de hipótesis para determinar si el dado es justo. Los datos de la tabla son el resultado de los 120 rollos.

Valor nominalFrecuenciaFrecuencia esperada
115
229
316
415
530
615

La distribución del estado civil de la población masculina de EE. UU., De 15 años o más, se muestra en la Tabla.Q 11.3.2

Estado civilPor cientoFrecuencia esperada
nunca casado31.3
casado56.1
viudo2.5
divorciado / separado10.1

Suponga que una muestra aleatoria de 400 hombres adultos jóvenes de EE. UU., De 18 a 24 años de edad, arroja la siguiente distribución de frecuencias. Estamos interesados ​​en saber si este grupo de edad de hombres se ajusta a la distribución de la población adulta de EE. UU. Calcule la frecuencia que uno esperaría al encuestar a 400 personas. Complete la Tabla, redondeando a dos lugares decimales.

Estado civilFrecuencia
nunca casado140
casado238
viudo2
divorciado / separado20

S 11.3.2

Estado civilPor cientoFrecuencia esperada
nunca casado31.3125.2
casado56.1224.4
viudo2.510
divorciado / separado10.140.4
  1. Los datos se ajustan a la distribución.
  2. Los datos no se ajustan a la distribución.
  3. 3
  4. distribución de chi-cuadrado con (df = 3 )
  5. 19.27
  6. 0.0002
  7. Verifique la solución del alumno.
    1. ( alpha = 0.05 )
    2. Decisión: Rechazar nulo
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: los datos no se ajustan a la distribución.

Utilice la siguiente información para responder los siguientes dos ejercicios: Las columnas de la tabla contienen la raza / origen étnico de las escuelas públicas de EE. UU. Durante un año reciente, los porcentajes de la población de estudiantes examinados de nivel avanzado para esa clase y la población general de estudiantes. Suponga que la columna de la derecha contiene el resultado de una encuesta de 1,000 estudiantes locales de ese año que tomaron un examen AP.

Raza / etniaPoblación de examinados APPoblación estudiantil generalFrecuencia de la encuesta
Asiático, asiático-americano o isleño del Pacífico10.2%5.4%113
Negro o afroamericano8.2%14.5%94
hispano o latino15.5%15.9%136
Indio americano o nativo de Alaska0.6%1.2%10
blanco59.4%61.6%604
No reportado / otro6.1%1.4%43

Q 11.3.3

Realice una prueba de bondad de ajuste para determinar si los resultados locales siguen la distribución de la población estudiantil general de EE. UU. Según el origen étnico.

Q 11.3.4

Realice una prueba de bondad de ajuste para determinar si los resultados locales siguen la distribución de la población de examinados AP de EE. UU., Según el origen étnico.

S 11.3.4

  1. (H_ {0} ): Los resultados locales siguen la distribución de la población de examinados AP de EE. UU.
  2. (H_ {0} ): Los resultados locales no siguen la distribución de la población de examinados AP de EE. UU.
  3. (df = 5 )
  4. distribución de chi-cuadrado con (df = 5 )
  5. estadístico de prueba de chi-cuadrado = 13,4
  6. (p text {-valor} = 0.0199 )
  7. Verifique la solución del alumno.
    1. ( alpha = 0.05 )
    2. Decisión: Rechazar nulo cuando (a = 0.05 )
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: Los datos locales no se ajustan a la distribución de examinados AP.
    5. Decisión: No rechazar nulo cuando (a = 0.01 )
    6. Conclusión: No hay pruebas suficientes para concluir que los datos locales no siguen la distribución de la distribución de examinados AP de EE. UU.

Q 11.3.5

La ciudad de South Lake Tahoe, CA, tiene una población asiática de 1,419 personas, de una población total de 23,609. Suponga que una encuesta de 1419 asiáticos autoinformados en el área de Manhattan, Nueva York, arrojó los datos de la Tabla. Realice una prueba de bondad de ajuste para determinar si los subgrupos autonotificados de asiáticos en el área de Manhattan se ajustan a los del área del lago Tahoe.

RazaFrecuencia de Lake TahoeFrecuencia Manhattan
Asiático indio131174
chino118557
Filipino1,045518
japonés8054
coreano1229
vietnamita921
Otro2466

Utilice la siguiente información para responder los siguientes dos ejercicios: UCLA realizó una encuesta de más de 263,000 estudiantes de primer año de 385 universidades en el otoño de 2005. Los resultados de las especializaciones esperadas de los estudiantes por género se informaron en La crónica de la educación superior (2/2/2006). Suponga que el año pasado se realizó una encuesta de 5.000 mujeres que se gradúan y 5.000 hombres que se gradúan como seguimiento para determinar cuáles eran sus especializaciones reales. Los resultados se muestran en las tablas de Ejercicio y Ejercicio. La segunda columna de cada tabla no suma el 100% debido al redondeo.

Q 11.3.6

Realice una prueba de bondad de ajuste para determinar si las carreras universitarias reales de las mujeres que se gradúan se ajustan a la distribución de sus carreras esperadas.

ImportanteMujeres - Mayor esperadoMujeres - Mayor real
Artes y Humanidades14.0%670
Ciencias Biologicas8.4%410
Negocio13.1%685
Educación13.0%650
Ingeniería2.6%145
Ciencias fisicas2.6%125
Profesional18.9%975
Ciencias Sociales13.0%605
Técnico0.4%15
Otro5.8%300
Indeciso8.0%420

S 11.3.6

  1. (H_ {0} ): Las carreras universitarias reales de las mujeres que se gradúan se ajustan a la distribución de sus carreras esperadas.
  2. (H_ {a} ): Las carreras universitarias reales de las mujeres que se gradúan no se ajustan a la distribución de sus carreras esperadas.
  3. (df = 10 )
  4. distribución de chi-cuadrado con (df = 10 )
  5. ( text {estadística de prueba} = 11,48 )
  6. (p text {-valor} = 0.3211 )
  7. Verifique la solución del alumno.
    1. ( alpha = 0.05 )
    2. Decisión: No rechazar nulo cuando (a = 0.05 ) y (a = 0.01 )
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: No hay evidencia suficiente para concluir que la distribución de las carreras universitarias reales de las mujeres que se gradúan se ajusta a la distribución de sus carreras esperadas.

Q 11.3.7

Realice una prueba de bondad de ajuste para determinar si las carreras universitarias reales de los hombres que se gradúan se ajustan a la distribución de sus carreras esperadas.

ImportanteHombres - Mayor esperadoHombres - Mayor real
Artes y Humanidades11.0%600
Ciencias Biologicas6.7%330
Negocio22.7%1130
Educación5.8%305
Ingeniería15.6%800
Ciencias fisicas3.6%175
Profesional9.3%460
Ciencias Sociales7.6%370
Técnico1.8%90
Otro8.2%400
Indeciso6.6%340

Lea la declaración y decida si es verdadera o falsa.

Q 11.3.8

En una prueba de bondad de ajuste, los valores esperados son los valores que esperaríamos si la hipótesis nula fuera cierta.

Q 11.3.9

En general, si los valores observados y los valores esperados de una prueba de bondad de ajuste no están muy juntos, entonces la estadística de la prueba puede volverse muy grande y en un gráfico estará muy lejos en la cola derecha.

Q 11.3.10

Utilice una prueba de bondad de ajuste para determinar si los directores de las escuelas secundarias creen que los estudiantes están ausentes igualmente durante la semana o no.

Q 11.3.11

La prueba que se debe usar para determinar si un dado de seis lados es justo es una prueba de bondad de ajuste.

Q 11.3.12

En una prueba de bondad de ajuste, si el pag-valor es 0.0113, en general, no rechace la hipótesis nula.

Q 11.3.13

Se encuestó a una muestra de 212 empresas comerciales para reciclar un producto básico; una mercancía aquí significa cualquier tipo de material reciclable como plástico o aluminio. La tabla muestra las categorías de negocios en la encuesta, el tamaño de la muestra de cada categoría y el número de negocios en cada categoría que reciclan un producto básico. Según el estudio, se esperaba que en promedio la mitad de las empresas reciclaran un producto. Como resultado, la última columna muestra el número esperado de negocios en cada categoría que reciclan un producto. Al nivel de significancia del 5%, realice una prueba de hipótesis para determinar si el número observado de empresas que reciclan un producto sigue la distribución uniforme de los valores esperados.

Tipo de negocioNumero en claseNúmero observado que recicla una mercancíaNúmero esperado que recicla un producto
Oficina351917.5
Venta al por mayor al por menor482724
Alimentos / Restaurantes533526.5
Fabricación / Médico522126
Hotel / Mixto24912

Q 11.3.14

La tabla contiene información de una encuesta entre 499 participantes clasificados según sus grupos de edad. La segunda columna muestra el porcentaje de personas obesas por clase de edad entre los participantes del estudio. La última columna proviene de un estudio diferente a nivel nacional que muestra los porcentajes correspondientes de personas obesas en las mismas clases de edad en los EE. UU. Realice una prueba de hipótesis con un nivel de significancia del 5% para determinar si los participantes de la encuesta son una muestra representativa de la población obesa de EE. UU.

Clase de edad (años)Obeso (porcentaje)Promedio esperado de EE. UU. (Porcentaje)
20–3075.032.6
31–4026.532.6
41–5013.636.6
51–6021.936.6
61–7021.039.7

S 11.3.14

  1. (H_ {0} ): la obesidad encuestada se ajusta a la distribución de la obesidad esperada
  2. (H_ {a} ): los obesos encuestados no se ajustan a la distribución de obesidad esperada
  3. (df = 4 )
  4. distribución de chi-cuadrado con (df = 4 )
  5. ( text {estadística de prueba} = 54.01 )
  6. (p text {-valor} = 0 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: En el nivel de significancia del 5%, a partir de los datos, hay evidencia suficiente para concluir que los obesos encuestados no se ajustan a la distribución de obesidad esperada.

11.4: Prueba de independencia

Para cada problema, use una hoja de solución para resolver el problema de prueba de hipótesis. Vaya al Apéndice E para ver la hoja de solución de chi-cuadrado. Redondea la frecuencia esperada a dos decimales.

Q 11.4.1

Un debate reciente sobre en qué parte de los Estados Unidos los esquiadores creen que es mejor esquiar motivó la siguiente encuesta. Pruebe para ver si la mejor zona de esquí es independiente del nivel del esquiador.

Área de esquí de EE. UU.PrincipianteIntermedioAvanzado
Tahoe203040
Utah103060
Colorado104050

Q 11.4.2

Los fabricantes de automóviles están interesados ​​en saber si existe una relación entre el tamaño del automóvil que conduce un individuo y el número de personas en la familia del conductor (es decir, si el tamaño del automóvil y el tamaño de la familia son independientes). Para probar esto, suponga que se encuestó aleatoriamente a 800 propietarios de automóviles con los resultados de la Tabla. Realiza una prueba de independencia.

Tamaño de la familiaSub y compactoTamaño medioTamaño completoFurgoneta y camión
120354035
220507080
3–4205010090
5+20307070

S 11.4.2

  1. (H_ {0} ): el tamaño del automóvil es independiente del tamaño de la familia.
  2. (H_ {a} ): el tamaño del automóvil depende del tamaño de la familia.
  3. (df = 9 )
  4. distribución de chi-cuadrado con (df = 9 )
  5. ( text {estadística de prueba} = 15.8284 )
  6. (p text {-valor} = 0.0706 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, no hay evidencia suficiente para concluir que el tamaño del automóvil y el tamaño de la familia son dependientes.

Q 11.4.3

Los estudiantes universitarios pueden estar interesados ​​en saber si sus especialidades tienen algún efecto sobre los salarios iniciales después de la graduación. Suponga que se encuestó a 300 graduados recientes sobre sus carreras universitarias y sus salarios iniciales después de la graduación. La tabla muestra los datos. Realiza una prueba de independencia.

Importante< $50,000$50,000 – $68,999$69,000 +
inglés5205
Ingeniería103060
Enfermería101515
Negocio102030
Psicología203020

Q 11.4.4

Algunos agentes de viajes afirman que los puntos calientes de la luna de miel varían según la edad de la novia. Supongamos que se entrevistó a 280 novias recientes sobre dónde pasaron sus lunas de miel. La información se da en la Tabla. Realiza una prueba de independencia.

Localización20–2930–3940–4950 y más
Cataratas del Niágara15252520
Poconos15252510
Europa1025155
Islas Virgenes2025155
  1. (H_ {0} ): las ubicaciones de la luna de miel son independientes de la edad de la novia.
  2. (H_ {a} ): las ubicaciones de la luna de miel dependen de la edad de la novia.
  3. (df = 9 )
  4. distribución de chi-cuadrado con (df = 9 )
  5. ( text {estadística de prueba} = 15.7027 )
  6. (p text {-valor} = 0.0734 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, no hay evidencia suficiente para concluir que la ubicación de la luna de miel y la edad de la novia sean dependientes.

Q 11.4.5

Un gerente de un club deportivo mantiene información sobre el deporte principal en el que participan los miembros y sus edades. Para probar si existe una relación entre la edad de un miembro y su elección de deporte, se seleccionan al azar 643 miembros del club deportivo. Realiza una prueba de independencia.

Deporte18 - 2526 - 3031 - 4041 y más
raquetbol42583046
tenis58763865
natación72606533

Q 11.4.6

A un importante fabricante de alimentos le preocupa que las ventas de sus papas fritas delgadas hayan disminuido. Como parte de un estudio de factibilidad, la empresa realiza una investigación sobre los tipos de papas fritas que se venden en todo el país para determinar si el tipo de papas fritas que se venden es independiente de la zona del país. Los resultados del estudio se muestran en la Tabla. Realiza una prueba de independencia.

Tipo de papas fritasNoresteSurCentralOeste
papas fritas flacas70502025
papas fritas rizadas100601530
papas fritas20401010

S 11.4.6

  1. (H_ {0} ): Los tipos de papas fritas que se venden son independientes de la ubicación.
  2. (H_ {a} ): Los tipos de papas fritas que se venden dependen de la ubicación.
  3. (df = 6 )
  4. distribución de chi-cuadrado con (df = 6 )
  5. ( text {estadística de prueba} = 18.8369 )
  6. (p text {-valor} = 0.0044 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, existe evidencia suficiente de que los tipos de papas fritas y la ubicación son dependientes.

Q 11.4.7

Según Dan Lenard, un agente de seguros independiente en el área de Buffalo, Nueva York, el siguiente es un desglose del monto del seguro de vida comprado por los hombres en los siguientes grupos de edad. Le interesa saber si la edad del hombre y el monto del seguro de vida comprado son eventos independientes. Realiza una prueba de independencia.

Edad de los machosNinguno< $200,000$200,000–$400,000$401,001–$1,000,000$1,000,001+
20–2940154005
30–39355202010
40–4920030030
50+4030151510

Q 11.4.8

Supongamos que se encuestó a 600 personas de treinta años para determinar si existe o no una relación entre el nivel de educación de una persona y el salario. Realiza una prueba de independencia.

Salario anualNo soy un graduado de secundariaGraduado de preparatoriaGraduado de la UniversidadMaestría o doctorado
< $30,0001525105
$30,000–$40,00020407030
$40,000–$50,00010204055
$50,000–$60,0005102060
$60,000+0510150

S 11.4.8

  1. (H_ {0} ): El salario es independiente del nivel de educación.
  2. (H_ {a} ): El salario depende del nivel de educación.
  3. (df = 12 )
  4. distribución de chi-cuadrado con (df = 12 )
  5. ( text {estadística de prueba} = 255.7704 )
  6. (p text {-valor} = 0 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, existe evidencia suficiente de que los tipos de papas fritas y la ubicación son dependientes.

Lea la declaración y decida si es verdadera o falsa.

Q 11.4.9

El número de grados de libertad para una prueba de independencia es igual al tamaño de la muestra menos uno.

Q 11.4.10

La prueba de independencia utiliza tablas de valores de datos observados y esperados.

Q 11.4.11

La prueba que se utiliza para determinar si el colegio o universidad a la que el estudiante elige asistir está relacionada con su estatus socioeconómico es una prueba de independencia.

Q 11.4.12

En una prueba de independencia, el número esperado es igual al total de la fila multiplicado por el total de la columna dividido por el total encuestado.

Q 11.4.13

Un fabricante de helados realiza una encuesta a nivel nacional sobre los sabores favoritos de helado en diferentes áreas geográficas de los EE. UU. Según la tabla, ¿sugieren los números que la ubicación geográfica es independiente de los sabores de helado favoritos? Pruebe al nivel de significancia del 5%.

Región / sabor de EE. UU.fresaChocolateVainillaCamino rocosoChispas de chocolate con mentaPistachoTotal de filas
este83127815796
Medio Oeste1032221115696
Oeste1221221915897
Sur1528308156102
Total de la columna45112101466027391

Q 11.4.14

La tabla proporciona una encuesta reciente de los emprendedores en línea más jóvenes cuyo patrimonio neto se estima en un millón de dólares o más. Sus edades oscilan entre los 17 y los 30 años. Cada celda de la tabla ilustra el número de emprendedores que corresponden al grupo de edad específico y su patrimonio neto. ¿Son las edades y el patrimonio neto independientes? Realice una prueba de independencia al nivel de significancia del 5%.

Grupo de edad Valor del patrimonio neto (en millones de dólares estadounidenses)1–56–24≥25Total de filas
17–2587520
26–3065920
Total de la columna14121440

S 11.4.14

  1. (H_ {0} ): la edad es independiente del patrimonio neto de los emprendedores en línea más jóvenes.
  2. (H_ {5} ): la edad depende del patrimonio neto de los emprendedores en línea más jóvenes.
  3. (df = 2 )
  4. distribución de chi-cuadrado con (df = 2 )
  5. ( text {estadística de prueba} = 1.76 )
  6. (p text {-valor} = 0.4144 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, no hay evidencia suficiente para concluir que la edad y el patrimonio neto de los emprendedores en línea más jóvenes sean dependientes.

Q 11.4.15

Una encuesta de 2013 en California encuestó a personas sobre gravar las bebidas endulzadas con azúcar. Los resultados se presentan en la Tabla y están clasificados por grupo étnico y tipo de respuesta. ¿Las respuestas de la encuesta son independientes del grupo étnico de los participantes? Realice una prueba de independencia al nivel de significancia del 5%.

Opinión / EtniaAsiático americanoBlanco / no hispanoAfroamericanoLatinoTotal de filas
Contra impuestos4843341160628
A favor de impuestos5423424147459
Sin opinión1643161984
Total de la columna118710712721171

11.5: Prueba de homogeneidad

Para cada problema verbal, use una hoja de solución para resolver el problema de prueba de hipótesis. Redondea la frecuencia esperada a dos decimales.

Q 11.5.1

Un psicólogo está interesado en probar si existe una diferencia en la distribución de los tipos de personalidad para las carreras de negocios y las carreras de ciencias sociales. Los resultados del estudio se muestran en la Tabla. Realice una prueba de homogeneidad. Prueba a un nivel de significancia del 5%.

AbiertoConcienzudoExtrovertidoAgradableNeurótico
Negocio4152466158
Ciencias Sociales7275638065

S 11.5.1

  1. (H_ {0} ): la distribución de los tipos de personalidad es la misma para ambas carreras
  2. (H_ {a} ): la distribución de los tipos de personalidad no es la misma para ambas carreras
  3. (df = 4 )
  4. chi-cuadrado con (df = 4 )
  5. ( text {estadística de prueba} = 3.01 )
  6. (p text {-valor} = 0.5568 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: No hay evidencia suficiente para concluir que la distribución de los tipos de personalidad es diferente para los estudiantes de ciencias empresariales y sociales.

Q 11.5.2

¿Los hombres y las mujeres seleccionan diferentes desayunos? Los desayunos ordenados por hombres y mujeres seleccionados al azar en un lugar de desayuno popular se muestran en la Tabla. Realice una prueba de homogeneidad con un nivel de significancia del 5%.

Tostada francesaPanquequesGofresTortillas
Hombres47352853
Mujeres65595560

Q 11.5.3

Un pescador está interesado en saber si la distribución del pescado capturado en el lago Green Valley es la misma que la distribución del pescado capturado en el lago Echo. De los 191 peces seleccionados al azar capturados en Green Valley Lake, 105 eran truchas arco iris, 27 eran otras truchas, 35 eran lubinas y 24 eran bagres. De los 293 peces seleccionados al azar capturados en el lago Echo, 115 eran truchas arco iris, 58 eran otras truchas, 67 eran lubinas y 53 eran bagres. Realice una prueba de homogeneidad con un nivel de significancia del 5%.

S 11.5.3

  1. (H_ {0} ): La distribución del pescado capturado es la misma en Green Valley Lake y en Echo Lake.
  2. (H_ {a} ): La distribución de los peces capturados no es la misma en Green Valley Lake y en Echo Lake.
  3. (df = 3 )
  4. chi-cuadrado con (df = 3 )
  5. ( text {estadística de prueba} = 11,75 )
  6. (p text {-valor} = 0.0083 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Existe evidencia para concluir que la distribución del pescado capturado es diferente en Green Valley Lake y en Echo Lake.

Q 11.5.4

En 2007, Estados Unidos tenía 1,5 millones de estudiantes educados en el hogar, según el Centro Nacional de Estadísticas Educativas de EE. UU. En la tabla, puede ver que los padres deciden educar a sus hijos en el hogar por diferentes razones, y los padres clasifican algunas razones como más importantes que otras. Según los resultados de la encuesta que se muestran en la tabla, ¿la distribución de las razones aplicables es la misma que la distribución de la razón más importante? Proporcione su evaluación al nivel de significancia del 5%. ¿Esperabas el resultado que obtuviste?

Razones para la educación en el hogarRazón aplicable (en miles de encuestados)Razón más importante (en miles de encuestados)Total de filas
Preocupación por el medio ambiente de otras escuelas1,3213091,630
Insatisfacción con la instrucción académica en otras escuelas1,0962581,354
Para proporcionar instrucción religiosa o moral.1,2575401,797
El niño tiene necesidades especiales, distintas de las físicas o mentales31555370
Enfoque no tradicional de la educación infantil984991,083
Otras razones (por ejemplo, finanzas, viajes, tiempo en familia, etc.)485216701
Total de la columna5,4581,4776,935

Q 11.5.5

Al observar el consumo de energía, a menudo nos interesa detectar tendencias a lo largo del tiempo y cómo se correlacionan entre los diferentes países. La información de la Tabla muestra el uso de energía promedio (en unidades de kg de equivalente de petróleo per cápita) en los EE. UU. Y los países de la Unión Europea (UE) conjuntos para el período de seis años 2005 a 2010. ¿Los valores de uso de energía en estos dos las áreas provienen de la misma distribución? Realice el análisis al nivel de significancia del 5%.

AñoUnión EuropeaEstados UnidosTotal de filas
20103,4137,16410,557
20093,3027,05710,359
20083,5057,48810,993
20073,5377,75811,295
20063,5957,69711,292
20053,6137,84711,460
Total de la columna45,01120,96565,976

S 11.5.5

  1. (H_ {0} ): La distribución del consumo medio de energía en EE. UU. Es la misma que en Europa entre 2005 y 2010.
  2. (H_ {a} ): La distribución del consumo medio de energía en EE. UU. No es la misma que en Europa entre 2005 y 2010.
  3. (df = 4 )
  4. chi-cuadrado con (df = 4 )
  5. ( text {estadística de prueba} = 2.7434 )
  6. (p text {-valor} = 0.7395 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Al nivel de significancia del 5%, no hay evidencia suficiente para concluir que los valores promedio de uso de energía en los EE. UU. Y la UE no se derivan de distribuciones diferentes para el período de 2005 a 2010.

Q 11.5.6

El Instituto de Seguros para la Seguridad en las Carreteras recopila información de seguridad sobre todos los tipos de automóviles cada año y publica un informe de las Mejores Opciones de Seguridad entre todos los automóviles, marcas y modelos. La tabla presenta el número de Top Safety Picks en seis categorías de autos para los dos años 2009 y 2013. Analice los datos de la tabla para concluir si la distribución de autos que obtuvieron el premio de seguridad Top Safety Picks se mantuvo igual entre 2009 y 2013. Derive su resultados al 5% de nivel de significancia.

Año Tipo de cochePequeñoTamaño medioGrandeSUV pequeñoSUV de tamaño medianoSUV grandeTotal de filas
20091222101027687
201331301911294124
Total de la columna435229215610211

11.6: Comparación de las pruebas de chi-cuadrado

Para cada problema verbal, use una hoja de solución para resolver el problema de prueba de hipótesis. Redondea la frecuencia esperada a dos decimales.

Q 11.6.1

¿Existe alguna diferencia entre la distribución de los estudiantes de estadística de los colegios comunitarios y la distribución de los estudiantes de estadística universitaria en la tecnología que utilizan en sus tareas? De algunos estudiantes de colegios comunitarios seleccionados al azar, 43 usaron una computadora, 102 usaron una calculadora con funciones estadísticas integradas y 65 usaron una tabla del libro de texto. De algunos estudiantes universitarios seleccionados al azar, 28 usaron una computadora, 33 usaron una calculadora con funciones estadísticas integradas y 40 usaron una tabla del libro de texto. Realice una prueba de hipótesis adecuada con un nivel de significancia de 0.05.

S 11.6.1

  1. (H_ {0} ): La distribución para el uso de tecnología es la misma para estudiantes de colegios comunitarios y estudiantes universitarios.
  2. (H_ {a} ): La distribución para el uso de la tecnología no es la misma para los estudiantes de colegios comunitarios y universitarios.
  3. (df = 2 )
  4. chi-cuadrado con (df = 2 )
  5. ( text {estadística de prueba} = 7.05 )
  6. (p text {-valor} = 0.0294 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: Existe evidencia suficiente para concluir que la distribución del uso de la tecnología para la tarea de estadística no es la misma para los estudiantes de estadística en los colegios comunitarios y las universidades.

Lea la declaración y decida si es verdadera o falsa.

Q 11.6.2

Si (df = 2 ), la distribución de chi-cuadrado tiene una forma que nos recuerda a la exponencial.

11.7: Prueba de una sola varianza

Utilice la siguiente información para responder los siguientes doce ejercicios: Suponga que una aerolínea afirma que sus vuelos se realizan constantemente a tiempo con una demora promedio de 15 minutos como máximo. Afirma que la demora promedio es tan constante que la variación no supera los 150 minutos. Un viajero descontento, dudando de la consistencia de la afirmación, calcula las demoras para sus próximos 25 vuelos. La demora promedio para esos 25 vuelos es de 22 minutos con una desviación estándar de 15 minutos.

Q 11.7.1

¿El viajero está disputando la afirmación sobre el promedio o sobre la varianza?

Q 11.7.2

Una desviación estándar de muestra de 15 minutos es lo mismo que una varianza de muestra de __________ minutos.

Q 11.7.3

¿Es esta una prueba de cola derecha, izquierda o de dos colas?

Q 11.7.4

(H_ {0} ): __________

S 11.7.4

(H_ {0}: sigma ^ {2} leq 150 )

Q 11.7.5

(df = ) ________

Q 11.7.6

estadístico de prueba de chi-cuadrado = ________

Q 11.7.7

(p text {-valor} = ) ________

Q 11.7.8

Grafica la situación. Etiquete y escale el eje horizontal. Marque la media y pruebe la estadística. Sombrea el (p text {-valor} ).

S 11.7.8

Verifique la solución del alumno.

Q 11.7.9

Sea ( alpha = 0.05 )

Decisión: ________

Conclusión (escribir en una oración completa): ________

Q 11.7.10

¿Cómo supo probar la varianza en lugar de la media?

S 11.7.10

La afirmación es que la variación no supera los 150 minutos.

Q 11.7.11

Si se hiciera una prueba adicional sobre la afirmación de la demora promedio, ¿qué distribución usaría?

Q 11.7.12

Si se hiciera una prueba adicional sobre la afirmación de la demora promedio, pero se encuestaron 45 vuelos, ¿qué distribución usaría?

S 11.7.12

(t ) - o distribución normal de un estudiante

Para cada problema verbal, use una hoja de solución para resolver el problema de prueba de hipótesis. Redondea la frecuencia esperada a dos decimales.

Q 11.7.13

A un gerente de planta le preocupa que su equipo deba recalibrarse. Parece que el peso real de las 15 oz. las cajas de cereales que llena ha estado fluctuando. La desviación estándar debe ser como máximo de 0,5 oz. Para determinar si la máquina necesita ser recalibrada, se pesaron 84 cajas de cereal seleccionadas al azar de la producción del día siguiente. La desviación estándar de las 84 cajas fue de 0,54. ¿Es necesario recalibrar la máquina?

Q 11.7.14

Los consumidores pueden estar interesados ​​en saber si el costo de una calculadora en particular varía de una tienda a otra. Con base en una encuesta a 43 tiendas, que arrojó una media muestral de $ 84 y una desviación estándar muestral de $ 12, pruebe la afirmación de que la desviación estándar es mayor que $ 15.

S 11.7.14

  1. (H_ {0}: sigma = 15 )
  2. (H_ {a}: sigma> 15 )
  3. (df = 42 )
  4. chi-cuadrado con (df = 42 )
  5. estadística de prueba = 26,88
  6. (p text {-valor} = 0.9663 )
  7. Verifique la solución del alumno.
    1. (alfa = 0,05 )
    2. Decisión: No rechace la hipótesis nula.
    3. Razón de la decisión: (p text {-value}> alpha )
    4. Conclusión: No hay evidencia suficiente para concluir que la desviación estándar sea mayor a 15.

Q 11.7.15

Isabella, una consumada Bay to Breakers corredor, afirma que la desviación estándar de su tiempo para correr la carrera de 7.5 millas es como máximo de tres minutos. Para probar su afirmación, Rupinder busca cinco de sus tiempos de carrera. Son 55 minutos, 61 minutos, 58 minutos, 63 minutos y 57 minutos.

Q 11.7.16

Las compañías aéreas están interesadas en la consistencia del número de bebés en cada vuelo, para que cuenten con el equipo de seguridad adecuado. También les interesa la variación del número de bebés. Suponga que el ejecutivo de una aerolínea cree que el número promedio de bebés en los vuelos es seis con una variación de nueve como máximo. La aerolínea realiza una encuesta. Los resultados de los 18 vuelos encuestados dan un promedio muestral de 6,4 con una desviación estándar muestral de 3,9. Realice una prueba de hipótesis de la creencia del ejecutivo de la aerolínea.

S 11.7.16

  1. (H_ {0}: sigma leq 3 )
  2. (H_ {a}: sigma> 3 )
  3. (df = 17 )
  4. distribución de chi-cuadrado con (df = 17 )
  5. estadística de prueba = 28,73
  6. (p text {-valor} = 0.0371 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: Existe evidencia suficiente para concluir que la desviación estándar es mayor que tres.

Q 11.7.17

El número de nacimientos por mujer en China es 1,6 por debajo de 5,91 en 1966. Esta tasa de fecundidad se ha atribuido a la ley aprobada en 1979 que restringe los nacimientos a uno por mujer. Suponga que un grupo de estudiantes estudió si la desviación estándar de los nacimientos por mujer fue mayor que 0,75. Le preguntaron a 50 mujeres de toda China la cantidad de partos que habían tenido. Los resultados se muestran en la Tabla. ¿Indica la encuesta de los estudiantes que la desviación estándar es mayor que 0,75?

# de nacimientosFrecuencia
05
130
210
35

Q 11.7.18

Según un aficionado ávido, el número promedio de peces en un tanque de 20 galones es 10, con una desviación estándar de dos. Su amigo, también acuarista, no cree que la desviación estándar sea dos. Cuenta el número de peces en otros 15 tanques de 20 galones. Con base en los resultados que siguen, ¿cree que la desviación estándar es diferente de dos? Datos: 11; 10; 9; 10; 10; 11; 11; 10; 12; 9; 7; 9; 11; 10; 11

S 11.7.18

  1. (H_ {0}: sigma = 2 )
  2. (H_ {a}: sigma neq 2 )
  3. (df = 14 )
  4. distribución de chi-cuadrado con (df = 14 )
  5. estadístico de prueba de chi-cuadrado = 5,2094
  6. (p text {-valor} = 0.0346 )
  7. Verifique la solución del alumno.
    1. ( alpha: 0.05 )
    2. Decisión: Rechazar la hipótesis nula.
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: Existe evidencia suficiente para concluir que la desviación estándar es diferente a 2.

Q 11.7.19

Al gerente de "Frenchies" le preocupa que los clientes no reciban constantemente la misma cantidad de papas fritas con cada pedido. El chef afirma que la desviación estándar para un pedido de papas fritas de diez onzas es como máximo de 1.5 oz, pero el gerente cree que puede ser mayor. Pesa al azar 49 pedidos de papas fritas, lo que produce una media de 11 oz. y una desviación estándar de dos oz.

Q 11.7.20

Quieres comprar una computadora específica. Un representante de ventas del fabricante afirma que las tiendas minoristas venden esta computadora a un precio promedio de $ 1249 con una desviación estándar muy estrecha de $ 25. Encuentra un sitio web que tiene una comparación de precios para la misma computadora en una serie de tiendas de la siguiente manera: $ 1,299; $ 1.229,99; $ 1.193,08; $ 1.279; $ 1.224,95; $ 1.229,99; $ 1.269,95; $ 1.249. ¿Puede argumentar que el precio tiene una desviación estándar mayor que la que afirma el fabricante? Utilice el nivel de significancia del 5%. Como comprador potencial, ¿cuál sería la conclusión práctica de su análisis?

S 11.7.20

  1. (H_ {0}: sigma = 25 ^ {2} )
  2. (H_ {a}: sigma> 25 ^ {2} )
  3. (df = n - 1 = 7 )
  4. estadística de prueba: ( chi ^ {2} = chi ^ {2} _ {7} = frac {(n-1) s ^ {2}} {25 ^ {2}} = frac {(8 -1) (34,29) ^ {2}} {25 ^ {2}} = 13,169 )
  5. (p text {-valor}: P ( chi ^ {2} _ {7}> 13.169) = 1- P ( chi ^ {2} _ {7} leq 13.169) = 0.0681 )
    1. ( alpha: 0.05 )
    2. Decisión: no rechazar la hipótesis nula
    3. Razón de la decisión: (p text {-value} < alpha )
    4. Conclusión: Al nivel del 5%, no hay evidencia suficiente para concluir que la varianza es más de 625.

Q 11.7.21

Una empresa envasa manzanas por peso. Uno de los grados de peso son las manzanas de clase A. Las manzanas de la clase A tienen un peso medio de 150 gy hay una tolerancia de peso máxima permitida del 5% por encima o por debajo de la media de las manzanas en el mismo envase para el consumidor. Se selecciona un lote de manzanas para incluirlo en un paquete de manzanas de Clase A. Dados los siguientes pesos de manzana del lote, ¿la fruta cumple con los requisitos de tolerancia de peso de la clase A? Realice una prueba de hipótesis adecuada.

  1. al nivel de significancia del 5%
  2. al 1% de nivel de significancia

Pesos en el lote de manzanas seleccionado (en gramos): 158; 167; 149; 169; 164; 139; 154; 150; 157; 171; 152; 161; 141; 166; 172;

11.8: Laboratorio 1: Bondad de ajuste de chi-cuadrado

11.9: Laboratorio 2: Prueba Chi-Cuadrada de Independencia


Práctica

Si el número de grados de libertad para una distribución de chi-cuadrado es 25, ¿cuál es la media poblacional y la desviación estándar?

Si df & gt 90, la distribución es _____________. Si df = 15, la distribución es ________________.

¿Cuándo se aproxima la curva de chi-cuadrado a una distribución normal?

Dónde está μ ubicado en una curva de chi-cuadrado?

¿Es más probable que df es 90, 20 o dos en la gráfica?

11.2 Prueba de bondad de ajuste

Determine la prueba adecuada que se utilizará en los siguientes tres ejercicios.

Un arqueólogo está calculando la distribución de la frecuencia del número de artefactos que encuentra en un sitio de excavación. Basado en excavaciones anteriores, el arqueólogo crea una distribución esperada desglosada por secciones de cuadrícula en el sitio de excavación. Una vez que el sitio ha sido completamente excavado, compara la cantidad real de artefactos encontrados en cada sección de la cuadrícula para ver si su expectativa era exacta.

Un economista está derivando un modelo para predecir resultados en el mercado de valores. Crea una lista de puntos esperados en el índice bursátil para las próximas dos semanas. Al cierre de la negociación de cada día, registra los puntos reales en el índice. Quiere ver qué tan bien su modelo coincide con lo que realmente sucedió.

Un entrenador personal está preparando un programa de levantamiento de pesas para sus clientes. Para un programa de 90 días, espera que cada cliente levante un peso máximo específico cada semana. A medida que avanza, registra los pesos máximos reales que levantaron sus clientes. Quiere saber qué tan bien se cumplieron sus expectativas con lo observado.

Utilice la siguiente información para responder los siguientes cinco ejercicios: Un maestro predice que la distribución de calificaciones en el examen final será y se registran en la Tabla 11.27.

La distribución real para una clase de 20 se encuentra en la tabla 11.28.

Enuncie las hipótesis nula y alternativa.

χ 2 estadística de prueba = ______

Al nivel de significancia del 5%, ¿qué puede concluir?


Utilice la siguiente información para responder los siguientes nueve ejercicios: Los siguientes datos son reales. El número acumulado de casos de SIDA reportados para el condado de Santa Clara se desglosa por origen étnico como se muestra en la Tabla 11.29.

Etnicidad Numero de casos
blanco 2,229
Hispano 1,157
Negro / afroamericano 457
Asiático, isleño del Pacífico 232
Total = 4.075

El porcentaje de cada grupo étnico en el condado de Santa Clara es el que se muestra en la Tabla 11.30.

Etnicidad Porcentaje de la población total del condado Número esperado (redondeado a dos decimales)
blanco 42.9% 1748.18
Hispano 26.7%
Negro / afroamericano 2.6%
Asiático, isleño del Pacífico 27.8%
Total = 100%

Si las etnias de las víctimas del SIDA siguieron a las etnias de la población total del condado, complete el número esperado de casos por grupo étnico.
Realice una prueba de bondad de ajuste para determinar si la aparición de casos de SIDA sigue las etnias de la población general del condado de Santa Clara.

¿Es esta una prueba de cola derecha, izquierda o de dos colas?

grados de libertad = _______

χ 2 estadística de prueba = _______

Grafica la situación. Etiquete y escale el eje horizontal. Marque la media y pruebe la estadística. Sombra en la región correspondiente a la pag-valor.

Razón de la decisión: ________________

Conclusión (escribir en oraciones completas): ________________

¿Parece que el patrón de casos de SIDA en el condado de Santa Clara corresponde a la distribución de los grupos étnicos en este condado? ¿Por qué o por qué no?

11.3 Prueba de independencia

Determine la prueba adecuada que se utilizará en los siguientes tres ejercicios.

Una empresa farmacéutica está interesada en la relación entre la edad y la presentación de los síntomas de una infección viral común. Se toma una muestra aleatoria de 500 personas con la infección en diferentes grupos de edad.

El propietario de un equipo de béisbol está interesado en la relación entre los salarios de los jugadores y el porcentaje de victorias del equipo. Toma una muestra aleatoria de 100 jugadores de diferentes organizaciones.

Un corredor de maratón está interesado en la relación entre la marca de calzado que usan los corredores y sus tiempos de carrera. Ella toma una muestra aleatoria de 50 corredores y registra sus tiempos de carrera, así como la marca de zapatos que usaban.


Utilice la siguiente información para responder los siguientes siete ejercicios: Transit Railroads está interesado en la relación entre la distancia de viaje y la clase de boleto comprada. Se toma una muestra aleatoria de 200 pasajeros. La tabla 11.31 muestra los resultados. El ferrocarril quiere saber si la elección de un pasajero en la clase de boleto es independiente de la distancia que debe viajar.

Distancia de viaje Tercera clase Segunda clase Primera clase Total
1 a 100 millas 21 14 6 41
101-200 millas 18 16 8 42
201–300 millas 16 17 15 48
301–400 millas 12 14 21 47
401–500 millas 6 6 10 22
Total 73 67 60 200

¿Cuántos pasajeros se espera que viajen entre 201 y 300 millas y compren boletos de segunda clase?

¿Cuántos pasajeros se espera que viajen entre 401 y 500 millas y compren boletos de primera clase?

¿Qué es la estadística de prueba?

¿Qué puede concluir con un nivel de significancia del 5%?


Utilice la siguiente información para responder los siguientes ocho ejercicios: Un artículo en el New England Journal of Medicine, discutió un estudio sobre fumadores en California y Hawai. En una parte del informe, se proporcionó la etnia autoinformada y los niveles de tabaquismo por día. De las personas que fumaban como máximo diez cigarrillos por día, había 9,886 afroamericanos, 2,745 nativos de Hawai, 12,831 latinos, 8,378 japoneses estadounidenses y 7,650 blancos. De las personas que fumaban de 11 a 20 cigarrillos al día, había 6.514 afroamericanos, 3.062 nativos de Hawai, 4.932 latinos, 10.680 japoneses estadounidenses y 9.877 blancos. De las personas que fumaban de 21 a 30 cigarrillos por día, había 1.671 afroamericanos, 1.419 nativos de Hawai, 1.406 latinos, 4.715 japoneses estadounidenses y 6.062 blancos. De las personas que fumaban al menos 31 cigarrillos al día, había 759 afroamericanos, 788 nativos de Hawai, 800 latinos, 2,305 japoneses estadounidenses y 3,970 blancos.


Tabla de contenido

Sección A Número y álgebra

6.Resolver ecuaciones por métodos iterativos

7 álgebra booleana y circuitos lógicos

Sección B Geometría y trigonometría

8 Introducción a la trigonometría

9 Coordenadas cartesianas y polares

10 El círculo y sus propiedades

11 formas de onda trigonométricas

13 Identidades y ecuaciones trigonométricas

14 La relación entre funciones trigonométricas e hiperbólicas

16 funciones y sus curvas

17 Áreas irregulares, volúmenes y valores medios de formas de onda

Sección D Números complejos

Sección E Matrices y determinantes

20 La teoría de matrices y determinantes

21 Aplicaciones de matrices y determinantes

Sección F Geometría vectorial

23 Métodos para agregar formas de onda alternas

24 productos escalares y vectoriales

Sección G Cálculo diferencial

25 métodos de diferenciación

26 Algunas aplicaciones de la diferenciación

27 Diferenciación de ecuaciones paramétricas

28 Diferenciación de funciones implícitas

29 Diferenciación logarítmica

30 Diferenciación de funciones hiperbólicas

31 Diferenciación de funciones trigonométricas e hiperbólicas inversas

32 Diferenciación parcial

33 Diferenciales totales, tasas de cambio y pequeños cambios

34 puntos máximos, mínimos y silla para funciones de dos variables

Sección H Cálculo integral

36 Algunas aplicaciones de integración

38 Integración usando sustituciones algebraicas

39 Integración mediante sustituciones trigonométricas e hiperbólicas

40 Integración usando fracciones parciales

44 integrales dobles y triples

Sección I Ecuaciones diferenciales

46 Introducción a las ecuaciones diferenciales

47 Ecuaciones diferenciales homogéneas de primer orden

48 Ecuaciones diferenciales lineales de primer orden

49 Métodos numéricos para ecuaciones diferenciales de primer orden

50 Ecuaciones diferenciales de primer orden (1)

51 Ecuaciones diferenciales de primer orden (2)

52 métodos de series de potencias para resolver ecuaciones diferenciales ordinarias

53 Introducción a las ecuaciones diferenciales parciales

Sección J transformadas de Laplace

54 Introducción a las transformadas de Laplace

55 Propiedades de las transformadas de Laplace

56 transformadas inversas de Laplace

57 La transformada de Laplace de la función Heaviside

58 La solución de ecuaciones diferenciales usando transformadas de Laplace

59 La solución de ecuaciones diferenciales simultáneas usando transformadas de Laplace


La distribución uniforme

Para cada problema de probabilidad y percentil, haz un dibujo.

Q 5.3.1

Los nacimientos se distribuyen aproximadamente de manera uniforme entre las 52 semanas del año. Se puede decir que siguen una distribución uniforme de uno a 53 (distribución de 52 semanas).

  1. (X sim ) _________
  2. Grafica la distribución de probabilidad.
  3. (f (x) = ) _________
  4. ( mu = ) _________
  5. ( sigma = ) _________
  6. Encuentre la probabilidad de que una persona nazca en el momento exacto en que comienza la semana 19. Es decir, encuentre (P (x = 19) = ) _________
  7. (P (2 & lt x & lt 31) = ) _________
  8. Calcula la probabilidad de que una persona nazca después de la semana 40.
  9. (P (12 & lt x | x & lt 28) = ) _________
  10. Encuentre el percentil 70.
  11. Encuentra el mínimo para el cuarto superior.

Q 5.3.2

Un generador de números aleatorios elige un número del uno al nueve de manera uniforme.

  1. (X sim ) _________
  2. Grafica la distribución de probabilidad.
  3. (f (x) = ) _________
  4. ( mu = ) _________
  5. ( mu = ) _________
  6. (P (3,5 & lt x & lt 7,25) = ) _________
  7. (P (x & gt 5,67) = ) _________
  8. (P (x & gt 5 | x & gt 3) = ) _________
  9. Encuentra el percentil 90.

S 5.3.2

  1. (X sim U (1, 9) )
  2. Verifique la solución de estudiante y rsquos.
  3. (f (x) = 18 ) donde (1 leq x leq 9 )
  4. cinco
  5. 2.3
  6. ( frac <15> <32> )
  7. ( frac <333> <800> )
  8. ( frac <2> <3> )
  9. 8.2

Q 5.3.3

Según un estudio realizado por el Dr. John McDougall sobre su programa de adelgazamiento en el Hospital St. Helena, las personas que siguen su programa pierden entre seis y 15 libras por mes hasta que se acercan a la reducción del peso corporal. Supongamos & rsquos que la pérdida de peso se distribuye uniformemente. Estamos interesados ​​en la pérdida de peso de una persona seleccionada al azar que sigue el programa durante un mes.

  1. Defina la variable aleatoria. (X = ) _________
  2. (X sim ) _________
  3. Grafica la distribución de probabilidad.
  4. (f (x) = ) _________
  5. ( mu = ) _________
  6. ( sigma = ) _________
  7. Encuentre la probabilidad de que la persona haya perdido más de diez libras en un mes.
  8. Suponga que se sabe que el individuo perdió más de diez libras en un mes. Calcula la probabilidad de que haya perdido menos de 12 libras en el mes.
  9. (P (7 & lt x & lt 13 | x & gt 9) = ) __________. Exprese esto en una pregunta de probabilidad, de manera similar a las partes gyh, haga un dibujo y encuentre la probabilidad.

Q 5.3.4

Un tren subterráneo de la Línea Roja llega cada ocho minutos durante las horas pico. Estamos interesados ​​en la cantidad de tiempo que un viajero debe esperar a que llegue un tren. El tiempo sigue una distribución uniforme.

  1. Defina la variable aleatoria. (X = ) _______
  2. (X sim ) _______
  3. Grafica la distribución de probabilidad.
  4. (f (x) = ) _______
  5. ( mu = ) _______
  6. ( sigma = ) _______
  7. Encuentre la probabilidad de que el viajero espere menos de un minuto.
  8. Encuentre la probabilidad de que el viajero espere entre tres y cuatro minutos.
  9. ¿El sesenta por ciento de los viajeros esperan más de lo que tarda el tren? Exprese esto en una pregunta de probabilidad, de manera similar a las partes gyh, haga un dibujo y encuentre la probabilidad.

S 5.3.5

  1. (X ) representa el tiempo que un viajero debe esperar a que llegue un tren a la Línea Roja.
  2. (X sim U (0, 8) )
  3. (f (x) = frac <1> <8> ) donde (leq x leq 8 )
  4. cuatro
  5. 2.31
  6. ( frac <1> <8> )
  7. ( frac <1> <8> )
  8. 3.2

Q 5.3.6

La edad de un estudiante de primer grado el 1 de septiembre en la Escuela Primaria Garden se distribuye uniformemente de 5.8 a 6.8 años. Seleccionamos al azar a un alumno de primer grado de la clase.

  1. Defina la variable aleatoria. (X = ) _________
  2. (X sim ) _________
  3. Grafica la distribución de probabilidad.
  4. (f (x) = ) _________
  5. ( mu = ) _________
  6. ( sigma = ) _________
  7. Calcula la probabilidad de que tenga más de 6.5 años.
  8. Calcula la probabilidad de que tenga entre cuatro y seis años.
  9. Encuentre el percentil 70 para la edad de los estudiantes de primer grado el 1 de septiembre en la Escuela Primaria Garden.

Utilice la siguiente información para responder los siguientes tres ejercicios. Se supone que el Sky Train desde la terminal al alquiler de coches y al centro de estacionamiento de largo plazo llega cada ocho minutos. Se sabe que los tiempos de espera del tren siguen una distribución uniforme.


Ejercicios computacionales

Suponga que se dispara un misil a un objetivo en el origen de un sistema de coordenadas plano, con unidades en metros. El misil aterriza en ((X, Y) ) donde (X ) y (Y ) son independientes y cada uno tiene la distribución normal con media 0 y varianza 100. El misil destruirá el objetivo si aterriza dentro de 20 metros del objetivo. Encuentre la probabilidad de este evento.

Sea (Z ) la distancia desde el misil hasta el objetivo. ( P (Z lt 20) = 1 - e ^ <-2> aproximadamente 0.8647 )

Suponga que (X ) tiene la distribución chi-cuadrado con (n = 18 ) grados de libertad. Para cada uno de los siguientes, calcule el valor verdadero usando la calculadora de distribución especial y luego calcule la aproximación normal. Compare los resultados.


5.E: La distribución chi-cuadrado (ejercicios) - Matemáticas

donde & nu es el parámetro de forma y & Gamma es la función gamma. La fórmula de la función gamma es

En un contexto de prueba, la distribución de chi-cuadrado se trata como una "distribución estandarizada" (es decir, sin parámetros de ubicación o escala). Sin embargo, en un contexto de modelado distributivo (como con otras distribuciones de probabilidad), la distribución chi-cuadrado en sí misma se puede transformar con un parámetro de ubicación, & mu, y un parámetro de escala, &sigma.

La siguiente es la gráfica de la función de densidad de probabilidad chi-cuadrado para 4 valores diferentes del parámetro de forma.

Función de distribución acumulativa La fórmula para la función de distribución acumulativa de la distribución chi-cuadrado es

donde & Gamma es la función gamma definida anteriormente y &gama es la función gamma incompleta. La fórmula para la función gamma incompleta es

La siguiente es la gráfica de la función de distribución acumulativa de chi-cuadrado con los mismos valores de & nu como el pdf traza arriba.

Función de punto porcentual La fórmula para la función de punto porcentual de la distribución de chi-cuadrado no existe en una forma cerrada simple. Se calcula numéricamente.

La siguiente es la gráfica de la función de punto porcentual de chi-cuadrado con los mismos valores de & nu como el pdf traza arriba.


5.E: La distribución chi-cuadrado (ejercicios) - Matemáticas

Supongamos que deseamos determinar si un dado de seis caras de apariencia normal es justo o equilibrado, lo que significa que cada cara tiene una probabilidad de 1/6 de caer en la parte superior cuando se lanza el dado. Podríamos lanzar el dado docenas, tal vez cientos, de veces y comparar el número real de veces que cada cara aterrizó en la parte superior con el número esperado, que sería 1/6 del número total de lanzamientos. No esperaríamos que cada número sea exactamente 1/6 del total, pero debería estar cerca. Para ser específico, suponga que se lanza el dado norte = 60 veces con los resultados resumidos en la Tabla 11.8 "Tabla de contingencia del troquel". Para facilitar la referencia, agregamos una columna de frecuencias esperadas, que en este ejemplo simple es simplemente una columna de decenas. El resultado se muestra en la Tabla 11.9 "Tabla de contingencia de troqueles actualizada". En analogía con la sección anterior, llamamos a esto una tabla "actualizada". Una medida de cuánto se desvían los datos de lo que esperaríamos ver si el dado realmente fuera justo es la suma de los cuadrados de las diferencias entre la frecuencia observada O y la frecuencia esperada mi en cada fila, o estandarizando dividiendo cada cuadrado por el número esperado, la suma Σ (O - E) 2 ∕ E. Si formulamos la investigación como una prueba de hipótesis, la prueba es

H 0: El dado es justo vs. H a: El dado no es justo

Tabla 11.8 Tabla de contingencia de matrices

Die Value Distribución supuesta Frecuencia observada
1 1/6 9
2 1/6 15
3 1/6 9
4 1/6 8
5 1/6 6
6 1/6 13

Tabla 11.9 Tabla de contingencia de matrices actualizada

Die Value Distribución supuesta Frecuencia observada Frec. Esperada
1 1/6 9 10
2 1/6 15 10
3 1/6 9 10
4 1/6 8 10
5 1/6 6 10
6 1/6 13 10

Rechazaríamos la hipótesis nula de que el dado es justo solo si el número Σ (O - E) 2 ∕ E es grande, por lo que la prueba es de cola derecha. En este ejemplo, la variable aleatoria Σ (O - E) 2 ∕ E tiene la distribución chi-cuadrado con cinco grados de libertad. Si hubiéramos decidido desde el principio probar al 10% de nivel de significancia, el valor crítico que define la región de rechazo sería, leyendo de la Figura 12.4 "Valores críticos de distribuciones de chi-cuadrado", χ α 2 = χ 0.10 2 = 9.236 , de modo que la región de rechazo sería el intervalo [9.236, ∞). Cuando calculamos el valor de la estadística de prueba estandarizada usando los números en las dos últimas columnas de la Tabla 11.9 "Tabla de contingencia de troquel actualizada", obtenemos

Σ (O - E) 2 E = (- 1) 2 10 + 5 2 10 + (- 1) 2 10 + (- 2) 2 10 + (- 4) 2 10 + 3 2 10 = 0.1 + 2.5 + 0.1 + 0,4 + 1,6 + 0,9 = 5,6

Desde 5.6 & lt 9.236, la decisión es no rechazar H0. Consulte la Figura 11.5 "Matriz equilibrada". Los datos no proporcionan evidencia suficiente, al nivel de significancia del 10%, para concluir que el dado está cargado.

En la situación general, consideramos una variable aleatoria discreta que puede tomar I valores diferentes, x 1, x 2,…, x I, para los cuales el supuesto predeterminado es que la distribución de probabilidad es

x x 1 x 2… x I P (x) p 1 p 2… p I

Deseamos probar las hipótesis

H 0: La distribución de probabilidad asumida para X es válida vs. H a: La distribución de probabilidad asumida para X no es válida

Tomamos una muestra de tamaño norte y obtenga una lista de frecuencias observadas. Esto se muestra en la Tabla 11.10 "Tabla de contingencia general". Con base en la distribución de probabilidad asumida, también tenemos una lista de frecuencias asumidas, cada una de las cuales se define y calcula mediante la fórmula

Tabla 11.10 Tabla de contingencia general

Niveles de factor Distribución supuesta Frecuencia observada
1 pag1 O1
2 pag2 O2
I pagI OI

La Tabla 11.10 "Tabla de contingencia general" se actualiza a la Tabla 11.11 "Tabla de contingencia general actualizada" agregando la frecuencia esperada para cada valor de X. Para simplificar la notación, eliminamos índices para las frecuencias observadas y esperadas y representamos la Tabla 11.11 "Tabla de contingencia general actualizada" por la Tabla 11.12 "Tabla de contingencia general actualizada simplificada".

Tabla 11.11 Tabla de contingencia general actualizada

Niveles de factor Distribución supuesta Frecuencia observada Frec. Esperada
1 pag1 O1 mi1
2 pag2 O2 mi2
I pagI OI miI

Tabla 11.12 Tabla de contingencia general actualizada simplificada

Niveles de factor Distribución supuesta Frecuencia observada Frec. Esperada
1 pag1 O mi
2 pag2 O mi
I pagI O mi

Aquí está el estadístico de prueba para la hipótesis general basada en la Tabla 11.12 "Tabla de contingencia general actualizada simplificada", junto con las condiciones de que sigue una distribución de chi-cuadrado.

Estadística de prueba para probar la bondad de ajuste a una distribución de probabilidad discreta

donde la suma está sobre todas las filas de la tabla (una por cada valor de X).

  1. la verdadera distribución de probabilidad de X es como se supone, y
  2. el recuento observado O de cada celda en la Tabla 11.12 "Tabla de contingencia general actualizada simplificada" es al menos 5,

entonces χ 2 sigue aproximadamente una distribución de chi-cuadrado con d f = I - 1 grados de libertad.

La prueba se conoce como bondad de ajuste Prueba de χ 2 ya que prueba la hipótesis nula de que la muestra se ajusta bien a la distribución de probabilidad supuesta. Siempre es de cola derecha, ya que la desviación de la distribución de probabilidad supuesta corresponde a valores grandes de χ 2.

La prueba se realiza mediante cualquiera de los procedimientos habituales de cinco pasos.

Ejemplo 2

La Tabla 11.13 "Grupos étnicos en el año del censo" muestra la distribución de varios grupos étnicos en la población de un estado en particular según un censo decenal de EE. UU. Cinco años más tarde se tomó una muestra aleatoria de 2500 residentes del estado, con los resultados dados en la Tabla 11.14 "Muestra de datos cinco años después del año del censo" (junto con la distribución de probabilidad del año del censo). Probar, al 1% de nivel de significancia, si hay suficiente evidencia en la muestra para concluir que la distribución de los grupos étnicos en este estado cinco años después del censo ha cambiado con respecto al año del censo.

Cuadro 11.13 Grupos étnicos en el año del censo

Etnicidad blanco Negro Amerindio Hispano asiático Otros
Proporción 0.743 0.216 0.012 0.012 0.008 0.009

Cuadro 11.14 Datos de muestra cinco años después del año del censo

Etnicidad Distribución supuesta Frecuencia observada
blanco 0.743 1732
Negro 0.216 538
Indio americano 0.012 32
Hispano 0.012 42
asiático 0.008 133
Otros 0.009 23

Probamos utilizando el enfoque de valor crítico.

Paso 1. Las hipótesis de interés en este caso se pueden expresar como

Paso 3. Para calcular el valor de la estadística de prueba, primero debemos calcular el número esperado para cada fila de la Tabla 11.14 "Muestra de datos cinco años después del año del censo". Ya que norte = 2500, usando la fórmula E i = n × p i y los valores de pagI de la Tabla 11.13 "Grupos étnicos en el año del censo" o la Tabla 11.14 "Datos de muestra cinco años después del año del censo",

E 1 = 2500 × 0,743 = 1857,5 E 2 = 2500 × 0,216 = 540 E 3 = 2500 × 0,012 = 30 E 4 = 2500 × 0,012 = 30 E 5 = 2500 × 0,008 = 20 E 6 = 2500 × 0,009 = 22,5

Cuadro 11.15 Frecuencias observadas y esperadas cinco años después del año del censo

Etnicidad Dist. Supuesta Frecuencia observada Frec. Esperada
blanco 0.743 1732 1857.5
Negro 0.216 538 540
Indio americano 0.012 32 30
Hispano 0.012 42 30
asiático 0.008 133 20
Otros 0.009 23 22.5

El valor de la estadística de prueba es

Dado que la variable aleatoria toma seis valores, I = 6. Por tanto, el estadístico de prueba sigue la distribución de chi-cuadrado con d f = 6 - 1 = 5 grados de libertad.

Dado que la prueba es de cola derecha, el valor crítico es χ 0.01 2. Leyendo de la Figura 12.4 "Valores críticos de distribuciones de chi-cuadrado", χ 0.01 2 = 15.086, entonces la región de rechazo es [15.086, ∞).

Conclusión clave

  • Prueba de bondad de ajuste de chi-cuadrado Una prueba basada en un estadístico de chi-cuadrado para verificar si una muestra se toma de una población con una distribución de probabilidad hipotética. se puede utilizar para evaluar la hipótesis de que una muestra se toma de una población con una supuesta distribución de probabilidad específica.

Ejercicios

Básico

Una muestra de datos se clasifica en cinco categorías con una distribución de probabilidad supuesta.

Niveles de factor Distribución supuesta Frecuencia observada
1 p 1 = 0,1 10
2 p 2 = 0,4 35
3 p 3 = 0,4 45
4 p 4 = 0,1 10
  1. Encuentra el tamaño norte de la muestra.
  2. Encuentra el número esperado mi de observaciones para cada nivel, si la población muestreada tiene una distribución de probabilidad como se supone (es decir, utilice la fórmula E i = n × p i).
  3. Encuentre el estadístico de prueba de chi-cuadrado χ 2.
  4. Encuentre el número de grados de libertad del estadístico de prueba de chi-cuadrado.

Una muestra de datos se clasifica en cinco categorías con una distribución de probabilidad supuesta.

Niveles de factor Distribución supuesta Frecuencia observada
1 p 1 = 0,3 23
2 p 2 = 0,3 30
3 p 3 = 0,2 19
4 p 4 = 0,1 8
5 p 5 = 0,1 10
  1. Encuentra el tamaño norte de la muestra.
  2. Encuentra el número esperado mi de observaciones para cada nivel, si la población muestreada tiene una distribución de probabilidad como se supone (es decir, utilice la fórmula E i = n × p i).
  3. Encuentre el estadístico de prueba de chi-cuadrado χ 2.
  4. Encuentre el número de grados de libertad del estadístico de prueba de chi-cuadrado.

Aplicaciones

Los minoristas de sellos postales coleccionables a menudo compran sus sellos en grandes cantidades por peso en las subastas. Los precios que los minoristas están dispuestos a pagar dependen de la antigüedad de los sellos postales. Muchos sellos postales coleccionables en las subastas se describen por las proporciones de los sellos emitidos en varios períodos en el pasado. Generalmente, cuanto más antiguos son los sellos, mayor es el valor. En una subasta en particular, se anuncia que muchos sellos coleccionables tienen la distribución por edades que se indica en la tabla provista. Un comprador minorista tomó una muestra de 73 sellos del lote y los clasificó por edad. Los resultados se dan en la tabla proporcionada. Pruebe, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que la distribución por edades del lote es diferente de lo que afirmó el vendedor.

Año Distribución reclamada Frecuencia observada
Antes de 1940 0.10 6
1940 hasta 1959 0.25 15
1960 hasta 1979 0.45 30
Después de 1979 0.20 22

El tamaño de la camada de los tigres de Bengala suele ser de dos o tres cachorros, pero puede variar entre uno y cuatro. Con base en observaciones a largo plazo, el tamaño de la camada de los tigres de Bengala en la naturaleza tiene la distribución que se indica en la tabla proporcionada. Un zoólogo cree que los tigres de Bengala en cautiverio tienden a tener tamaños de camada diferentes (posiblemente más pequeños) que los que se encuentran en la naturaleza. Para verificar esta creencia, el zoólogo buscó en todas las fuentes de datos y encontró 316 registros de tamaño de camada de tigres de Bengala en cautiverio. Los resultados se dan en la tabla proporcionada. Probar, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que la distribución del tamaño de la camada en cautiverio difiere de la de la naturaleza.

Un minorista de zapatos en línea vende zapatos para hombres en las tallas 8 a 13. En el pasado, los pedidos de las diferentes tallas de zapatos se ajustaban a la distribución que se indica en la tabla proporcionada. La gerencia cree que los esfuerzos de marketing recientes pueden haber expandido su base de clientes y, como resultado, puede haber un cambio en la distribución del tamaño para pedidos futuros. Para comprender mejor sus ventas futuras, el vendedor de zapatos examinó 1.040 registros de ventas de pedidos recientes y anotó las tallas de los zapatos pedidos. Los resultados se dan en la tabla proporcionada. Pruebe, al nivel de significancia del 1%, si hay suficiente evidencia en los datos para concluir que la distribución de tallas de zapatos de las ventas futuras será diferente de la histórica.

Tamaño del zapato Distribución de tamaño pasado Frecuencia de tamaño reciente
8.0 0.03 25
8.5 0.06 43
9.0 0.09 88
9.5 0.19 221
10.0 0.23 272
10.5 0.14 150
11.0 0.10 107
11.5 0.06 51
12.0 0.05 37
12.5 0.03 35
13.0 0.02 11

Un minorista de zapatos en línea vende zapatos de mujer en las tallas 5 a 10. En el pasado, los pedidos de las diferentes tallas de zapatos se ajustaban a la distribución que se indica en la tabla proporcionada. La gerencia cree que los esfuerzos de marketing recientes pueden haber expandido su base de clientes y, como resultado, puede haber un cambio en la distribución del tamaño para pedidos futuros. Para comprender mejor sus ventas futuras, el vendedor de zapatos examinó 1,174 registros de ventas de pedidos recientes y anotó las tallas de los zapatos pedidos. Los resultados se dan en la tabla proporcionada. Pruebe, al nivel de significancia del 1%, si hay suficiente evidencia en los datos para concluir que la distribución de tallas de zapatos de las ventas futuras será diferente de la histórica.

Tamaño del zapato Distribución de tamaño pasado Frecuencia de tamaño reciente
5.0 0.02 20
5.5 0.03 23
6.0 0.07 88
6.5 0.08 90
7.0 0.20 222
7.5 0.20 258
8.0 0.15 177
8.5 0.11 121
9.0 0.08 91
9.5 0.04 53
10.0 0.02 31

Una apertura de ajedrez es una secuencia de movimientos al comienzo de una partida de ajedrez. Hay muchas aperturas con nombres bien estudiados en la literatura del ajedrez. La Defensa Francesa es una de las aperturas más populares para las negras, aunque se considera una apertura relativamente débil ya que le da a las negras una probabilidad de 0.344 de ganar, una probabilidad de 0.405 de perder y una probabilidad de 0.251 de empatar. Un maestro de ajedrez cree que ha descubierto una nueva variación de la Defensa francesa que puede alterar la distribución de probabilidad del resultado del juego. En sus muchas partidas de ajedrez por Internet en los últimos dos años, pudo aplicar la nueva variación en 77 partidas. Las victorias, derrotas y empates en los 77 juegos se dan en la tabla provista. Pruebe, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que la variación recién descubierta de la Defensa francesa altera la distribución de probabilidad del resultado del juego.

Resultado para negro Distribución de probabilidad Nueva variación gana
Victoria 0.344 31
Pérdida 0.405 25
Dibujar 0.251 21

El Departamento de Parques y Vida Silvestre almacena un gran lago con peces cada seis años. Se determina que una diversidad saludable de peces en el lago debe consistir en un 10% de lobina negra, un 15% de lobina negra, un 10% de lobina rayada, un 10% de trucha y un 20% de bagre. Por lo tanto, cada vez que se abastece el lago, la población de peces en el lago se restaura para mantener esa distribución particular. Cada tres años, el departamento realiza un estudio para ver si la distribución de los peces en el lago se ha alejado de las proporciones objetivo. En un año en particular, un grupo de investigación del departamento observó una muestra de 292 peces del lago con los resultados dados en la tabla proporcionada. Pruebe, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que la distribución de la población de peces ha cambiado desde la última siembra.

Pez Distribución objetivo Pescado en muestra
Lobina negra 0.10 14
Lobina de boca chica 0.15 49
Bajo rayado 0.10 21
Trucha 0.10 22
Bagre 0.20 75
Otro 0.35 111

Ejercicio de conjunto de datos grandes

El gran conjunto de datos 4 registra el resultado de 500 lanzamientos de un dado de seis caras. Pruebe, al 10% de nivel de significancia, si hay suficiente evidencia en los datos para concluir que el dado no es "justo" (o "equilibrado"), es decir, que la distribución de probabilidad difiere de la probabilidad 1/6 para cada de las seis caras del dado.


Pruebas de independencia

Las pruebas de hipótesis encontradas anteriormente en el libro tenían que ver con la comparación de los valores numéricos de dos parámetros de población. En esta subsección investigaremos hipótesis que tienen que ver con si dos variables aleatorias toman sus valores de forma independiente o no, o si el valor de una tiene relación con el valor de la otra. Por tanto, las hipótesis se expresarán en palabras, no en símbolos matemáticos. Construimos la discusión alrededor del siguiente ejemplo.

Existe la teoría de que el sexo de un bebé en el útero está relacionado con la frecuencia cardíaca del bebé: las niñas tienden a tener una frecuencia cardíaca más alta. Supongamos que deseamos probar esta teoría. Examinamos los registros de frecuencia cardíaca de 40 bebés tomados durante los últimos controles prenatales de sus madres antes del parto, y para cada uno de estos 40 registros seleccionados al azar calculamos los valores de dos medidas aleatorias: 1) sexo y 2) frecuencia cardíaca. En este contexto, estas dos medidas aleatorias a menudo se denominan factores. Una variable con varios niveles cualitativos. . Dado que la carga de la prueba es que la frecuencia cardíaca y el género están relacionados, no que no estén relacionados, el problema de probar la teoría sobre el género y la frecuencia cardíaca del bebé puede formularse como una prueba de las siguientes hipótesis:

H 0: El sexo del bebé y la frecuencia cardíaca del bebé son independientes vs. H a: El sexo del bebé y la frecuencia cardíaca del bebé no son independientes

El factor género tiene dos categorías o niveles naturales: niño y niña. Dividimos el segundo factor, la frecuencia cardíaca, en dos niveles, bajo y alto, eligiendo una frecuencia cardíaca, digamos 145 latidos por minuto, como el límite entre ellos. Una frecuencia cardíaca por debajo de 145 latidos por minuto se considerará baja y 145 y superior se considerará alta. Los 40 récords dan lugar a un 2 × 2 mesa de contingencia. Al unir los totales de las filas, los totales de las columnas y un total general, obtenemos la tabla que se muestra como Tabla 11.1 "Sexo y frecuencia cardíaca del bebé". Las cuatro entradas en negrita son recuentos de observaciones de la muestra de norte = 40. Había 11 niñas con frecuencia cardíaca baja, 17 niños con frecuencia cardíaca baja, etc. Ellos forman el centro de la mesa expandida.

Tabla 11.1 Sexo y frecuencia cardíaca del bebé

Ritmo cardiaco
Bajo Elevado Total de filas
Género Niña 11 7 18
Chico 17 5 22
Total de la columna 28 12 Total = 40

En analogía con el hecho de que la probabilidad de eventos independientes es el producto de las probabilidades de cada evento, si la frecuencia cardíaca y el género fueran independientes, entonces esperaríamos que el número en cada celda central estuviera cerca del producto del total de la fila. R y el total de la columna C de la fila y columna que lo contienen, dividido por el tamaño de la muestra norte. Denotando un número tan esperado de observaciones mi, estos cuatro valores esperados son:

  • Primera fila y primera columna: E = (R × C) ∕ n = 18 × 28 ∕ 40 = 12,6
  • Primera fila y segunda columna: E = (R × C) ∕ n = 18 × 12 ∕ 40 = 5.4
  • 2da fila y 1ra columna: E = (R × C) ∕ n = 22 × 28 ∕ 40 = 15,4
  • Segunda fila y segunda columna: E = (R × C) ∕ n = 22 × 12 ∕ 40 = 6.6

Actualizamos la Tabla 11.1 "Sexo del bebé y frecuencia cardíaca" colocando cada valor esperado en su celda central correspondiente, justo debajo del valor observado en la celda. Esto proporciona la tabla actualizada Tabla 11.2 "Sexo y frecuencia cardíaca del bebé actualizados".

Tabla 11.2 Frecuencia cardíaca y sexo del bebé actualizados

Ritmo cardiaco
Bajo Elevado Total de filas
Género Niña O = 11 E = 12,6 O = 7 E = 5.4 R = 18
Chico O = 17 E = 15,4 O = 5 E = 6.6 R = 22
Total de la columna C = 28 C = 12 norte = 40

Una medida de cuánto se desvían los datos de lo que esperaríamos ver si los factores fueran realmente independientes es la suma de los cuadrados de la diferencia de los números en cada celda central, o estandarizar dividiendo cada cuadrado por el número esperado en la celda, la suma Σ (O - E) 2 ∕ E. Rechazaríamos la hipótesis nula de que los factores son independientes solo si este número es grande, por lo que la prueba es de cola derecha. En este ejemplo, la variable aleatoria Σ (O - E) 2 ∕ E tiene la distribución chi-cuadrado con un grado de libertad. Si hubiéramos decidido desde el principio probar al nivel de significancia del 10%, el valor crítico que define la región de rechazo sería, leyendo de la Figura 12.4 "Valores críticos de distribuciones de chi-cuadrado", χ α 2 = χ 0.10 2 = 2.706 , de modo que la región de rechazo sería el intervalo [2.706, ∞). Cuando calculamos el valor del estadístico de prueba estandarizado obtenemos

Σ (O - E) 2 E = (11 - 12,6) 2 12,6 + (7 - 5,4) 2 5,4 + (17 - 15,4) 2 15,4 + (5 - 6,6) 2 6,6 = 1,231

Desde 1.231 & lt 2.706, la decisión es no rechazar H0. Consulte la Figura 11.3 "Predicción del género del bebé". Los datos no proporcionan evidencia suficiente, al nivel de significancia del 10%, para concluir que la frecuencia cardíaca y el sexo estén relacionados.

Figura 11.3 Predicción del género del bebé

Con este ejemplo específico en mente, pasemos ahora a la situación general. En el contexto general de probar la independencia de dos factores, llámelos Factor 1 y Factor 2, las hipótesis a probar son

H 0: Los dos factores son independientes vs. H a: Los dos factores no son independientes

Como en el ejemplo, cada factor se divide en varias categorías o niveles. Estos podrían surgir de forma natural, como en la división de género de niño-niña, o de forma algo arbitraria, como en la división de frecuencia cardíaca alta-baja. Suponga que el Factor 1 tiene I niveles y el Factor 2 tiene J niveles. Entonces, la información de una muestra aleatoria da lugar a una I × J tabla de contingencia, que con los totales de las filas, los totales de las columnas y un gran total aparecería como se muestra en la Tabla 11.3 "Tabla de contingencias generales". Cada celda puede estar etiquetada por un par de índices (i, j). O i j representa el recuento observado de observaciones en la celda de la fila I y columna j, RI para el total de la i t h fila y Cj para el total de la columna j t h. Para simplificar la notación, eliminaremos los índices de modo que la tabla 11.3 "Tabla de contingencia general" se convierta en la tabla 11.4 "Tabla de contingencia general simplificada". No obstante, es importante tener en cuenta que el Os, el Rsy el Cs, aunque denotados por los mismos símbolos, son de hecho números diferentes.

Tabla 11.3 Tabla de contingencia general

Niveles del factor 2
1 · · · j · · · J Total de filas
Niveles del factor 1 1 O11 · · · O 1 j · · · O 1 J R1
I O yo 1 · · · O yo j · · · O i J RI
I O yo 1 · · · O yo j · · · O I J RI
Total de la columna C1 · · · Cj · · · CJ norte

Tabla 11.4 Tabla de contingencia general simplificada

Niveles del factor 2
1 · · · j · · · J Total de filas
Niveles del factor 1 1 O · · · O · · · O R
I O · · · O · · · O R
I O · · · O · · · O R
Total de la columna C · · · C · · · C norte

Como en el ejemplo, para cada celda central de la tabla calculamos cuál sería el número esperado mi de observaciones si los dos factores fueran independientes. mi se calcula para cada celda central (cada celda con un O en él) de la Tabla 11.4 "Tabla de contingencia general simplificada" por la regla aplicada en el ejemplo:

donde R es el total de la fila y C es el total de la columna correspondiente a la celda, y norte es el tamaño de la muestra.

Después de calcular el número esperado para cada celda, la Tabla 11.4 "Tabla de contingencia general simplificada" se actualiza para formar la Tabla 11.5 "Tabla de contingencia general actualizada" insertando el valor calculado de mi en cada celda del núcleo.

Tabla 11.5 Tabla de contingencia general actualizada

Niveles del factor 2
1 · · · j · · · J Total de filas
Niveles del factor 1 1 O E · · · O E · · · O E R
I O E · · · O E · · · O E R
I O E · · · O E · · · O E R
Total de la columna C · · · C · · · C norte

Aquí está el estadístico de prueba para la hipótesis general basada en la Tabla 11.5 "Tabla de contingencia general actualizada", junto con las condiciones de que sigue una distribución de chi-cuadrado.

Estadística de prueba para probar la independencia de dos factores

donde la suma está sobre todas las celdas centrales de la tabla.

  1. los dos factores de estudio son independientes, y
  2. el recuento observado O de cada celda en la Tabla 11.5 "Tabla de contingencia general actualizada" es al menos 5,

entonces χ 2 sigue aproximadamente una distribución de chi-cuadrado con d f = (I - 1) × (J - 1) grados de libertad.

Los mismos procedimientos de cinco pasos, ya sea el enfoque de valor crítico o el pagEl enfoque de valor, que se introdujo en la Sección 8.1 "Los elementos de la prueba de hipótesis" y la Sección 8.3 "La importancia observada de una prueba" del Capítulo 8 "Prueba de hipótesis" se utilizan para realizar la prueba, que siempre es de cola derecha.

Ejemplo 1

Un investigador desea investigar si los puntajes de los estudiantes en un examen de ingreso a la universidad (CEE) tienen algún poder indicativo para el rendimiento universitario futuro medido por el GPA. En otras palabras, desea investigar si los factores CEE y GPA son independientes o no. Él selecciona al azar norte = 100 estudiantes en una universidad y toma nota del puntaje de cada estudiante en el examen de ingreso y su promedio de calificaciones al final del segundo año. Divide las calificaciones de los exámenes de ingreso en dos niveles y los promedios de calificaciones en tres niveles. Ordenando los datos de acuerdo con estas divisiones, forma la tabla de contingencia que se muestra como Tabla 11.6 "Tabla de contingencia de ECE versus GPA", en la que ya se han calculado los totales de filas y columnas.

Tabla 11.6 Tabla de contingencia de ECE versus GPA

GPA
& lt2.7 2.7 hasta 3.2 & gt3.2 Total de filas
CEE & lt 1800 35 12 5 52
≥ 1800 6 24 18 48
Total de la columna 41 36 23 Total = 100

Probar, al 1% de nivel de significancia, si estos datos brindan evidencia suficiente para concluir que los puntajes de la CEE indican los niveles de desempeño futuro de los estudiantes universitarios de primer año que ingresan, medidos por GPA.

Realizamos la prueba utilizando el enfoque de valor crítico, siguiendo el método habitual de cinco pasos descrito al final de la Sección 8.1 "Los elementos de la prueba de hipótesis" en el Capítulo 8 "Prueba de hipótesis".

Paso 1. Las hipótesis son

Paso 3. Para calcular el valor de la estadística de prueba, primero debemos calcular el número esperado para cada una de las seis celdas centrales (aquellas cuyas entradas están en negrita):

  • Primera fila y primera columna: E = (R × C) ∕ n = 41 × 52 ∕ 100 = 21,32
  • Primera fila y segunda columna: E = (R × C) ∕ n = 36 × 52 ∕ 100 = 18,72
  • Primera fila y tercera columna: E = (R × C) ∕ n = 23 × 52 ∕ 100 = 11,96
  • 2da fila y 1ra columna: E = (R × C) ∕ n = 41 × 48 ∕ 100 = 19,68
  • Segunda fila y segunda columna: E = (R × C) ∕ n = 36 × 48 ∕ 100 = 17.28
  • Segunda fila y tercera columna: E = (R × C) ∕ n = 23 × 48 ∕ 100 = 11.04

Tabla 11.7 Tabla de contingencia actualizada de ECE versus GPA

GPA
& lt2.7 2.7 hasta 3.2 & gt3.2 Total de filas
CEE & lt 1800 O = 35 E = 21,32 O = 12 E = 18,72 O = 5 E = 11,96 R = 52
≥ 1800 O = 6 E = 19,68 O = 24 E = 17.28 O = 18 E = 11.04 R = 48
Total de la columna C = 41 C = 36 C = 23 norte = 100

Paso 4. Dado que el factor CEE tiene dos niveles y el factor GPA tiene tres, I = 2 y J = 3. Por lo tanto, el estadístico de prueba sigue la distribución de chi-cuadrado con d f = (2 - 1) × (3 - 1) = 2 grados de libertad.

Dado que la prueba es de cola derecha, el valor crítico es χ 0.01 2. Leyendo de la Figura 12.4 "Valores críticos de distribuciones de chi-cuadrado", χ 0.01 2 = 9.210, entonces la región de rechazo es [9.210, ∞).

Conclusiones clave

  • Los valores críticos de una distribución de chi-cuadrado con grados de libertad d f se encuentran en la Figura 12.4 "Valores críticos de distribuciones de chi-cuadrado".
  • Una prueba de chi-cuadrado Una prueba basada en una estadística de chi-cuadrado para verificar si dos factores son independientes.se puede utilizar para evaluar la hipótesis de que dos factores o variables aleatorias son independientes.

Ejercicios

Básico

Encuentre χ 0.01 2 para cada uno de los siguientes grados de libertad.

Encuentre χ 0.05 2 para cada uno de los siguientes grados de libertad.

Encuentre χ 0.10 2 para cada uno de los siguientes grados de libertad.

Encuentre χ 0.01 2 para cada uno de los siguientes grados de libertad.

Para d f = 7 y α = 0.05, encuentre

Para d f = 17 y α = 0.01, encuentre

Una muestra de datos se clasifica en una tabla de contingencia de 2 × 2 en función de dos factores, cada uno de los cuales tiene dos niveles.

  1. Encuentre los totales de la columna, los totales de las filas y el total general, norte, de la mesa.
  2. Encuentra el número esperado mi de observaciones para cada celda basado en el supuesto de que los dos factores son independientes (es decir, simplemente use la fórmula E = (R × C) ∕ n).
  3. Encuentre el valor del estadístico de prueba de chi-cuadrado χ 2.
  4. Encuentre el número de grados de libertad del estadístico de prueba de chi-cuadrado.

Una muestra de datos se clasifica en una tabla de contingencia de 3 × 2 basada en dos factores, uno de los cuales tiene tres niveles y el otro tiene dos niveles.

Factor 1
Nivel 1 Nivel 2 Total de filas
Factor 2 Nivel 1 20 10 R
Nivel 2 15 5 R
Nivel 3 10 20 R
Total de la columna C C norte
  1. Encuentre los totales de la columna, los totales de las filas y el total general, norte, de la mesa.
  2. Encuentra el número esperado mi de observaciones para cada celda basado en el supuesto de que los dos factores son independientes (es decir, simplemente use la fórmula E = (R × C) ∕ n).
  3. Encuentre el valor del estadístico de prueba de chi-cuadrado χ 2.
  4. Encuentre el número de grados de libertad del estadístico de prueba de chi-cuadrado.

Aplicaciones

Un psicólogo infantil cree que los niños obtienen mejores resultados en las pruebas cuando se les da una percepción de libertad de elección. Para probar esta creencia, el psicólogo llevó a cabo un experimento en el que 200 alumnos de tercer grado fueron asignados aleatoriamente a dos grupos, A y B. A cada niño se le dio la misma prueba de lógica simple. Sin embargo en grupo B, a cada niño se le dio la libertad de elegir un folleto de texto entre muchos con varios dibujos en las portadas. El desempeño de cada niño se calificó como Muy bueno, Bueno y Regular. Los resultados se resumen en la tabla proporcionada. Pruebe, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para apoyar la creencia del psicólogo.

Con respecto a los concursos de cata de vinos, muchos expertos afirman que la primera copa de vino servida establece un sabor de referencia y que un vino de referencia diferente puede alterar la clasificación relativa de los otros vinos en competencia. Para probar esta afirmación, tres vinos, A, B y C, se sirvieron en un evento de cata de vinos. A cada persona se le sirvió una sola copa de cada vino, pero en diferentes órdenes para diferentes invitados. Al final, se pidió a cada persona que nombrara al mejor de los tres. Ciento setenta y dos personas asistieron al evento y sus mejores selecciones se dan en la tabla provista. Pruebe, con un nivel de significancia del 1%, si hay pruebas suficientes en los datos para respaldar la afirmación de que la preferencia de los expertos en vinos depende del primer vino servido.

¿Ser zurdo es hereditario? Para responder a esta pregunta, se seleccionan al azar 250 adultos y se anotan sus manos y las de sus padres. Los resultados se resumen en la tabla proporcionada. Pruebe, al 1% de nivel de significancia, si hay suficiente evidencia en los datos para concluir que existe un elemento hereditario en la mano.

Algunos genetistas afirman que los genes que determinan la zurda también gobiernan el desarrollo de los centros del lenguaje del cerebro. Si esta afirmación es cierta, sería razonable esperar que las personas zurdas tiendan a tener habilidades lingüísticas más sólidas. Un estudio diseñado para redactar esta afirmación seleccionó al azar a 807 estudiantes que tomaron el Graduate Record Examination (GRE). Sus puntajes en la parte de lenguaje del examen se clasificaron en tres categorías: bajo, promedio, y elevado, y también se notó su destreza. Los resultados se dan en la tabla proporcionada. Pruebe, con un nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que las personas zurdas tienden a tener mayores habilidades lingüísticas.

En general, se cree que los niños criados en familias estables tienden a tener un buen desempeño en la escuela. Para verificar tal creencia, un científico social examinó 290 registros de estudiantes seleccionados al azar en una escuela secundaria pública y anotó la estructura familiar y el estado académico de cada estudiante cuatro años después de ingresar a la escuela secundaria. Luego, los datos se clasificaron en una tabla de contingencia de 2 × 3 con dos factores. El factor 1 tiene dos niveles: graduado y no se graduó. El factor 2 tiene tres niveles: sin padre, uno de los padres, y dos padres. Los resultados se dan en la tabla proporcionada. Pruebe, al 1% de nivel de significancia, si hay suficiente evidencia en los datos para concluir que la estructura familiar es importante en el desempeño escolar de los estudiantes.

Estado académico
Graduado No se graduó
Familia Sin padre 18 31
Uno de los padres 101 44
Dos padres 70 26

Un administrador importante de una escuela intermedia desea utilizar la influencia de las celebridades para alentar a los estudiantes a tomar decisiones más saludables en la cafetería de la escuela. La cafetería está situada en el centro de un espacio abierto. Todos los días, a la hora del almuerzo, los estudiantes obtienen su almuerzo y una bebida en tres líneas separadas que conducen a tres estaciones de servicio separadas. Como experimento, el administrador de la escuela mostró un póster de una popular estrella del pop adolescente bebiendo leche en cada una de las tres áreas donde se ofrecen bebidas, excepto que la leche en el póster es diferente en cada lugar: uno muestra leche blanca, otro muestra fresa. leche rosa con sabor, y una muestra leche con chocolate. Después del primer día del experimento, el administrador anotó las opciones de leche de los estudiantes por separado para las tres líneas. Los datos se dan en la tabla proporcionada. Pruebe, al 1% de nivel de significancia, si hay suficiente evidencia en los datos para concluir que los carteles tuvieron algún impacto en las elecciones de bebidas de los estudiantes.

Elección del estudiante
Regular fresa Chocolate
Elección de póster
Regular 38 28 40
fresa 18 51 24
Chocolate 32 32 53

Ejercicio de conjunto de datos grandes

Large Data Set 8 registra el resultado de una encuesta de 300 adultos seleccionados al azar que van al cine con regularidad. Para cada persona se registró el género y el tipo de película preferido. Pruebe, al nivel de significancia del 5%, si hay suficiente evidencia en los datos para concluir que los factores “género” y “tipo preferido de película” son dependientes.


Ejercicios básicos de distribución logarítmica normal

Esta publicación presenta ejercicios sobre la distribución logarítmica normal. Estos ejercicios sirven para reforzar las propiedades básicas que se comentan en esta publicación de blog complementaria.

Ejercicio 1
Sea una variable aleatoria normal con una media de 6,5 y una desviación estándar de 0,8. Considere la variable aleatoria. cual es la probabilidad?

Ejercicio 2
Supongamos que sigue una distribución logarítmica normal con parámetros y. Dejar . Determine lo siguiente:

  • La probabilidad de que supere 1.
  • El percentil 40 de.
  • El percentil 80 de.

Ejercicio 3
Vamos a seguir una distribución logarítmica normal con parámetros y. Calcule la media, el segundo momento, la varianza, el tercer momento y el cuarto momento.

Ejercicio 4
Sea la misma distribución logarítmica normal que en el ejercicio 3. Utilice los resultados del ejercicio 3 para calcular el coeficiente de variación, el coeficiente de asimetría y la curtosis.

Ejercicio 5
Dados los siguientes hechos sobre una distribución logarítmica normal:

  • El cuartil inferior (es decir, percentil del 25%) es 1000.
  • El cuartil superior (es decir, percentil del 75%) es 4000.

Determine la media y la varianza de la distribución logarítmica normal dada.

Ejercicio 6
Suponga que una variable aleatoria sigue una distribución logarítmica normal con una media de 149,157 y una varianza de 223,5945. Determina la probabilidad.

Ejercicio 7
Suponga que una variable aleatoria sigue una distribución logarítmica normal con una media de 1200 y una mediana de 1000. Determine la probabilidad.

Ejercicio 8
Los clientes de un restaurante muy popular suelen tener que hacer cola para conseguir una mesa. Suponga que el tiempo de espera (en minutos) de una tabla sigue una distribución logarítmica normal con parámetros y. Preocupado por el largo tiempo de espera, el dueño del restaurante mejora el tiempo de espera al expandir las instalaciones y contratar más personal. Como resultado, el tiempo de espera para una mesa se reduce a la mitad. Después de la expansión del restaurante,


Ver el vídeo: Distribución chi-cuadrado (Octubre 2021).