Artículos

8.2.5: Uso de histogramas para responder preguntas estadísticas


Lección

Dibujemos histogramas y usémoslos para responder preguntas.

Ejercicio ( PageIndex {1} ): ¿Cuál no pertenece? Preguntas

Aquí hay cuatro preguntas sobre la población de Alaska. ¿Qué pregunta no pertenece? Esté preparado para explicar su razonamiento.

  1. En general, ¿a qué edad se jubilan los residentes de Alaska?
  2. ¿A qué edad pueden votar los habitantes de Alaska?
  3. ¿Cuál es la diferencia de edad entre los residentes de Alaska más jóvenes y los más viejos con un trabajo de tiempo completo?
  4. ¿Qué grupo de edad es la mayor parte de la población: 18 años o menos, 19 a 25 años, 25 a 34 años, 35 a 44 años, 45 a 54 años, 55 a 64 años o 65 años o más?

Ejercicio ( PageIndex {2} ): Midiendo lombrices de tierra

Un granjero de lombrices de tierra instaló varios contenedores de una determinada especie de lombrices de tierra para poder conocer sus longitudes. Las longitudes de las lombrices de tierra proporcionan información sobre sus edades. El agricultor midió la longitud de 25 lombrices de tierra en uno de los contenedores. Cada longitud se midió en milímetros.

  1. Con una regla, dibuje un segmento de línea para cada longitud:
    • 20 milímetros
    • 40 milímetros
    • 60 milímetros
    • 80 milímetros
    • 100 milímetros
  2. Aquí están las longitudes, en milímetros, de las 25 lombrices de tierra.

(6 quad 11 quad 18 quad 19 quad 20 quad 23 quad 23 quad 25 quad 25 quad 26 quad 27 quad 27 quad 28 quad 29 quad 32 quad 33 quad 41 quad 42 quad 48 quad 52 quad 54 quad 59 quad 60 quad 77 quad 93 )

Complete la tabla para las longitudes de las 25 lombrices de tierra.

largofrecuencia
(0 ) milímetros a menos de (20 ) milímetros
(20 ) milímetros a menos de (40 ) milímetros
(40 ) milímetros a menos de (60 ) milímetros
(60 ) milímetros a menos de (80 ) milímetros
(80 ) milímetros a menos de (100 ) milímetros
Tabla ( PageIndex {1} )
  1. Utilice la cuadrícula y la información de la tabla para dibujar un histograma para los datos de longitud del gusano. Asegúrese de etiquetar los ejes de su histograma.
  1. Según el histograma, ¿cuál es la longitud típica de estas 25 lombrices de tierra? Explica cómo lo sabes.
  2. Escribe 1 o 2 oraciones para describir la distribución de los datos. ¿La mayoría de los gusanos tienen una longitud cercana a su estimación de una longitud típica, o son muy diferentes en longitud?

¿Estás listo para más?

Aquí hay otro histograma para los datos de medición de las lombrices de tierra. En este histograma, las medidas están en diferentes agrupaciones.

  1. Según este histograma, ¿cuál es su estimación de la longitud típica de las 25 lombrices de tierra?
  2. Compare este histograma con el que dibujó. ¿En qué se parecen las distribuciones de datos resumidas en los dos histogramas? ¿En qué se diferencian?
  3. Compare sus estimaciones de la longitud típica de una lombriz de tierra para los dos histogramas. ¿Llegó a conclusiones diferentes sobre la longitud típica de una lombriz de tierra a partir de los dos histogramas?

Ejercicio ( PageIndex {3} ): jugadores altos y más altos

Los jugadores de baloncesto profesionales tienden a ser más altos que los jugadores de béisbol profesionales.

Aquí hay dos histogramas que muestran distribuciones de altura de 50 jugadores de béisbol profesionales masculinos y 50 jugadores de baloncesto profesionales masculinos.

  1. Decide qué histograma muestra la altura de los jugadores de béisbol y cuál muestra la altura de los jugadores de baloncesto. Esté preparado para explicar su razonamiento.
  1. Escribe de 2 a 3 oraciones que describan la distribución de las alturas de los jugadores de baloncesto. Comente sobre el centro y la difusión de los datos.
  2. Escribe de 2 a 3 oraciones que describan la distribución de las alturas de los jugadores de béisbol. Comente sobre el centro y la difusión de los datos.

Resumen

Aquí están los pesos, en kilogramos, de 30 perros.

(10 ​​ quad 11 quad 12 quad 12 quad 13 quad 15 quad 16 quad 16 quad 17 quad 18 quad 18 quad 19 quad 20 quad 20 quad 20 quad 21 quad 22 quad 22 quad 22 quad 23 quad 24 quad 24 quad 26 quad 26 quad 28 quad 30 quad 32 quad 32 quad 34 quad 34 )

Antes de dibujar un histograma, consideremos un par de preguntas.

  • ¿Cuáles son los valores más pequeños y más grandes de nuestro conjunto de datos? Esto nos da una idea de la distancia en la recta numérica que cubrirá nuestro histograma. En este caso, el mínimo es 10 y el máximo es 34, por lo que nuestra recta numérica debe extenderse de 10 a 35 como mínimo.

(Recuerde la convención que usamos para marcar la recta numérica de un histograma: incluimos el límite izquierdo de una barra pero excluimos el límite derecho. Si 34 es el límite derecho de la última barra, no se incluirá en esa barra , por lo que la recta numérica debe ser un poco mayor que el valor máximo).

  • ¿Qué tamaño de grupo o contenedor parece razonable aquí? Podríamos organizar los pesos en contenedores de 2 kilogramos (10, 12, 14,..), 5 kilogramos, (10, 15, 20, 25,..), 10 kilogramos (10, 20, 30,..), o cualquier otro tamaño. Cuanto más pequeños sean los contenedores, más barras tendremos, y viceversa.

Usemos contenedores de 5 kilogramos para los pesos de los perros. Los límites de nuestros contenedores serán: 10, 15, 20, 25, 30, 35. Nos detenemos en 35 porque es mayor que el máximo.

A continuación, encontramos la frecuencia de los valores en cada grupo. Es útil organizar los valores en una tabla.

pesos en kilogramosfrecuencia
(10 ​​) a menos de (15 )(5)
(15 ) a menos de (20 )(7)
(20 ) a menos de (25 )(10)
(25 ) a menos de (30 )(3)
(30 ) a menos de (35 )(5)
Tabla ( PageIndex {2} )

Ahora podemos dibujar el histograma.

El histograma nos permite aprender más sobre la distribución del peso del perro y describir su centro y extensión.

Entradas del glosario

Definición: Centro

El centro de un conjunto de datos numéricos es un valor en el medio de la distribución. Representa un valor típico para el conjunto de datos.

Por ejemplo, el centro de esta distribución del peso de los gatos está entre 4,5 y 5 kilogramos.

Definición: Distribución

La distribución indica cuántas veces ocurre cada valor en un conjunto de datos. Por ejemplo, en el conjunto de datos azul, azul, verde, azul, naranja, la distribución es 3 azules, 1 verde y 1 naranja.

Aquí hay un diagrama de puntos que muestra la distribución para el conjunto de datos 6, 10, 7, 35, 7, 36, 32, 10, 7, 35.

Definición: Frecuencia

La frecuencia de un valor de datos es cuántas veces ocurre en el conjunto de datos.

Por ejemplo, había 20 perros en un parque. La tabla muestra la frecuencia de cada color.

colorfrecuencia
blanco(4)
marrón(7)
negro(3)
multicolor(6)
Tabla ( PageIndex {3} )

Definición: histograma

Un histograma es una forma de representar datos en una recta numérica. Los valores de los datos están agrupados por rangos. La altura de la barra muestra cuántos valores de datos hay en ese grupo.

Este histograma muestra que hubo 10 personas que ganaron 2 o 3 boletos. No podemos decir cuántos de ellos ganaron 2 boletos o cuántos ganaron 3. Cada barra incluye el valor del extremo izquierdo pero no el valor del extremo derecho. (Hubo 5 personas que ganaron 0 o 1 entradas y 13 personas que ganaron 6 o 7 entradas).

Definición: propagación

La extensión de un conjunto de datos numéricos indica qué tan separados están los valores.

Por ejemplo, los gráficos de puntos muestran que los tiempos de viaje de los estudiantes en Sudáfrica están más dispersos que en Nueva Zelanda.

Práctica

Ejercicio ( PageIndex {4} )

Estos dos histogramas muestran la cantidad de mensajes de texto enviados en una semana por dos grupos de 100 estudiantes. El primer histograma resume los datos de los estudiantes de sexto grado. El segundo histograma resume los datos de los estudiantes de séptimo grado.

  1. ¿Los dos conjuntos de datos tienen aproximadamente el mismo centro? Si es así, explique dónde está ubicado el centro. Si no es así, ¿cuál tiene el mayor centro?
  2. ¿Qué conjunto de datos tiene mayor difusión? Explica tu razonamiento.
  3. En general, ¿qué grupo de estudiantes (sexto o séptimo grado) envió más mensajes de texto?

Ejercicio ( PageIndex {5} )

Cuarenta estudiantes de sexto grado corrieron 1 milla. Aquí hay un histograma que resume sus tiempos, en minutos. El centro de la distribución está aproximadamente a 10 minutos.

En los ejes en blanco, dibuje un segundo histograma que tenga:

  • una distribución de tiempos para un grupo diferente de 40 estudiantes de sexto grado.
  • un centro a los 10 minutos.
  • menor variabilidad que la distribución que se muestra en el primer histograma.

Ejercicio ( PageIndex {6} )

Jada tiene (d ) monedas de diez centavos. Tiene más de 30 centavos pero menos de un dólar.

  1. Escribe dos desigualdades que representen cuántas monedas de diez centavos tiene Jada.
  2. ¿Puede (d ) ser 10?
  3. ¿Cuántas posibles soluciones hacen que ambas desigualdades sean verdaderas? Si es posible, describa o enumere las soluciones.

(De la Unidad 7.2.2)

Ejercicio ( PageIndex {7} )

Ordene estos números de mayor a menor: (- 4, frac {1} {4}, 0, 4, -3 frac {1} {2}, frac {7} {4}, - frac { 5} {4} )

(De la Unidad 7.1.4)


Usa el histograma de frecuencia para responder cada pregunta.

Se ha encontrado un error PHP

Mensaje: Índice no definido: ID de usuario

Archivo: /home/eoc11apgnrmy/public_html/application/views/question.php
Línea: 192
Función: _error_handler

Archivo: /home/eoc11apgnrmy/public_html/application/controllers/Questions.php
Línea: 416
Función: ver

Archivo: /home/eoc11apgnrmy/public_html/index.php
Línea: 315
Función: require_once

statsguru Punditsdkoslkdosdkoskdo

Cómo hacer histogramas en Power BI para responder preguntas comerciales

Un histograma es una herramienta común en estadística para describir la distribución de valores en un conjunto de datos. Pueden mostrarle los valores más comunes, los valores atípicos y la extensión de sus valores, todo de un solo vistazo. Los histogramas pueden ser útiles no solo dentro de las estadísticas, sino también para responder preguntas comerciales. Sin embargo, no es inmediatamente obvio cómo configurarlos en Power BI, por lo que veremos algunas técnicas sobre cómo construirlos para abordar un escenario empresarial. Comenzaremos con una implementación simple y luego crearemos una más sofisticada con más flexibilidad y conocimiento de nuestro escenario.

¿Qué es un histograma de nuevo? ¿No es sólo un gráfico de columnas?

Los histogramas, simplemente, son un tipo de gráfico de columnas. Para muchas personas, pueden parecer uno en el mismo, pero si bien todos los histogramas son gráficos de columnas, no todos los gráficos de columnas son histogramas (similar a cómo todos los humanos son mamíferos, pero no todos los mamíferos son humanos). Si bien puede estar acostumbrado a gráficos de columnas que muestran medidas financieras como ganancias, los histogramas son gráficos de columnas que le brindan información sobre la frecuencia de los valores, a menudo usando una medida COUNT en Power BI. Los histogramas tienen una serie de características particulares que no todos los gráficos de columnas tienen & # 8230

  • El eje x contiene valores continuos (es decir, números) en lugar de valores categóricos (es decir, nombres de agrupaciones), y el eje y contiene datos de frecuencia / conteo.
  • Los valores en el eje x pueden ser valores individuales (edades 0, 1, 2, 3, etc.) o valores agrupados (edades 0-9, 10-19, 20-29, etc.). Un elemento representado en una columna de un histograma podría tener cualquier valor dentro de ese contenedor. Solo nos centraremos en los histogramas que utilizan valores enteros individuales, ya que hay varios artículos que ya han escrito otros sobre el uso del binning para la segmentación.
  • Los histogramas incluyen contenedores que tienen un conteo de cero. El contexto de la situación puede hacer que sea razonable omitir los contenedores vacíos en el extremo superior o inferior de la distribución si no están entre dos contenedores no vacíos, p. Ej. no es necesario que incluya las edades de 0 a 9 años al describir al personal de una empresa.

Usar un histograma para responder preguntas comerciales

Los histogramas no solo son útiles en las estadísticas, sino que también se pueden utilizar de forma eficaz en escenarios empresariales para proporcionar información útil. En este ejemplo, responderemos preguntas sobre una hipotética empresa minorista con sede en Melbourne, Australia. Se nos han proporcionado datos sobre el desempeño de cada una de las 16 tiendas de la compañía en cada mes del año financiero 2019-2020. Este conjunto de datos contiene los objetivos de ventas y ventas, con una tabla subyacente que se ve así

Dado que la tabla contiene una instantánea de las ventas hasta el final de cada mes, dejemos que & # 8217s llame a esta tabla Resumen de ventas de hechos. Tenga en cuenta aquí que la columna Mes es un campo de tipo de fecha, pero he cambiado el formato para que sea más legible.

Basado en los datos en Resumen de ventas de hechos, se nos ha pedido que respondamos esta pregunta:

¿Durante cuántos meses se vendió cada tienda por debajo de sus objetivos de ventas?

Si queremos responder a esta pregunta, nos enfrentamos a un problema. Por lo general, en Power BI, creamos elementos visuales arrastrando y soltando campos en la página del informe para formar nuestro eje y valores. Pero si queremos que aparezca un número de meses en el eje de nuestro gráfico de columnas, ¿qué campo de nuestro conjunto de datos usaríamos para hacer este eje? No está claro de inmediato, ya que no hay ningún campo en nuestro conjunto de datos con solo valores enteros para nuestros recuentos de meses. Para solucionar este problema, vamos a crear una tabla con estos valores mensuales. Y utilizando esta nueva tabla, vamos a crear un histograma que muestre el recuento de tiendas en comparación con la cantidad de meses en los que se desempeñaron por debajo de su objetivo.

Abordaremos este problema de dos formas diferentes. El primer enfoque será una solución estática, que se basa en una tabla calculada que agrega nuestra tabla de instantáneas existente. La segunda será una solución dinámica que utilice un parámetro Y si ... y una medida personalizada en su lugar. Y finalmente ampliaremos nuestra solución dinámica con una información sobre herramientas personalizada para decirnos qué tiendas están representadas en cada columna de nuestro histograma. Como muestra de lo que está por venir, así es como se verá nuestra solución final ...

Solución estática mediante tablas calculadas

Para poder responder a esta pregunta, debemos calcular las ventas al objetivo de cada tienda y las ventas mensuales. Para hacer esto, podemos definir una medida DAX simple de la siguiente manera y definirla como un porcentaje.

Ventas al objetivo =
DIVIDIR (
SUM (& # 8216Fact Sales Snapshot '[Ventas]),
SUM (& # 8216Fact Sales Snapshot '[Target])
) +
// El & # 8216 + 0 & # 8217 asegura que los valores vacíos devuelvan un 0. Esto es más sucinto que una función COALESCE

Ahora, utilizando esta nueva medida, vamos a crear una nueva tabla calculada en DAX, que devuelve una lista única de tiendas, y para cada tienda cuenta cuántos meses la medida de Ventas al objetivo es inferior al 100%.

Rendimiento de la tienda =
RESUMEN (
& # 8216 Instantánea de ventas de hechos & # 8217,
// Agrupa nuestra tabla de instantáneas & # 8230
& # 8216Fact Sales Snapshot '[Tienda],
// Por tienda & # 8230
& # 8220 meses por debajo del objetivo & # 8221,
// Y devuelve el número de meses por debajo del objetivo & # 8230
CALCULAR (
COUNT (& # 8216Fact Sales Snapshot '[Mes]),
// Contando el número de meses que quedan & # 8230
FILTRO (
VALUES (& # 8216Fact Sales Snapshot '[Mes]),
// Después de filtrar nuestros meses hacia abajo & # 8230
[Ventas al destino] & lt 1
// Para incluir solo meses por debajo del objetivo
)
) +
)

El resultado de nuestra nueva tabla de rendimiento de la tienda se ve así: & # 8230

Y podemos arrastrar estos dos campos a un gráfico de columnas visual para obtener algo como lo siguiente ...

¡Y aquí tenemos nuestro histograma! Sin duda, responde a nuestra pregunta comercial de cuántos meses vendió cada tienda por debajo del objetivo. Pero tiene algunas deficiencias que significan que puede que no sea el mejor enfoque para que lo apliquemos a otras situaciones similares ...

  • Hemos agregado una nueva tabla que ocupará más espacio en nuestro modelo y aumentará el tamaño del archivo, especialmente si tuviéramos muchas más tiendas o estuviéramos haciendo este análisis para productos que probablemente tendrían muchos valores únicos diferentes.
  • No podemos dividir esta tabla en función de otros atributos, como el mes o la región de la tienda.
  • Para nosotros, podríamos estar contentos con no mostrar los meses 11 y 12, pero es posible que queramos darle confianza a la audiencia de nuestro informe de que no hay tiendas que hayan tenido un desempeño por debajo del objetivo durante más de 10 meses.

Dadas todas esas deficiencias, vamos a abordar este problema nuevamente, pero esta vez utilizando un enfoque más escalable. Nuestro nuevo enfoque no solo abordará estos problemas, sino que también nos permitirá incluir otras características en secciones posteriores que serán un valor agregado significativo para describir nuestra situación comercial.

Solución dinámica usando parámetros y medidas What If

Esta nueva solución se basará en la construcción de una medida dinámica en la que aún podremos dividir nuestro modelo de datos. Este es un enfoque más sólido que nuestro primer intento, ya que nuestros valores agregados se calculan según sea necesario en función del contexto del filtro en lugar de almacenarse como valores fijos en el modelo. Sin embargo, esta nueva solución aún debe abordar el problema que identificamos anteriormente en torno a la necesidad de un campo para nuestro eje de histograma.

Esta vez vamos a hacer otra tabla calculada, aunque mucho más simple. Definiremos un parámetro What If llamado Histogram Axis y le permitiremos tomar valores entre 0 y 12.

Tenga en cuenta que hemos anulado la selección de "Agregar segmentación a esta página", ya que no vamos a segmentar este valor. Tampoco necesitaremos la medida Histogram Axis Value que se genera automáticamente, ya que crearemos una nueva medida personalizada. Simplemente estamos usando el parámetro para definir una tabla calculada con los valores que deberían aparecer en el eje x de nuestros histogramas, que podríamos haber definido igualmente bien manualmente como una tabla DAX.

Ahora que tenemos nuestro eje de histograma, podemos definir la medida que usaremos para generar los valores de nuestro histograma. En esta medida, generaremos nuestra tabla de Rendimiento de la tienda como una variable de tabla virtual, de modo que se evalúe dentro de la medida en lugar de almacenarse en el modelo. A continuación, filtramos la tabla hacia las tiendas con el rendimiento de las ventas correspondiente al valor del eje del histograma seleccionado actualmente. Finalmente, la medida devuelve el recuento de filas para esta tabla filtrada.

Recuento de tiendas =
VAR HistogramColumn =
SELECTEDVALUE (& # 8216Histogram Axis '[Histogram Axis])

// Almacenar el valor del eje del histograma seleccionado actualmente
VAR StorePerformance =
// Tabla virtual definida igual que nuestra tabla calculada
RESUMEN (
& # 8216 Instantánea de ventas de hechos & # 8217,
& # 8216Fact Sales Snapshot '[Tienda],
& # 8220 meses por debajo del objetivo & # 8221,
CALCULAR (
COUNT (& # 8216Fact Sales Snapshot '[Mes]),
FILTER (VALUES (& # 8216Fact Sales Snapshot '[Month]),

[Ventas a destino] & lt 1)
) +
)
REGRESO
COUNTROWS (
// Cuenta las filas & # 8230
FILTRO (
// Después de filtrar hacia abajo & # 8230
StorePerformance,
// La mesa virtual StorePerformance & # 8230
[Meses por debajo del objetivo] = HistogramColumn
// Solo para las tiendas que pertenecen a la columna del histograma actual
)
) +

Ahora podemos usar esta medida para generar el mismo histograma que antes, pero dado que se calcula dinámicamente a partir de los valores en Resumen de ventas de hechos, ahora podemos usar cortadores en el histograma. P.ej. es posible que deseemos limitar nuestro análisis a las tiendas en una región en particular, o solo a ciertos meses del año.

Tenga en cuenta que cuando usamos las segmentaciones, nuestra solución estática original no se ve afectada.

Formateando nuestro histograma

A continuación, formatearemos nuestro histograma de una manera convencional donde no hay espacios entre las columnas; esto actúa como una señal visual para hacer cumplir la idea de que las columnas representan valores continuos.

Para hacer esto, (irónicamente) tenemos que cambiar nuestro eje x de tipo continuo a categórico. Si bien nuestros datos representan una serie continua de números, por alguna razón desconocida, los gráficos de columnas solo le permiten ajustar el ancho entre columnas cuando los datos en el eje x están marcados como categóricos. Podemos cambiar esta configuración en el panel Formato.

Pero, desafortunadamente, cuando hacemos este cambio, ¡cambia el orden de nuestras columnas! El eje ahora se ordena de forma descendente según el valor de la medida, pero esto es fácil de corregir para nosotros.

Finalmente, podemos ajustar el ancho entre las columnas usando la opción Relleno interno en el panel Formato.

Agregar una información sobre herramientas a las tiendas de lista representadas en cada columna

Ahora que tenemos la distribución del rendimiento mensual de la tienda, lo siguiente que probablemente querríamos saber es qué tiendas tienen un buen rendimiento y cuáles no. Una forma eficaz de mostrar esta información sería con una información sobre herramientas que nos diga qué tiendas están representadas en cada columna de nuestro histograma.

Podemos hacer esto creando una información sobre herramientas personalizada. Para hacer esto, podemos crear una nueva página en nuestro informe, luego definir la página como una página de información sobre herramientas en el panel Formato y reducir el tamaño de la página a algo lo suficientemente pequeño para usar como información sobre herramientas.

En nuestra página de información sobre herramientas, podemos crear una tabla visual simple usando el campo Store en Resumen de ventas de hechos. De forma predeterminada, esto mostrará todas nuestras tiendas, pero solo queremos que muestre las tiendas para la columna de histograma seleccionada actualmente. Para lograr esto, crearemos otra medida, que se utilizará como un filtro de nivel visual en nuestro visual. Para cada fila de nuestra tabla de tiendas, determinará cuántos meses tuvo un rendimiento inferior a la tienda. Luego lo comparará con la columna de histograma que está seleccionada actualmente al crear la información sobre herramientas, y solo incluirá la tienda si el rendimiento de la tienda coincide con el valor de la columna del histograma.

Filtro de información sobre herramientas =
VAR HistogramColumn =
SELECTEDVALUE (& # 8216Histogram Axis '[Histogram Axis])
VAR MonthsBelowTarget =
// Definido como antes
CALCULAR (
COUNT (& # 8216Fact Sales Snapshot '[Mes]),
FILTER (VALUES (& # 8216Fact Sales Snapshot '[Month]), [Sales to Target] & lt 1)
)
REGRESO
IF (MonthsBelowTarget = HistogramColumn, 1,)

Para habilitar esta lógica de filtro, solo tenemos que arrastrar la medida a los filtros de nivel visual de nuestra tabla de información sobre herramientas y solo incluir valores para los que la medida devuelve 1.

Después de configurar todo esto, podemos navegar de regreso a nuestra página principal del informe y formatear el histograma visual para referirnos a nuestra página de información sobre herramientas como información sobre herramientas de la página de informe.

¡Y con eso, ahora podemos ver nuestro histograma dinámico con información sobre herramientas en acción!

Otros escenarios para usar histogramas en

Estas técnicas de construcción de histogramas para análisis pueden ser muy poderosas cuando se usan de manera efectiva. Con estos conocimientos, un usuario del informe puede identificar las tiendas con un rendimiento de ventas deficiente y utilizarlo para investigar (y, con suerte, resolver) los factores clave que impulsan su rendimiento deficiente. Incluso podría ampliar este escenario para analizar las ventas de productos individuales e identificar las tiendas donde ese producto ha tenido un rendimiento inferior (en lugar de considerar el rendimiento de las ventas en todos los productos en la tienda como lo hemos hecho nosotros). Los clientes que compran en estas tiendas pueden ofrecer información valiosa para ayudar a su empresa a mejorar su oferta de productos.

Resumen

En este artículo, creamos un histograma en Power BI que nos mostró la distribución del rendimiento de la tienda, en función de cuántos meses las ventas de cada tienda estuvieron por debajo del objetivo. Primero hicimos nuestro histograma usando una tabla agregada en DAX, y luego ampliamos nuestra solución para usar una medida y un parámetro What If. Luego formateamos nuestro histograma para eliminar el espacio entre columnas y agregamos una información sobre herramientas personalizada para mostrar qué tiendas estaban representadas en cada columna del histograma.

Como nota final, tenga en cuenta que los enfoques que hemos discutido dependen de que usted tenga la capacidad de definir una tabla calculada en su modelo. Sin embargo, si trabaja con un informe conectado a un modelo de Analysis Services, probablemente no tendrá el mismo tipo de flexibilidad para crear tablas adicionales. En mi próxima publicación de blog, lo guiaré a través de una implementación que puede usar para crear histogramas cuando realmente no pueda crear una nueva tabla en su modelo, ¡así que permanezca atento!


Histogramas

Histograma: visualización gráfica de datos utilizando barras de diferentes alturas.

Es similar a un gráfico de barras, pero un histograma agrupa números en rangos .

La altura de cada barra muestra cuántos caen en cada rango.

¡Y tú decides qué rangos usar!

Ejemplo: altura de los naranjos

Mides la altura de cada árbol del huerto en centímetros (cm)

Las alturas varían de 100 cm a 340 cm.

Decides poner los resultados en grupos de 50 cm:

  • La 100 hasta poco menos de 150 cm distancia,
  • La 150 hasta poco menos de 200 cm distancia,
  • etc.

Por lo tanto, un árbol de 260 cm de altura se agrega al rango & quot250-300 & quot.

Puede ver (por ejemplo) que hay 30 árboles de 150 cm hasta poco menos de 200 cm de altura

(PD: puedes crear gráficos como ese usando Crea tu propio histograma)

Observe que el eje horizontal es continuo como una recta numérica:

Ejemplo: ¿Cuánto está creciendo ese cachorro?

Cada mes mides cuánto peso ha ganado tu cachorro y obtienes estos resultados:

0,5, 0,5, 0,3 y menos 0,2, 1,6, 0, 0,1, 0,1, 0,6, 0,4

Varían de & menos0.2 (el cachorro perdió peso ese mes) a 1.6

Ordene de menor a mayor aumento de peso:

& menos 0,2, 0, 0,1, 0,1, 0,3, 0,4, 0,5, 0,5, 0,6, 1,6

Decide poner los resultados en grupos de 0,5:

(No hay valores de 1 a menos de 1,5, pero seguimos mostrando el espacio).

El rango de cada barra también se llama Intervalo de clases

En el ejemplo anterior, cada intervalo de clase es 0.5

Los histogramas son una excelente manera de mostrar resultados de datos continuos, como:

Pero cuando los datos están en categorias (como País o Película favorita), debemos usar un gráfico de barras.


Preguntas tipo examen sobre estadísticas

Ben midió el largo y el ancho de cada una de las 10 conchas marinas del mismo tipo. Los resultados se muestran a continuación.

(a) Construya un gráfico de dispersión con estos datos.

Dimensiones de la concha marina
Longitud (cm) Ancho (cm)
7.3 2.7
9.7 3.2
7.5 2.6
6.1 2.9
9.0 2.9
8.7 3.0
7.5 2.5
10.3 3.5
9.5 3.3

El punto que representa los resultados de una de las conchas es un valor atípico.

(b) Explique en qué se diferencian los resultados de esta capa de los resultados de las otras capas.

Una encuesta se lleva a cabo haciendo preguntas a las personas cuando salen de una cafetería.

A continuación se muestra una sección del cuestionario.

Marque la casilla & # 9745 en la casilla que se encuentra frente a la respuesta elegida.

1. ¿Con qué frecuencia visita una cafetería?

& # 9744 Todos los días & # 9744 Una o dos veces por semana & # 9744 Nunca.

(a) Explique por qué se trata de una encuesta sesgada.

(b) Enuncie dos críticas a las preguntas o las opciones dadas para las respuestas.

La tabla muestra información sobre las alturas de 85 estalagmitas.

Altura ( (h ) cm) Frecuencia
(10 ​​ lt h le 15 )9
(15 lt h le 20 )13
(20 lt h le 25 )18
(25 lt h le 30 )22
(30 lt h le 35 )15
(35 lt h le 40 )8

(a) Encuentre el intervalo de clases que contiene la mediana.

(b) En la siguiente cuadrícula, dibuje un polígono de frecuencias para la información de la tabla.

Se preguntó a 155 personas cuánto dinero pagarían por una comida de tres platos en un restaurante especial.

El histograma muestra los resultados de la encuesta.

(a) Complete la tabla de frecuencias para obtener la información que se muestra en el histograma.

Cantidad (£ (x )) (0 lt x le 10 )
Frecuencia 20

(b) Utilice su tabla de frecuencias para calcular una estimación de la cantidad media que estas personas pagarían por la comida.

Jimmy está ordenando las camisetas para el coro de la comunidad que tiene 240 miembros.

Pregunta a una muestra de 36 miembros de qué color deben ser las camisetas. Cada miembro elige un color.

La tabla muestra información sobre sus resultados.

Color Número de miembros
Azul 6
rojo 3
Verde 7
Amarillo 5
Púrpura 2
Negro 6
blanco 7

(a) Calcula cuántos de los 240 miembros crees que querrán camisetas negras.

(b) Indique cualquier suposición que haya hecho y explique cómo esto puede afectar su respuesta.

El gráfico de dispersión brinda información sobre las calificaciones obtenidas en un examen de estadística y un examen de matemáticas por cada uno de los 13 estudiantes.

El diagrama de caja para el examen de Matemáticas para los 13 estudiantes se dibuja en la siguiente cuadrícula.

(a) Dibuje el diagrama de caja para el examen de Estadística.

(b) Compare las distribuciones de las calificaciones obtenidas en los dos exámenes.

La tabla muestra las calificaciones obtenidas por 200 estudiantes que tomaron un examen de matemáticas.

Marca (n) (0 lt n le 10 ) (10 ​​ lt n le 20 ) (20 lt n le 30 ) (30 lt n le 40 ) (40 lt n le 50 ) (50 lt n le 60 ) (60 lt n le 70 ) (70 lt n le 80 )
Frecuencia 3 7 33 42 54 35 20 6

(a) Utilice los datos de la tabla anterior para completar la siguiente tabla de frecuencias acumulativas

Marca (n) (n le 10 ) (n le 20 ) (n le 30 ) (n le 40 ) (n le 50 ) (n le 60 ) (n le 70 ) (n le 80 )
Frecuencia acumulada 200

(b) Dibuje la curva de frecuencia acumulada en papel cuadriculado.

El 5% de los mejores estudiantes recibirán una calificación de A. El próximo 15% de los estudiantes recibirá una calificación de B y el próximo 30% recibirá una calificación de C.

(c) Utilice su gráfica para estimar la calificación más baja por la que se otorgará la calificación B.

La tabla muestra la cantidad de tiempo, en meses, necesario para vender casas en la urbanización Happyland.

Tiempo (m meses) Frecuencia
0 & lt m & le 2 10
2 & lt m & le 5 21
5 & ​​lt m & le 10 25
10 & lt m & le 15 20
15 & lt m & le 20 25

(a) Dibuje un histograma para la información de la tabla.

(b) Encuentre una estimación de la mediana.

La siguiente tabla de frecuencias agrupadas muestra la cantidad de tiempo, (t ), en minutos, los visitantes observaron un pulpo nadando alrededor de un tanque en un acuario.

Tiempo ( (t ))Visitantes
(0 lt t le 5 )23
(5 lt t le 10 )13
(10 ​​ lt t le 15 )9
(15 lt t le 20 )6
(20 lt t le 25 )2
(25 lt t le 30 )1

(a) Escriba el número total de visitantes que se incluyeron en la encuesta.

(b) Escriba el valor del intervalo medio para el grupo (20 lt t le 25 ).

(c) Encuentre una estimación del tiempo medio que los visitantes tardaron en observar el pulpo.

La información anterior se ha reescrito como una tabla de frecuencia acumulativa.

Tiempo ( (t )) (t le 5 ) (t le 10 ) (t le 15 ) (t le 20 ) (t le 25 ) (t le 30 )
Frecuencia acumulada2336(a)5153(B)

(d) Escriba los valores de (a ) y (b ).

Esta información se muestra en el siguiente gráfico de frecuencia acumulada.

(e) Use el gráfico para estimar el tiempo máximo que tomó observar el pulpo para los primeros 32 visitantes (ordenados en orden de aumento del tiempo de visualización).

(f) Utilice la gráfica para estimar la cantidad de visitantes que pasaron menos de 13 minutos mirando al pulpo.

(g) Utilice la gráfica para estimar la cantidad de visitantes que tardan más de 17 minutos en observar el pulpo.

Los siguientes gráficos muestran los resultados de los alumnos de un grupo anual que respondieron veinte preguntas de aritmética mental.

¿Qué información de los diagramas se puede utilizar para respaldar o contrarrestar cada una de estas afirmaciones?

(a) Las niñas son mejores en aritmética mental que los niños.

(b) El rango de tiempo de los niños es mayor que el rango de tiempo de las niñas.

Al director de la escuela le gustaría utilizar estos datos para hacer declaraciones sobre todos los alumnos de la escuela.

(c) Comente si se pueden sacar conclusiones para toda la población escolar a partir de los resultados del Grupo de este año.

La siguiente tabla muestra el número de veces que las personas de un grupo de muestra visitaron el cine en un período de seis meses.

Falta una de las frecuencias.

Visitas al cine Frecuencia Punto medio
0-4 20 2
5-9 24 7
10-14 12
15-19 7 17

Los puntos medios se utilizan para calcular una estimación del número medio de visitas.

Se calcula que la media es 7,25.

Calcula la frecuencia que falta.

La siguiente tabla muestra la cantidad de días que las familias pasan en un hotel junto al mar en particular en agosto del año pasado.

DiasFrecuenciaFrecuencia acumulada
233
51114
71529
10(X)39
14544

A continuación se enumeran los tiempos en segundos que toma un grupo de estudiantes para completar un ejercicio en línea.

$31, 34, 41, 33, 29, 31, 39, 35, 30, 40.$

(b) Calcule el rango intercuartílico.

(c) Encuentre la probabilidad de que un estudiante elegido al azar del grupo haya tardado al menos 35 segundos en completar el ejercicio.

El entrenador personal recopiló datos de una muestra de días seleccionada al azar. A partir de esto, descubrió que el número de vasos de agua que bebía en un día tenía una media de 4,35.

Gafas1234567
Frecuencia2469(X)94

(a) Encuentre el número de días representado por (x )

(b) Escriba la desviación estándar.

Una empresa de televisión encuestó a 88 de sus empleados para averiguar cuánto tiempo pasan viajando al trabajo en un día determinado. Los resultados de la encuesta se muestran en el siguiente diagrama de frecuencia acumulada.

(a) Encuentre la mediana del número de minutos que se dedican a viajar al trabajo.

(b) Encuentre el rango intercuartílico.

(c) Encuentre el número de empleados cuyo tiempo de viaje está dentro de los 20 minutos de la mediana.

(d) Solo el 10% de los empleados pasó menos de k minutos viajando al trabajo. Encuentre el valor de k.

Los resultados de la encuesta también se pueden mostrar en el siguiente diagrama de caja y bigotes.

(e) Escriba el valor de a.

(g) Los tiempos de viaje de menos de p minutos se consideran valores atípicos. Encuentre el valor de p.

Este gráfico de frecuencia acumulada muestra las velocidades en kmh -1 de los ciclistas que pasan por un determinado punto de una pista de carreras.

(a) Estime la velocidad mínima posible de uno de estos ciclistas.

(b) Encuentre la velocidad mediana de los ciclistas.

(c) Escriba el percentil 65.

(d) Calcule el rango intercuartílico.

(e) Encuentre el número de estos ciclistas que viajaban a más de 22 kmh -1

The table shows the speeds of these cyclists.

Speed of Cyclists (s)Number of Cyclists
(0 lt s le 5)0
(5 lt s le 10)(a)
(10 lt s le 15)8
(15 lt s le 20)20
(20 lt s le 25)16
(25 lt s le 30)5
(30 lt s le 35)(b)

(f) Find the value of (a) and of (b)

(g) Write down the modal class.

(h) Write down the mid-interval value for the modal class.

(i) Use your graphic display calculator to calculate an estimate of the mean speed of these cyclists.

(j) Use your graphic display calculator to calculate an estimate of the standard deviation of the speeds of these cyclists.

A data set has (n) items. The sum of the items is 650, the mean is 13 and the standard deviation is 5.

If each value in the set is multiplied by 7:

(b) Write down the value of the new mean

(c) Find the value of the new variance.

If you would like space on the right of the question to write out the solution try this Thinning Feature. It will collapse the text into the left half of your screen but large diagrams will remain unchanged.

The exam-style questions appearing on this site are based on those set in previous examinations (or sample assessment papers for future examinations) by the major examination boards. The wording, diagrams and figures used in these questions have been changed from the originals so that students can have fresh, relevant problem solving practice even if they have previously worked through the related exam paper.

The solutions to the questions on this website are only available to those who have a Transum Subscription.

To search the entire Transum website use the search box in the grey area below.


Statistics, Histograms, and Probability

In all likelihood you have computed an average, for example, the average of all your test scores in a course. To find your average, you add your scores and divide by the number of tests. The mathematical term for this average is the mean. On the other hand, the median is the value in the of the data if the number of data points is odd. For example, if the test on a particular test in a class of 27 students have a median of 74, then 13 students scored below 74 13 scored above 74, and one student obtained a grade number of data points is even, the median is the mean of the two ‘values close the middle. The mean need not be the,same as the median. For example, for the data 65, 68, 74, 88, 95, the mean is 75, whereas the median Little mean of 68 and 74 or 71.

MATLAB provides the mean(x) median (x) functions to perform _these computations. If x is a vector, the mean (or median) value of the vector’s values is returned. However, if x is a matrix, a row vector is returned containing the mean (or median) value of each column of x. These functions do not require the elements in x to be sorted in ascending or descending order.

In many applications, the mean and the median do not adequately describe a data set. Two data sets can-have the same mean (or the same median) yet be very different. For example, the test scores 60, 65, 68, 74, 88,95 have the same mean , as the scores 71, 72, 73, 77, 78, 79, but the two sets describe very.different test outcomes. The first set of scores vary over large range, whereas in the second set-the scores are tightly grouped about the mean.

The way the data are spread around the mean can be described by a histogram plot. A histogram is a.plot of the frequency of occurrence of data values versus the values themselves. For example, suppose that in a class of 20 students the 20 scores on the first test were

61 61 65 67 69 72 74 74 76 77
83 83 85 88 89 92 93 93 95 98

On this test there are five scores in the 60-69 range, five in the 70-79 range, five in the 80-89 range, and five in the 90-100 range. The histogram for these scores is shown in the top graph in Figure 7.1-1. It is a bar plot of the number of scores that occur within each range, with the bar centered in the middle of the range (for example, the bar for the range 60-69 is centered at 64.5, and the asterisk on the plot’s abscissa shows the bar’s center).

Figure 7.1-1 Histograms of test scores for 20 students.

Suppose that on the second test the following 20 scores were achieved:

66 69 72 74 75 76 77 78 78 79
79 80 81 83 84 85 87 88 90 94

On this test there are two scores in the 60-69 range, nine in the 70-79 range, seven in the 80-89 range, and two in the 90-100 range. The histogram for these scores is shown in the bottom graph in Figure 7.1-1. The mean on both tests is identical and is 79.75. However, the distribution of the scores is very different. On the first test we.say that the scores are evenly, or “uniformly,” distributed between 60 and 100, whereas on the second test the scores are more clustered around the mean.

To plot a histogram, you must group the data into sub ranges, called bins. In this example the four bins are.the ranges 60-69,70-79, 80-89, and 90-100. The choice of the bin width and bin center can drastically change the shape of the histogram. If the number of data values is relatively small, the bin width can not be small because some of the bins will contain no data and the resulting histogram might not usefully illustrate the distribution of the data.

To obtain a histogram, first sort the data if it has not yet been sorted (you can use the sort function here). Then choose the bin ranges and. bin centers and count the number of values in each bin. Use the bar function to plot the number of values in each bin versus the bin centers as a bar chart. The function bar (x I Y> creates a bar chart of y versus x. The MATLAB script file that generates Figure 7.1-1 follows. We have selected the bin centers to be in the middle of the ranges 60-69, 70-79, 80-89, 90-99.

MATLAB provides the hi s t command to generate a histogram. This command has several forms. Its basic form is hi s t (y) ,where y is a vector containing the data. This form aggregates the data into 10 bins evenly spaced between the minimum and maximum values in y. The second form is hist (y, n ) , where . n is a user-specified scalar indicating the number of bins. The third form is hi s t (y r x) ,where x is a user-specified vector ,that determines the location. of the bin centers the bin widths are the distances between the centers.

Figure 7.1-3 Absolute frequency histogram for 100 thread tests.

will not be satisfactory. This case occurs when you want to obtain a relative frequency histogram. In such cases you can use the bar function to generate the histogram. The following script file generates the relative frequency histogram for the 100 thread tests. Note that if you use the bar function, you must aggregate the data first.

The result appears in Figure 7.1-4.

The fourth, fifth, and sixth forms of the hi s t function do not generate a plot, but are used to compute the frequency counts and bin locations. The bar function can then be used to plot the histogram. The syntax of the fourth form is [z , x] = hi s t (y) , where z is “the returned vector containing the frequency count and x is the returned vector containing the bin locations. The fifth and sixth forms are [z, x] = hist (y ,n) and [z , x] = hist (y, x). In the latter

Figure 7.1-4 Relative frequency histogram for 100 thread tests.

case the returned vector x is the same as the user-supplied vector. The following script file shows how the sixth form can be used to generate a relative frequency histogram for the thread example with 100 tests.

The plot generated by this M-file will be identical to that shown in Figure 7.1-4. These commands are summarized in Table 7.1-1.

Table 7.1-1 Histogram functions

The Data Statistics Tool

With the Data Statistics tool you can calculate statistics for data and add plots of the statistics to a graph of the data. The tool is accessed from the Figure window after you plot the data. Click on the Tools menu, then select Data Statistics. The menu appears as shown in Figure 7.1-5. To plot the mean of the dependent variable (y), click the box in the row labeled mean under the column labeled Y, as shown in the figure. You can plot other statistics as well these are shown in the figure. You can save the statistics to the workspace as a structure by clicking on the’Save to Workspace button. This opens a dialog box that prompts you for a name for the structure containing the x data, and a name for the y data structure.

Probability

Probability is expressed as a number between 0 and 1 or as a percentage between o percent and 100 percent. For example, because there are six possible outcomes from rolling a single die, the probability of obtaining a specific number on one roll is 1/6, or. 16.67 percent. Thus if you roll the die a large number of times, you expect to obtain a 2 one-sixth of the time. Figure 7.1-6 shows the theoretical uniform probabilities for rolling a single die, and the relative frequency histogram for the data from 100 die rolls. The number of times a 1,2,3,4,5, or Occurred was 21,14, 18, 16, 19,and 12 respectively. The plots of the theory and the data are very similar, but not identical. In general, if you had rolled the die 1000 times instead of 100 times, the histogram would look even more like the theoretical probability plot.
If you roll two balanced dice, each roll has 36 possible outcomes because each die can produce six numbers. There is only one way to obtain a sum of 2, but there are two ways to obtain a sum of 3, and so on. Thus the probability of rolling a sum of 2 is 1/36, and the probability of rolling a sum of 3 is 1/36 +1/36 = 2/36.

Figure 7.1-5 The Data Statistics, tool.

Figure 7.1-6 Comparison of theory end experiment for 100 rolls of a single die.

Continuing this line of reasoning, you can obtain the theoretical probabilities for the sum of two dice, as shown in the following table.

Probabilities Cor the sum of two dice
Sum 2 3 4 5 6 7 8 9 10 11 12
Probability (x 36) 1 2 3 4 5 6 5 4 3 2 1

An experiment was performed by rolling two dice 100 times and recording the sums. The data follows.

Data Cor two dice
Sum 2 3 4 5 6 7 8 9 10 11 12
Frequency 5 5 8 11 20 10 8 12 7 10 4

Figure 7.1-7 shows the relative frequency histogram and the theoretical probabilities on the same plot, If you had collected more data, the histogram would have been closer to the theoretical probabilities.
The theoretical probabilities can be used to predict the outcome of an experiment. Note that the sum of the theoretical probabilities for two dice equals I, because it is 100 percent certain to obtain a sum between 2 and 12. The sum of the probabilities corresponding to the outcomes 3, 4, and 5 is 2/36 +3/36 +4/36 1/4. This result corresponds to a probability of 25 percent. Thus if you roll two dice many times, 25 percent of the time you would expect to obtain a sum of either 3, 4, or 5.

Figure 7.1-7 Comparison of theory and experiment for 100 rolls of two dice.

In many applications the theoretical probabilities are not available because the underlying causes of the process are not understood well enough. In such applications you can use the histogram to make predictions. For example, if you did not have the theoretical probabilities for the sum of two dice, you could use the data to estimate the probability. Using the previously given data from 100 rolls, you can estimate the probability of obtaining a sum of either 3, 4, or 5 by summing the relative frequencies of these three outcomes. This sum is (5 +8 + 11)/100 = 0.24, or 24 percent. Thus on the basis of the data from 100 rolls, 24 percent of the time you can estimate that you would obtain a sum of either 3,4, or 5. The accuracy of the estimates so obtained is highly dependent on the number of trials used to collect the data the more trials, the better. Many sophisticated statistical methods are available to assess the accuracy of such predictions these methods are covered in advanced courses.

Test Your Understanding
17 .1-2 If you roll a pair of balanced dice 200 times, how many times would you expect to obtain a sum of 7? How many times would you expect to obtain a sum of either 9, 10, or II? How many times would you expect to obtain a sum less than 7? (Answer: 33 times, 50 times, and 83 times.)


Question 16.

Use the frequency histogram to answer each question.

  1. Determine the number of classes.
  2. Estimate the frequency of the class with the least frequency.
  3. Estimate the frequency of the class with the greatest frequency.
  4. Determine the class width.

Answer – a) Number of classes = 7

Deja una respuesta Cancelar respuesta

GeekyMynd.com is a learning website where students can learn topics related to Computer Science, Statistics, UPSC, SSC, and more free of cost.

Links

NEWSLETTER

Get all the latest content delivered to your email a few times a month. Updates and news about all categories will send to you.


When you should use a histogram

Histograms are good for showing general distributional features of dataset variables. You can see roughly where the peaks of the distribution are, whether the distribution is skewed or symmetric, and if there are any outliers.

In order to use a histogram, we simply require a variable that takes continuous numeric values. This means that the differences between values are consistent regardless of their absolute values. For example, even if the score on a test might take only integer values between 0 and 100, a same-sized gap has the same meaning regardless of where we are on the scale: the difference between 60 and 65 is the same 5-point size as the difference between 90 to 95.

Information about the number of bins and their boundaries for tallying up the data points is not inherent to the data itself. Instead, setting up the bins is a separate decision that we have to make when constructing a histogram. The way that we specify the bins will have a major effect on how the histogram can be interpreted, as will be seen below.

When a value is on a bin boundary, it will consistently be assigned to the bin on its right or its left (or into the end bins if it is on the end points). Which side is chosen depends on the visualization tool some tools have the option to override their default preference. In this article, it will be assumed that values on a bin boundary will be assigned to the bin to the right.

Example of data structure

One way that visualization tools can work with data to be visualized as a histogram is from a summarized form like above. Here, the first column indicates the bin boundaries, and the second the number of observations in each bin. Alternatively, certain tools can just work with the original, unaggregated data column, then apply specified binning parameters to the data when the histogram is created.


Statistics Test 1

Step 4. Choose the interval that contains the score, 61.7.

Step 1. Determine the relative frequency for the fifth class as a simplified fraction.
Answer: ____________________

Step 1. Find the lowest state Electoral College vote total.
Answer: _______________

Step 2. Find the highest state electoral college vote total.

Step 1. Find the number of ham pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 2. Find the number of ground beef pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 3. Find the number of bell pepper pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 4. Find the number of onion pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Name Scoring
Eddie Jones 20.1
Mario Elie 7.5
Antonio Davis 11.5
Karl Malone 25.5
Juwan Howard 14.9

Step 1. Determine the missing value on the vertical axis represented by [?].

Step 2. Determine the missing value on the vertical axis represented by [?].

Step 3. Create the bar representing the data for Karl Malone.

Step 4. Create the bar representing the data for Juwan Howard.

Step 1. Find the lowest per game scoring average for the six seasons shown.
Answer: _______________

Step 1. Find the number of the class containing the smallest number of house prices (1, 2, 3, 4, 5, or 6).
Answer: ____________________

Step 2. Find the lower class limit of the fifth class.
Answer: ____________________

Step 3. Find the class width for this histogram.
Answer: ____________________

Step 4. Find the number of houses being represented in this histogram.
Answer: ____________________

Step 1. Find the lower class boundary for the second class.
Answer: ____________________

Step 2. Find the upper class boundary for the third class.
Answer: ____________________

Step 3. Find the value that should be written at the location indicated by the [?] on the vertical axis of the graph.

Step 4. Find the value that should be written at the location indicated by the [?] on the horizontal axis of the graph.

Step 1. Determine the mean of the given data.
Answer: ____________________

Step 2. Determine the median of the given data.
Answer: ____________________

Body Temperatures (in ºF) of Adult Males
98.2 97.6 96.5 96.6 97.8
98.7 98.3 99.3 98.2 98.0
96.4 98.5 98.9 99.1 97.2
97.3 99.0 96.6 98.5 96.5

A) False the standard deviation can never be zero because it measures the distance from the mean and distances are always greater than zero.

B) True since the standard deviation is equal to the mean, all the data values must be zero.

C) False if the standard deviation is zero, then all of the data values are equal to the mean.

Based on the data and assuming these trends continue, which company would give Donna a stable long-term investment?

A) Perfect Plungers Plus the smaller standard deviation indicates that Perfect Plungers Plus has a greater mean closing price than Masterful Pocketwatches.

B) Masterful Pocketwatches the larger standard deviation indicates that Masterful Pocketwatches has less variability in its closing prices than Perfect Plungers Plus.

C) Perfect Plungers Plus the smaller standard deviation indicates that Perfect Plungers Plus has less variability in its closing prices than Masterful Pocketwatches.

Step 1. For each of the above sets of sample data, calculate the coefficient of variation, CV. Round to one decimal place.

CV for Data Set A: _______________%
CV for Data Set B: _______________%

Step 2. Which of the above sets of sample data has the larger spread?

Step 1. Based on the given information, determine if the following statement is true or false.
Approximately 64% of the salaries are above $29,700.

Step 2. Based on the given information, determine if the following statement is true or false.
Joe's salary of $34,430 is 1.10 standard deviations above the mean.

Step 3. Based on the given information, determine if the following statement is true or false.
The percentile rank of $25,800 is 50.

Step 4. Based on the given information, determine if the following statement is true or false.
Approximately 14% of the salaries are between $25,700 and $29,700.


Concept Review

A histogram is a graphic version of a frequency distribution. The graph consists of bars of equal width drawn adjacent to each other. The horizontal scale represents classes of quantitative data values and the vertical scale represents frequencies. The heights of the bars correspond to frequency values. Histograms are typically used for large, continuous, quantitative data sets. A frequency polygon can also be used when graphing large data sets with data points that repeat. The data usually goes on y-axis with the frequency being graphed on the X-eje. Time series graphs can be helpful when looking at large amounts of data for one variable over a period of time.