Artículos

7.1: Categorización de datos


Una vez que hayamos recopilado los datos, es posible que deseemos clasificarlos. En términos generales, los datos se pueden clasificar como datos categóricos o datos cuantitativos.

Datos cuantitativos y categóricos

  • Datos categóricos (cualitativos) son piezas de información que nos permiten clasificar los objetos bajo investigación en varias categorías.
  • Datos cuantitativos son respuestas que son de naturaleza numérica y con las que podemos realizar cálculos aritméticos significativos.

Ejemplo 3

Podríamos realizar una encuesta para determinar el nombre de la película favorita que cada persona en una clase de matemáticas vio en un cine.

Cuando realizamos una encuesta de este tipo, las respuestas se verían así: Buscando a Nemo, Hulk, o Terminator 3: Rise of the Machines. Podríamos contar el número de personas que dan cada respuesta, pero las respuestas en sí mismas no tienen ningún valor numérico: no podemos realizar cálculos con una respuesta como "Buscando a Nemo. "Estos serían datos categóricos.

Ejemplo 4

Una encuesta podría preguntar la cantidad de películas que ha visto en un cine en los últimos 12 meses (0, 1, 2, 3, 4, ...)

Estos serían datos cuantitativos.

Otros ejemplos de datos cuantitativos serían el tiempo de ejecución de la película que vio más recientemente (104 minutos, 137 minutos, 104 minutos, ...) o la cantidad de dinero que pagó por una entrada al cine la última vez que fue al cine. teatro ($ 5.50, $ 7.75, $ 9, ...).

A veces, determinar si los datos son categóricos o cuantitativos puede ser un poco más complicado.

Ejemplo 5

Supongamos que recopilamos los códigos postales de los encuestados en una encuesta para rastrear su ubicación geográfica.

Los códigos postales son números, pero no podemos hacer ningún cálculo matemático significativo con ellos (no tiene sentido decir que 98036 es "dos veces" 49018; eso es como decir que Lynnwood, WA es "dos veces" Battle Creek, MI, lo que no tiene ningún sentido), por lo que los códigos postales son datos realmente categóricos.

Ejemplo 6

Una encuesta sobre la película a la que asistió más recientemente incluye la pregunta "¿Cómo calificaría la película que acaba de ver?" con estas posibles respuestas:

1 - fue horrible
2 - estaba bien
3 - me gustó
4 - fue genial
5 - ¡la mejor película de la historia!

Una vez más, hay números asociados con las respuestas, pero realmente no podemos hacer ningún cálculo con ellos: una película que califica un 4 no es necesariamente el doble de buena que una película que califica un 2, sea lo que sea que eso signifique; si dos personas ven la película y una de ellas piensa que apesta y la otra piensa que es la mejor de todas, no necesariamente tiene sentido decir que "en promedio les gustó".

A medida que estudiamos los hábitos y preferencias de ir al cine, no debemos olvidar especificar la población en cuestión. Si encuestamos a niños de 3 a 7 años, el favorito fuera de control podría ser Buscando a Nemo. Los jóvenes de 13 a 17 años podrían preferir Terminator 3. Y las personas de 33 a 37 años podrían preferir ... bueno, Buscando a Nemo.

Pruébelo ahora 3

Clasifique cada medida como categórica o cuantitativa

  1. Color de ojos de un grupo de personas.
  2. Temperatura alta diaria de una ciudad durante varias semanas.
  3. Ingresos anuales
Respuesta
  1. Categórico
  2. Cuantitativo
  3. Cuantitativo

Apache Hadoop YARN en CDP Data Center 7.1: novedades y cómo actualizar

Esta publicación de blog cubrirá cómo los clientes pueden migrar clústeres y cargas de trabajo a la nueva plataforma de datos Cloudera y el centro de datos n. ° 8211 7.1 (CDP DC 7.1 en adelante), además de los aspectos más destacados de esta nueva versión.

CDP DC 7.1 es la versión local de Cloudera Data Platform.

Este nuevo producto combina lo mejor de Cloudera Distribution Hadoop y Hortonworks Data Platform Enterprise (CDH y HDP en adelante, respectivamente) junto con nuevas características y mejoras en toda la pila. Esta distribución unificada es una plataforma escalable y personalizable donde puede ejecutar de forma segura muchos tipos de cargas de trabajo. Para obtener una imagen completa de CDP DC 7.1, consulte la documentación.

Destacaremos las nuevas características de YARN que vienen con esta versión y también cubriremos una descripción general de cómo actualizar a CDP DC 7.1 desde las versiones CDH / HDP.


Propiedades de Google Analytics 4

Para las propiedades de Google Analytics 4 (versión que no es de Analytics 360), la retención de datos a nivel de usuario, incluidas las conversiones, se puede establecer en un máximo de 14 meses. Para todos los demás datos de eventos, puede elegir la duración de la retención:

El período de retención de dos meses siempre se aplica a los datos de edad, sexo e intereses, independientemente de su configuración.

Cuando aumenta el período de retención, se aplica a los datos que ya ha recopilado.

Tenga en cuenta que la configuración de retención de datos no afecta los informes agregados estándar en su propiedad de Google Analytics 4, incluso si crea comparaciones en los informes. La configuración de retención de datos solo afecta a los informes de Exploraciones.


7.1: Categorización de datos

      • Condición de la educación Recopilación de estadísticas de educación Proyecciones de estadísticas de educación Estudios de actualidad
      • Programa de Evaluación Nacional del Progreso Educativo (NAEP) para la Evaluación Internacional de las Competencias de Adultos (PIAAC)
      • Programa de Actividades Internacionales (IAP)
      • Estudio longitudinal de la primera infancia (ECLS) Encuesta nacional de educación en el hogar (NHES)
      • Núcleo común de datos (CCD) Programa de estudios longitudinales secundarios Educación Estimaciones demográficas y geográficas (EDGE) Encuesta nacional de maestros y directores (NTPS) más.
      • Programa de estadísticas de bibliotecas
      • Bachillerato y más allá (B & ampB) Estadísticas de educación técnica / profesional (CTES) Sistema integrado de datos de educación postsecundaria (IPEDS) Estudio nacional de ayuda estudiantil postsecundaria (NPSAS) más.
      • Estándares Comunes de Datos Educativos (CEDS) Foro Nacional de Estadísticas Educativas Programa de Subvenciones de Sistemas de Datos Longitudinales en todo el Estado - (SLDS)
      • Formación en conjuntos de datos de aprendizaje a distancia Programa de estándares estadísticos de la Cooperativa Nacional de Educación Postsecundaria (NPEC )más.
        • Proyecto EDAT Delta Cost Centro de datos IPEDS Cómo solicitar una licencia de uso restringido
        • Tablas ASC-ED Laboratorio de datos Sistema de información secundaria elemental Explorador internacional de datos Centro de datos IPEDS Explorador de datos NAEP
        • Panel de control ACS Navegador universitario Escuelas privadas Distritos escolares públicos Escuelas públicas Búsqueda de escuelas y universidades
        • Perfiles estatales de NAEP (Nationsreportcard.gov) Búsqueda de pares de finanzas del distrito de escuelas públicas Centro de estadísticas de finanzas de la educación Centro de datos IPEDS
        • Herramienta de preguntas NAEP Herramienta de preguntas NAAL
        • Panel de control de ACS-ED Mapas de ACS-ED Mapa de universidades Mapa de búsqueda de escala local EdSAFEMap Navegador de escuelas y distritos
        • Bibliografía Inventario de datos ED
        • Evaluaciones Primera infancia Primaria y secundaria Biblioteca Post secundaria y más allá Recursos
        • Blog de NCES Novedades de NCES Conferencias / FormaciónNoticias FlashOportunidades de financiación Comunicados de prensaStatChat
        • Buscar publicaciones y productos Informes anuales Licencias de datos de uso restringido
          Publicaciones recientes Por índice temático A-Z Por encuestas y áreas del programa amp Productos de datos Últimos 6 meses
        • Acerca de NCESComisionadoContacto NCESStaffAyuda

        ASUNTO: PRODUCTOS LEGIBLES A MÁQUINA

        PROPÓSITO: Para garantizar la utilidad de los archivos de datos creados por el personal y los contratistas de NCES, todos los archivos de datos de NCES deben ir acompañados de documentación de fácil acceso que describa claramente los metadatos necesarios para que los usuarios accedan y manipulen los datos.


        ESTÁNDAR 7-1-1:
        Los productos legibles por máquina deben publicarse en formato ASCII. Los productos legibles por máquina incluyen archivos planos, bases de datos relacionales y hojas de cálculo. Cada registro debe contener un identificador de caso único, como ID. Los archivos con varios registros por caso también deben contener identificadores únicos de tipo de registro (por ejemplo, número de registro, año de datos). Los archivos de datos deben estar en uno de los dos formatos aceptables:

        1. Formato de archivo delimitado, con citas de texto que se puede importar, o
        2. Archivos posicionales donde se identifican las ubicaciones de todas las variables (es decir, archivo, registro dentro del archivo y posición dentro del registro).

        DIRECTRIZ 7-1-1A: Se invita a los productores de datos a proporcionar conjuntos de datos adicionales en formatos alternativos que puedan ser útiles para los usuarios. Para obtener orientación sobre los formatos basados ​​en la web, consulte los estándares de publicación en la web pública de NCES. Solicite una copia enviando un correo electrónico a [email protected]

        DIRECTRIZ 7-1-1B: Para facilitar el intercambio y el uso de elementos de datos, las organizaciones de normalización nacionales e internacionales han elaborado borradores de varios estándares para la creación de metadatos sobre elementos de datos. Algunos ejemplos son el estándar de la Organización Internacional de Estándares & quotEspecificación y Estandarización de Elementos de Datos & quot (ISO / IEC 11179) y el más detallado Instituto Nacional Estadounidense de Estándares & quot Metadatos para la Gestión de Datos Compartibles & quot (ANSI X3.285) www.ansi.org. Estos estándares continúan perfeccionándose. Los productores de datos deben determinar qué estándares de metadatos están vigentes en el momento en que se preparan los archivos de datos y producir metadatos asociados para sus archivos que cumplan con los estándares aplicables.


        ESTÁNDAR 7-1-2: Se debe proporcionar una descripción de archivo y un diseño de registro para cada archivo. El encabezado de información / metadatos del archivo debe incluir lo siguiente:

        1. Título de la encuesta (nombre de la encuesta, parte y año, según corresponda)
        2. Nombre (s) de cada archivo
          para los datos
        3. Número de versión y fecha de lanzamiento
        4. Longitud del registro lógico (en archivos posicionales) o número de variables en el archivo (archivos delimitados)
        5. Número de registros por caso u observación y
        6. Número de casos en el archivo de datos. Para los archivos delimitados también incluya los delimitadores (por ejemplo, coma, espacio).


        ESTÁNDAR 7-1-3: Para cada variable del archivo, la descripción del archivo debe incluir lo siguiente:

        1. Nombre de la variable
        2. Tipo de datos (alfanumérico o alfanumérico)
        3. Número de registro (si hay varios registros por caso)
        4. Posición dentro del registro (principio-fin o número de variable si está delimitado) dentro del registro, longitud del campo y etiqueta de variable y
        5. Las categorías de redacción y respuesta de las preguntas de la encuesta.


        ESTÁNDAR 7-1-4: Las convenciones de nomenclatura de conjuntos de datos deben estar estandarizadas y deben cumplir con los estándares de la Organización de Seguridad de Sistemas de Información (ISSO) (o más recientes) para imprimir un CD, que actualmente requiere un nombre con el siguiente formato: & quotxxxxxxxx.xxx & quot.


        ESTÁNDAR 7-1-5: Las cubiertas de las cajas de joyas y los enlaces web o URL deben identificar el sistema de la encuesta (por ejemplo, HS & ampB, CCD), el componente, el año de la encuesta y el número de versión.


        ESTÁNDAR 7-1-6: Todas las variables deben estar claramente identificadas y descritas.

        1. La descripción de las variables debe incluir el universo de la variable.
        2. En el caso de las variables compuestas, la descripción debe identificar todos los elementos de la encuesta utilizados para construir las variables y debe incluir el algoritmo utilizado para construir las variables.
        3. Se deben utilizar etiquetas en mayúsculas y minúsculas que describan claramente las variables.
        4. Para todas las variables categóricas, cada valor debe estar asociado con una frecuencia, un porcentaje del total de casos y una etiqueta para cada categoría. En la documentación de archivos de uso público y de uso restringido, se deben incluir las frecuencias no ponderadas (consulte el Estándar 4-2-10 para los archivos de uso público sin ediciones de confidencialidad).
        5. Para todas las variables continuas, se debe proporcionar la distribución de valores (por ejemplo, mínimo, máximo, media y desviación estándar).

        DIRECTRIZ 7-1-6A: Los estándares FIPS deben usarse donde corresponda. Las definiciones y los códigos estándar de NCES deben usarse cuando corresponda (ver Estándar 1-4).

        DIRECTRIZ 7-1-6B: Los nombres de las variables deben ser consistentes en todas las encuestas dentro de un sistema de encuestas, dentro de los años y entre años.

        DIRECTRIZ 7-1-6C: En un archivo de diseño de registro imprimible, se debe especificar la longitud de la línea para que se imprima correctamente sin envolver y sin modificaciones especiales (por ejemplo, 72 caracteres, tipo de 12 puntos).


        ESTÁNDAR 7-1-7: La documentación del archivo de datos debe estar completa para todos los archivos de datos. Esto incluye un resumen o resumen que cita el informe de la metodología o las notas técnicas asociadas con la encuesta y una descripción de la metodología de la encuesta que es consistente con el estándar NCES para la documentación del sistema de encuestas (ver Estándar 3-4). En general, la documentación de la metodología de la encuesta para los archivos de datos debe incluir lo siguiente:

        1. Descripción de los métodos de recopilación de datos
        2. Procedimientos de ponderación e imputación
        3. Descripción de los indicadores de edición, resolución de errores e imputación
        4. Directrices para el procesamiento de datos
        5. El año de referencia de los datos
        6. Recuentos de frecuencia no ponderados y tasas de respuesta
        7. Información sobre cómo utilizar las ponderaciones replicadas o las UPM y el estrato para la estimación de la varianza y
        8. Procedimientos para usar ponderaciones para producir estimaciones.


        ESTÁNDAR 7-1-8: Deben utilizarse las siguientes convenciones de elementos de datos:

        1. Los campos numéricos deben contener solo números o espacios en blanco. Los códigos de reserva para campos numéricos deben ser valores extremos negativos (por ejemplo, más bajos que el valor real más bajo).
        2. & quot0 & quot debe representar ceros. Los espacios en blanco o & quot- & quot; no se pueden utilizar para representar ceros.
        3. Deben utilizarse valores únicos para distinguir entre omisiones legítimas y falta de respuesta.
        4. Los símbolos de supresión deben eliminarse de los campos numéricos y almacenarse en los campos & quotflag & quot asociados.
        5. Se deben usar ubicaciones de registro separadas para todos los elementos de datos.
        6. Los datos imputados deben marcarse en los campos & quotflag & quot asociados. Los métodos de imputación deben estar identificados en la bandera. Los espacios en blanco no son valores legítimos para las banderas.

        DIRECTRIZ 7-1-8A: Cuando sea práctico, los campos de datos numéricos que contienen variables continuas deben tener la misma longitud.


        Isoo Backup (Restaurar sistemas) v4.7.1.793 Portable

        Respaldo de Windows
        Isoo Backup ayuda a realizar una copia de seguridad de Windows de forma segura, incluidos los archivos del sistema, las aplicaciones instaladas, los sectores de inicio y la configuración del cliente en un archivo de imagen para que pueda restaurar la computadora cuando el sistema se ralentiza o no se inicia.

        Restauración del sistema
        Restaure el sistema desde una imagen de copia de seguridad anterior para resolver problemas del sistema como la pantalla azul, el sistema operativo no puede arrancar, la infección por virus, la inestabilidad del sistema, la velocidad de ejecución baja, el bloqueo del sistema, la pérdida de datos del sistema, etc.sin reinstalar Windows.

        Copia de seguridad de partición
        Isoo Backup le permite realizar copias de seguridad de particiones / volúmenes que no son del sistema. Todos los datos de la unidad seleccionada se empaquetarán en un solo archivo de imagen para protegerse contra la pérdida de datos causada por la corrupción de la partición o la eliminación accidental.

        Qué & # 8217s nuevo:
        1. Mejore la estabilidad de las opciones de arranque.
        2. Admite hardware nuevo.

        Requisitos del sistema:
        & # 8211 Todos los sistemas de servidor de windows y amp, 32 bits + 64 bits

        Tratamiento: Desempaquete y elija Portable para extraer o instalar, no se requiere activación, It & # 8217s ya está activado, siga el archivo readme, Run & amp Enjoy!

        ¡Las instrucciones de instalación / activación están incluidas en la carpeta!

        Torrent contiene:


        4. ¿Se le pidió que verificara su identidad? ¡No envíe más de lo realmente necesario!

        A menudo, un controlador puede pedirle que verifique su identidad. Esto está en línea con las leyes de protección de datos y puede ayudar a garantizar que los datos personales, especialmente los de categoría especial, se entreguen a la persona correcta. Lo último que alguien quiere al responder a un DSAR es una filtración de datos. Sin embargo, los controladores no tienen poderes ilimitados cuando se trata de lo que pueden exigirle para verificar su identidad; debe ser proporcionado.

        Por ejemplo, un controlador podría pedirle que proporcione una copia de su pasaporte para verificar su identificación, a pesar de que no está en posesión de ese documento en primer lugar. Nota: proporcionar un pasaporte puede que Ser un paso proporcionado, si, por ejemplo, su nombre completo y fecha de nacimiento es un identificador esencial y el controlador quiere asegurarse de que usted es quien dice ser. Pero en muchos casos, no debería ser necesario.

        Si bien depende totalmente de usted si desea proporcionar a estas empresas un documento que podrían no tener en primer lugar, es importante asegurarse de que se sienta cómodo al enviar una copia de su identificación o pasaporte. En caso de que no lo haga, creemos que aún debería poder obtener acceso a sus datos personales, por lo que le sugerimos que se comunique con la empresa para sugerir formas alternativas y razonables de, si es posible, verificar su identidad.

        Si está de acuerdo con enviar una copia de documentos oficiales como pasaportes o tarjetas de identificación (nunca envíe el documento real), considere la posibilidad de redactar cualquier parte que sea innecesaria para fines de verificación y conserve solo las pertinentes.


        Consulte las tablas de la sección "Resolución del problema" para ver una asignación entre la versión del transportador de datos y la versión VDDK de VMware y los sistemas operativos del transportador de datos compatibles.

        El objetivo de este documento es proporcionar detalles útiles sobre las versiones de vSphere y del sistema operativo compatibles para VMware VDDK SDK. Las tablas siguientes enumeran los sistemas operativos que deben usarse en el servidor donde instala el transportador de datos y las versiones de vCenter Server / ESXi. Las tablas también proporcionan enlaces a las notas de la versión más recientes de VMware VDDK.

        Atención: Los documentos de requisitos de hardware y software de IBM Spectrum Protect ™ para entornos virtuales son la fuente oficial de información sobre las versiones soportadas y reemplazan las versiones soportadas de vSphere y OS enumeradas en las notas de la versión de VDDK. Utilice esta nota técnica sobre requisitos de hardware y software como guía definitiva para determinar los requisitos de hardware y software para Data Protection for VMware. Los enlaces a estos documentos se pueden encontrar en el "IBM Spectrum Protect ™ for Virtual Environments - All Requirements Doc" http://www.ibm.com/support/docview.wss?uid=swg21505139

        Propina: A partir de la versión 7.1.3, IBM Tivoli Storage Manager para entornos virtuales ahora es IBM Spectrum Protect para entornos virtuales. Algunas aplicaciones, como los sistemas de cumplimiento de software y IBM License Metric Tool, utilizan el nuevo nombre de producto. Sin embargo, el software y la documentación del producto siguen utilizando el nombre de producto de Tivoli Storage Manager. Para obtener más información sobre la transición de cambio de marca, consulte http://www.ibm.com/support/docview.wss?uid=swg21963634.

        Atención: Los hosts ESXi 5.1 deben estar en la Actualización 3 o un parche o nivel de actualización más reciente. Los hosts ESXi 5.5 deben tener el parche 4 o un parche o nivel de actualización más reciente. Estos niveles de requisitos previos abordan un problema crítico de integridad de VMware Changed Block Tracking (CBT) descrito en VMware KB http://kb.vmware.com/kb/2090639

        Atención: VDDK 6.7.0 EP1 Update 1 incluye el parche que corrige el problema conocido "El transporte NBD en VDDK 6.7 es lento cuando se ejecuta contra vSphere 6.5" que se enumera en las notas de la versión VDDK 6.7.0 EP1.


        7.1.3. Agrupar datos categóricos¶

        Para construir el helado de mesa, alguien tuvo que mirar las 30 cajas de helado y contar el número de cada sabor. Pero si nuestros datos no incluyen frecuencias, tenemos que calcular las frecuencias antes de poder dibujar un gráfico de barras. Aquí hay un ejemplo donde esto es necesario.

        El tablero está compuesto por las películas más taquilleras de todos los tiempos en EE. UU. La primera columna contiene el título de la película. Star Wars: El despertar de la fuerza ocupa el primer lugar, con un monto bruto de taquilla de más de 900 millones de dólares en Estados Unidos. La segunda columna contiene el nombre del estudio que produjo la película. El tercero contiene la taquilla nacional bruta en dólares, y el cuarto contiene la cantidad bruta que se habría ganado con la venta de entradas a precios de 2016. El quinto contiene el año de estreno de la película.

        Hay 200 películas en la lista. Aquí están los diez primeros según los ingresos brutos sin ajustar.

        Título Estudio Bruto Bruto (ajustado) Año
        Star Wars: El despertar de la fuerza Buena Vista (Disney) 906723418 906723400 2015
        Avatar zorro 760507625 846120800 2009
        Titánico Supremo 658672302 1178627900 1997
        mundo Jurasico Universal 652270625 687728000 2015
        los Vengadores de Marvel Buena Vista (Disney) 623357910 668866600 2012
        El caballero oscuro Warner Bros. 534858444 647761600 2008
        Star Wars: Episodio I - La amenaza fantasma zorro 474544677 785715000 1999
        Guerra de las Galaxias zorro 460998007 1549640500 1977
        Los Vengadores: La era de Ultron Buena Vista (Disney) 459005868 465684200 2015
        El caballero oscuro se levanta Warner Bros. 448139099 500961700 2012

        La subsidiaria de Disney, Buena Vista, aparece con frecuencia entre los diez primeros, al igual que Fox y Warner Brothers. ¿Qué estudios aparecerán con más frecuencia si miramos entre las 200 filas?

        Para resolver esto, primero tenga en cuenta que todo lo que necesitamos es una tabla con las películas y los estudios, la otra información es innecesaria.

        El grupo del método Table nos permite contar con qué frecuencia aparece cada estudio en la tabla, llamando a cada estudio una categoría y asignando cada fila a una categoría. El método de grupo toma como argumento la etiqueta de la columna que contiene las categorías y devuelve una tabla de recuentos de filas en cada categoría. La columna de recuentos siempre se llama recuento, pero puede cambiar eso si lo desea utilizando reetiquetado.

        Estudio contar
        AVCO 1
        Buena Vista (Disney) 29
        Columbia 10
        Disney 11
        Dreamworks 3
        zorro 26
        IFC 1
        Lionsgate 3
        MGM 7
        MPC 1

        Así, el grupo crea una tabla de distribución que muestra cómo se distribuyen las películas entre las categorías (estudios).

        Ahora podemos usar esta tabla, junto con las habilidades gráficas que adquirimos anteriormente, para dibujar un gráfico de barras que muestre qué estudios son más frecuentes entre las 200 películas más taquilleras.

        Warner Brothers y Buena Vista son los estudios más comunes entre las 200 mejores películas. Warner Brothers produce las películas de Harry Potter y Buena Vista produce Star Wars.

        Debido a que los ingresos brutos totales se miden en dólares no ajustados, no es de extrañar que las mejores películas sean más frecuentes de años recientes que de décadas pasadas. En términos absolutos, las entradas al cine cuestan más ahora que antes y, por lo tanto, los ingresos brutos son más altos. Esto se ve confirmado por un gráfico de barras que muestra la distribución de las 200 películas por año de lanzamiento.

        Todas las barras más largas corresponden a años posteriores al 2000. Esto es consistente con nuestra observación de que los últimos años deberían estar entre los más frecuentes.


        Verificación de hechos: datos falsos sobre las tasas de asesinatos raciales en EE. UU.

        Los usuarios de las redes sociales comparten una imagen que presenta datos engañosos sobre las tasas de homicidios en blanco y negro. Según los datos existentes del gobierno de EE. UU., Todas las cifras son falsas.

        La imagen alega, por ejemplo, que el 81% de las víctimas blancas de asesinato son asesinadas por negros. Los datos del FBI y del Departamento de Justicia de los Estados Unidos muestran, por el contrario, que más del 80% de las víctimas blancas de asesinatos son asesinadas por blancos.

        Las publicaciones con el reclamo son visibles aquí, aquí y aquí.

        La imagen enumera las siguientes categorías: "blancos matando a negros 2%", "policía matando a blancos 3%", "blancos matando a blancos 16%", "negros matando a blancos 81%", "policía matando a negros 1%" y "negros matando negros 97% ”. No se especifican fechas y los datos se atribuyen a "estadísticas de Wikipedia".

        En la sección "Homicidio" de la entrada Raza y crimen en los Estados Unidos de Wikipedia aquí, el sitio cita un informe del Departamento de Justicia de los Estados Unidos visible aquí (consulte la página 13). El informe, que analiza las tendencias de homicidios en los Estados Unidos entre 1980 y 2008, encontró que dentro de ese período "la mayoría de los asesinatos fueron intraraciales", con el 84% de las víctimas blancas asesinadas por blancos y el 93% de las víctimas negras asesinadas por perpetradores negros.

        Según los datos de homicidios ampliados del FBI de 2018, el informe más reciente de este tipo que Reuters pudo encontrar (aquí), el 80,7% de los asesinatos de personas blancas fueron cometidos por delincuentes blancos (2.677 de un total de 3.315) mientras que el 15,5% de los asesinatos de blancos fueron cometidos por delincuentes negros (514).

        La publicación en las redes sociales también alega que los delincuentes blancos cometieron el 2% de los asesinatos de víctimas negras. Según los datos del FBI, el 8% de los asesinatos denunciados de personas negras fueron cometidos por delincuentes blancos (234 de un total de 2.925) y el 88,9% por delincuentes negros (2.600).

        Los datos del FBI de 2017 también siguen esta tendencia: el 80,2% de las víctimas blancas fueron asesinadas por delincuentes blancos, el 8,9% de las víctimas negras fueron asesinadas por blancos, el 88,5% de las víctimas negras fueron asesinadas por negros y el 16,1% de los blancos fueron asesinados por negros ( aquí ).

        Una verificación de hechos de Reuters visible aquí muestra que los datos del FBI para 2013 también mantuvieron esta tendencia.


        ¿Qué es la clasificación de datos? Una definición de clasificación de datos

        Conozca los diferentes tipos de clasificación y cómo clasificar eficazmente sus datos en Data Protection 101, nuestra serie sobre los fundamentos de la seguridad de los datos.

        Una definición de clasificación de datos

        La clasificación de datos se define ampliamente como el proceso de organizar los datos por categorías relevantes para que puedan usarse y protegerse de manera más eficiente. En un nivel básico, el proceso de clasificación hace que los datos sean más fáciles de localizar y recuperar. La clasificación de datos es de particular importancia cuando se trata de la gestión de riesgos, el cumplimiento y la seguridad de los datos.

        La clasificación de datos implica etiquetar los datos para que sean fáciles de buscar y rastrear. También elimina múltiples duplicaciones de datos, lo que puede reducir los costos de almacenamiento y respaldo mientras acelera el proceso de búsqueda. Aunque el proceso de clasificación puede parecer muy técnico, es un tema que debe ser entendido por el liderazgo de su organización.

        Razones para la clasificación de datos

        La clasificación de datos ha mejorado significativamente con el tiempo. Hoy en día, la tecnología se utiliza para una variedad de propósitos, a menudo en apoyo de iniciativas de seguridad de datos. Pero los datos pueden clasificarse por varias razones, incluida la facilidad de acceso, el mantenimiento del cumplimiento normativo y el cumplimiento de otros objetivos comerciales o personales. En algunos casos, la clasificación de datos es un requisito reglamentario, ya que los datos deben poder buscarse y recuperarse dentro de plazos específicos. A los efectos de la seguridad de los datos, la clasificación de datos es una táctica útil que facilita las respuestas de seguridad adecuadas en función del tipo de datos que se recuperan, transmiten o copian.

        Tipos de clasificación de datos

        La clasificación de datos a menudo implica una multitud de etiquetas y rótulos que definen el tipo de datos, su confidencialidad y su integridad. La disponibilidad también puede tenerse en cuenta en los procesos de clasificación de datos. El nivel de sensibilidad de los datos a menudo se clasifica en función de diferentes niveles de importancia o confidencialidad, que luego se correlaciona con las medidas de seguridad implementadas para proteger cada nivel de clasificación.

        Hay tres tipos principales de clasificación de datos que se consideran estándares de la industria:

        • Contenido-basada en la clasificación inspecciona e interpreta archivos en busca de información confidencial
        • Contexto-la clasificación basada en la aplicación, la ubicación o el creador, entre otras variables, como indicadores indirectos de información confidencial
        • UsuarioLa clasificación basada en datos depende de una selección manual por parte del usuario final de cada documento. La clasificación basada en el usuario se basa en el conocimiento y la discreción del usuario al crear, editar, revisar o difundir para marcar documentos confidenciales.

        Los enfoques basados ​​en el contenido, el contexto y el usuario pueden ser correctos o incorrectos según la necesidad empresarial y el tipo de datos.

        Determinación del riesgo de datos

        Además de los tipos de clasificación, es aconsejable que una organización determine el riesgo relativo asociado con los tipos de datos, cómo se manejan esos datos y dónde se almacenan / envían (puntos finales). Una práctica común es separar los datos y los sistemas en tres niveles de riesgo.

        • Riesgo bajo: si los datos son públicos y no es fácil perderlos permanentemente (por ejemplo, la recuperación es fácil), esta recopilación de datos y los sistemas que la rodean probablemente tengan un riesgo menor que otros.
        • Riesgo moderado: Básicamente, se trata de datos que no son públicos o que se utilizan internamente (por su organización y / o socios). Sin embargo, tampoco es probable que sea demasiado crítico para las operaciones ni sensible a ser de "alto riesgo". Los procedimientos operativos patentados, el costo de los bienes y cierta documentación de la empresa pueden caer en la categoría moderada.
        • Alto riesgo: todo lo que sea remotamente sensible o crucial para la seguridad operativa entra en la categoría de alto riesgo. Además, datos que son extremadamente difíciles de recuperar (si se pierden). Todos los datos confidenciales, sensibles y necesarios entran en una categoría de alto riesgo.

        Nota: Algunos también usan una escala más granular, agregando riesgo "severo" u otras categorías para ayudar a diferenciar aún más los datos.

        Usando una matriz de clasificación de datos

        La creación y el etiquetado de datos puede resultar fácil para algunas organizaciones. Si no hay una gran cantidad de tipos de datos o quizás su empresa tiene menos transacciones, determinar el riesgo de los datos y sus sistemas probablemente sea menos difícil. Dicho esto, es probable que muchas organizaciones que manejan un gran volumen o múltiples tipos de datos necesiten una forma integral de determinar su riesgo. Para esto, muchos usan una "matriz de clasificación de datos".

        La creación de una matriz de clasificación de datos y / o sistemas a partir de la probabilidad de que se vean comprometidos y de la confidencialidad de los datos le ayudará a determinar rápidamente cómo clasificar y proteger mejor todas las cosas confidenciales.

        Un ejemplo de clasificación de datos

        Una organización puede clasificar los datos como restringidos, privados o públicos. En este caso, los datos públicos representan los datos menos sensibles con los requisitos de seguridad más bajos, mientras que los datos restringidos están en la clasificación de seguridad más alta y representan los datos más sensibles. Este tipo de clasificación de datos suele ser el punto de partida para muchas empresas, seguido de procedimientos adicionales de identificación y etiquetado que etiquetan los datos en función de su relevancia para la empresa, la calidad y otras clasificaciones. Los procesos de clasificación de datos más exitosos emplean procesos y marcos de seguimiento para mantener los datos confidenciales donde pertenecen.

        El proceso de clasificación de datos

        La clasificación de datos puede ser un proceso complejo y engorroso. Los sistemas automatizados pueden ayudar a agilizar el proceso, pero una empresa debe determinar las categorías y los criterios que se utilizarán para clasificar los datos, comprender y definir sus objetivos, delinear las funciones y responsabilidades de los empleados en el mantenimiento de protocolos de clasificación de datos adecuados e implementar estándares de seguridad que corresponder con las categorías de datos y las etiquetas. Cuando se realiza correctamente, este proceso proporcionará a los empleados y terceros involucrados en el almacenamiento, transmisión o recuperación de datos con un marco operativo. El videoclip a continuación brinda técnicas para clasificar datos confidenciales y es de nuestro seminario web, Cómo la clasificación define su estrategia de seguridad de datos, que es presentado por Garrett Bekker, analista sénior de seguridad de la información en 451 Research. Puede ver el seminario web completo aquí.

        Las políticas y los procedimientos deben estar bien definidos, tener en cuenta los requisitos de seguridad y la confidencialidad de los tipos de datos, y ser lo suficientemente sencillos como para que los empleados que promueven el cumplimiento puedan interpretarlos fácilmente. Por ejemplo, cada categoría debe incluir información sobre los tipos de datos incluidos en la clasificación, consideraciones de seguridad con reglas para recuperar, transmitir y almacenar datos y los riesgos potenciales asociados con una violación de las políticas de seguridad.

        Clasificación de datos GDPR

        Con el Reglamento General de Protección de Datos (GDPR) en vigor, la clasificación de datos es más imperativa que nunca para las empresas que almacenan, transfieren o procesan datos pertenecientes a ciudadanos de la UE. Es fundamental que estas empresas clasifiquen los datos para que todo lo que esté cubierto por el RGPD sea fácilmente identificable y se puedan tomar las precauciones de seguridad adecuadas.

        Además, GDPR proporciona una protección elevada para ciertas categorías de datos personales. Por ejemplo, GDPR prohíbe explícitamente el procesamiento de datos relacionados con el origen racial o étnico, opiniones políticas y creencias religiosas o filosóficas. La clasificación de dichos datos en consecuencia puede reducir significativamente el riesgo de problemas de cumplimiento.

        Pasos para una clasificación de datos eficaz

        • Comprender la configuración actual: Una mirada detallada a la ubicación de los datos actuales y todas las regulaciones que pertenecen a su organización es quizás el mejor punto de partida para clasificar los datos de manera efectiva. Debe saber qué datos tiene antes de poder clasificarlos.
        • Creación de una política de clasificación de datos: Cumplir con los principios de protección de datos en una organización es casi imposible sin una política adecuada. La creación de una política debe ser su máxima prioridad.
        • Priorizar y organizar datos: Ahora que tiene una política y una imagen de sus datos actuales, es hora de clasificar los datos correctamente. Decida la mejor manera de etiquetar sus datos en función de su confidencialidad y privacidad.

        La clasificación de datos tiene más beneficios que simplemente hacer que los datos sean más fáciles de encontrar. La clasificación de datos es necesaria para que las empresas modernas puedan comprender la gran cantidad de datos disponibles en un momento dado.

        La clasificación de datos proporciona una imagen clara de todos los datos dentro del control de una organización y una comprensión de dónde se almacenan los datos, cómo acceder a ellos fácilmente y la mejor manera de protegerlos de posibles riesgos de seguridad. Una vez implementada, la clasificación de datos proporciona un marco organizado que facilita medidas de protección de datos más adecuadas y promueve el cumplimiento de las políticas de seguridad por parte de los empleados.


        Ver el vídeo: Categorización de datos (Octubre 2021).