Artículos

11. Variables aleatorias, PDF y valor esperado


Los siguientes temas se incluyen en esta serie de seis videos.

  1. Introducción a las variables aleatorias
  2. RV, PDF y EV, definiciones y ejemplo 1
  3. RV, PDF y EV, ejemplo 2
  4. RV, PDF y EV, ejemplo 3 (con combinaciones)
  5. RV, PDF y EV, ejemplo 4 (con un diagrama de Venn)
  6. RV, PDF y EV, ejemplo 5 (con un proceso de Bernoulli)

Trabajo previo

  1. En cada reunión de un club, se selecciona una persona para sacar un "número de la suerte". Esa persona obtiene la cantidad en dólares del número extraído. La caja contiene 30 tarjetas con el número 1, 14 tarjetas con el número 4, tres tarjetas con el número 10, dos tarjetas con el número 20 y una tarjeta con el número 50. Sea la variable aleatoria los números de las tarjetas. Determine el PDF de X.

  2. Un experimentador selecciona al azar a dos personas de un grupo de 5 hombres y 4 mujeres. Una variable aleatoria X es el número de mujeres seleccionadas. Encuentre la función de densidad de probabilidad de X y el valor esperado de X.

  3. La probabilidad de que una persona posea un Iphone es del 55%. Suponga que se encuesta a 200 personas elegidas al azar. ¿Cuál es el número esperado de personas que poseen un Iphone?

Soluciones

  1. Hacemos el PDF a continuación.
    SalirXProbabilidad
    sacar una carta con un 11 ( frac {30} {50} )
    sacar una carta con un 44 ( frac {14} {50} )
    sacar una carta con un 1010 ( frac {3} {50} )
    sacar una carta con un 2020 ( frac {2} {50} )
    sacar una carta con un 5050 ( frac {1} {50} )
  2. El PDF se proporciona en las primeras tres columnas a continuación, con una columna adicional para que podamos calcular el valor esperado.

    SalirXProbabilidadProducto
    0 mujeres, 2 hombres0 ( frac {C (4,0) C (5,2)} {C (9,2)} = frac {10} {36} )0
    1 mujer, 1 hombre1 ( frac {C (4,1) C (5,1)} {C (9,2)} = frac {20} {36} ) ( frac {20} {36} )
    2 mujeres, 0 hombres2 ( frac {C (4,2) C (5,0)} {C (9,2)} = frac {6} {36} ) ( frac {12} {36} )

    Sumamos las entradas en la columna final para obtener que (E [X] = frac {32} {36} = frac {8} {9} ).

  3. Sea (X = ) el número de personas encuestadas que sí tienen un Iphone. Entonces (X ) es el número de éxitos en un proceso de Bernoulli, entonces (E [X] = np = 200 cdot .55 = 110 ).


Matemáticas 213Introducción a las matemáticas discretas Sección F1

Temas para la final: 1. Conjuntos, producto cartesiano de conjuntos. Establecer operaciones e identidades. 2. Funciones, funciones inversas. Algoritmos, algoritmos codiciosos. 3. Algoritmos de clasificación: clasificación de burbujas, clasificación de inserción, clasificación de combinación, clasificación de torneo. 4. Crecimiento de funciones, notación de gran Oh. 5. Inducción matemática. 6. Secuencias y sumatoria. Progresiones aritméticas y geométricas. 7. Principio del casillero. 8. Colocar bolas indistinguibles en cajas distintas. 9. El teorema del binomio y algunos corolarios. Identidad Pascal y Triángulo. Identidad de Vandermonde. 10. Probabilidad para espacios muestrales finitos: propiedades elementales. 11. Variables aleatorias y sus valores esperados. Linealidad de expectativas. 12. Relaciones de recurrencia (Secciones 6.1 a 6.2). 13. Principio de inclusión-exclusión y sus aplicaciones (Secciones 6.5 a 6.6). 14. Relaciones y sus propiedades (Sección 7.1). 15. Representar relaciones (Sección 7.3). 16. Relaciones de equivalencia (Sección 7.5). 17. Nociones gráficas (Secciones 8.1, 8.2). 18. Graficar isomorfismo y representar gráficas (Sección 8.3). 19. Rutas y circuitos de Euler y Hamilton (Sección 8.5). 20. El problema de la ruta más corta, algoritmo de Dijkstra. Problema del vendedor ambulante (sección 8.6). 21. Algoritmo de Floyd-Warshall (un folleto). 22. Gráficas planas: fórmula de Euler, teorema de Kuratowski (sección 8.7). 23. Definiciones y propiedades de árboles, caracterizaciones de árboles (Sección 9.1). 24. Árboles de expansión mínimos: algoritmos de Prim y Kruskal (Sección 9.5). 25. Árboles de búsqueda binaria. Códigos de prefijo, codificación Huffman (Sección 9.2). 26. Emparejamientos estables (un folleto).


Media y varianza de variables aleatorias

La media de una variable aleatoria proporciona el promedio a largo plazo de la variable o el resultado promedio esperado en muchas observaciones.

Ejemplo

La ley de los números grandes establece que la media aleatoria observada de un número cada vez mayor de observaciones de una variable aleatoria siempre se acercará a la media de distribución. Es decir, a medida que aumenta el número de observaciones, la media de estas observaciones se acercará cada vez más a la media verdadera de la variable aleatoria. Sin embargo, esto no implica que los promedios a corto plazo reflejen la media.

En el ejemplo de juego anterior, suponga que una mujer juega el juego cinco veces, con los resultados .00, - $ 1.00, .00, .00, - $ 1.00. Ella podría asumir, dado que la verdadera media de la variable aleatoria es .80, que ganará los próximos juegos para "compensar" el hecho de que ha estado perdiendo. Desafortunadamente para ella, esta lógica no tiene base en la teoría de la probabilidad. La ley de los grandes números no se aplica a una serie corta de eventos, y sus posibilidades de ganar el próximo juego no son mejores que si hubiera ganado el juego anterior.

Propiedades de los medios

Ejemplo

Supongamos que el casino decide que el juego no tiene un premio mayor lo suficientemente impresionante con los pagos más bajos y decide duplicar todos los premios, de la siguiente manera: Ahora la media es (-4 * 0.3) + (-2 * 0.4) + (4 * 0,2) + (8 * 0,1) = -1,2 + -0,8 + 0,8 + 0,8 = -0,4. Esto equivale a multiplicar el valor anterior de la media por 2, aumentando las ganancias esperadas del casino a 40 centavos.

En general, la diferencia entre el valor original de la media (0,8) y el nuevo valor de la media (-0,4) se puede resumir en (0,8 - 1,0) * 2 = -0,4. La media de la suma de dos variables aleatorias X e Y es la suma de sus medias:

Por ejemplo, suponga que un casino ofrece un juego de apuestas cuyas ganancias medias son -.20 por jugada y otro juego cuyas ganancias medias son -.10 por jugada. Entonces, las ganancias medias para un individuo que juega simultáneamente ambos juegos por jugada son -.20 + -.10 = -.30.

Diferencia

La desviación estándar es la raíz cuadrada de la varianza.

Ejemplo

Propiedades de las variaciones

Dado que la extensión de la distribución no se ve afectada al sumar o restar una constante, no se considera el valor a. Y, dado que la varianza es una suma de términos al cuadrado, cualquier valor de multiplicador b también debe elevarse al cuadrado al ajustar la varianza.

Ejemplo

Las varianzas se suman tanto para la suma como para la diferencia de dos variables aleatorias independientes porque la variación en cada variable contribuye a la variación en cada caso. Si las variables no son independientes, entonces la variabilidad en una variable está relacionada con la variabilidad en la otra. Por esta razón, es posible que la varianza de su suma o diferencia no se calcule utilizando la fórmula anterior.

Por ejemplo, suponga que la cantidad de dinero (en dólares) que un grupo de personas gasta en el almuerzo está representada por la variable X, y la cantidad de dinero que el mismo grupo de personas gasta en la cena está representada por la variable Y. La varianza de la suma X + Y no se puede calcular como la suma de las varianzas, ya que X e Y no se pueden considerar como variables independientes.


11.3 Rendimiento listo para usar

Los bosques aleatorios se han vuelto populares porque tienden a proporcionar un rendimiento muy bueno desde el primer momento. Aunque tienen varios hiperparámetros que se pueden ajustar, los valores predeterminados tienden a producir buenos resultados. Además, Probst, Bischl y Boulesteix (2018) ilustraron que, entre los algoritmos de aprendizaje automático más populares, los bosques aleatorios tienen la menor variabilidad en su precisión de predicción al ajustar.

Por ejemplo, si entrenamos un modelo de bosque aleatorio 30 con todos los hiperparámetros configurados en sus valores predeterminados, obtenemos un OOB RMSE que es mejor que cualquier modelo que hayamos ejecutado hasta ahora (sin ningún ajuste).


Más cálculo lognormal

Esta publicación presenta más ejemplos de cálculo para distribución logarítmica normal, complementando y complementando publicaciones anteriores sobre distribución logarítmica normal. Aquí se encuentra un conjunto de problemas de práctica.

Aquí se encuentra una introducción básica de la distribución logarítmica normal, con un conjunto adjunto de problemas de práctica que se encuentran aquí.

Aquí se encuentra un análisis adicional del modelo logarítmico normal, utilizándolo como modelo de precios de valores.

Percentiles lognormales

Si se conocen la media y la varianza, la distribución normal está completamente determinada. Asimismo, conociendo la media y la varianza, la distribución logarítmica normal es fija. También es el caso que dados dos percentiles, se puede determinar la distribución logarítmica normal. El siguiente ejemplo muestra que dados dos percentiles logarítmicos normales, se pueden determinar los parámetros y. Pueden usarse para calcular cualquier otra cantidad de distribución, como otro percentil.

Ejemplo 1
Suponga que la variable aleatoria sigue una distribución logarítmica normal tal que su percentil 90 es 95,88059 y su percentil 99 es 774,87305. Determina su percentil 95.

Los percentiles normales 90, 95 y 99 son:

donde es el percentil 90 de la distribución normal estándar, etc. Los percentiles logarítmicos normales se obtienen elevando a los percentiles normales. Primero resolvemos el problema usando valores de tabla para los percentiles normales estándar. También damos las respuestas usando la calculadora TI84 +.

Primero, usamos valores de tablas y. Comenzamos con las siguientes ecuaciones.

Dividimos la segunda ecuación por la primera, obtenemos:

Tomando el logaritmo natural de ambos lados de (3), obtenemos:

Conectando a (1), obtenemos lo siguiente:

De (5) y (7), tomamos y. El percentil 95 logarítmico normal es:

Para obtener una respuesta más precisa, usamos percentiles normales de la calculadora TI84 +:, y. Pasando por la misma serie de cálculos de (1) a (8), obtenemos:

Ordenar estadísticas de muestras lognormales

Usamos una distribución logarítmica normal específica para demostrar el concepto. Supongamos que sigue una distribución logarítmica normal con parámetros y. Extraemos una muestra aleatoria de tamaño 11 de esta población. Clasificamos los 11 elementos de la muestra del más pequeño al más grande. Los resultados clasificados están etiquetados. En este ejemplo, es el mínimo de la muestra, es la mediana de la muestra y es el máximo de la muestra. En este ejemplo, es la estadística de orden de dónde.

Una herramienta importante para aprender acerca de las estadísticas de pedidos es a través de sus funciones de densidad y funciones de densidad conjunta. Cuando la muestra aleatoria se extrae de una población logarítmica normal, las funciones de densidad de las estadísticas de orden, aunque pueden derivarse, no son fáciles de utilizar para el cálculo. Sin embargo, aún podemos evaluar declaraciones de probabilidad sobre las estadísticas de orden usando un cálculo binomial (cuando involucra solo una estadística de orden) o un cálculo multinomial (cuando involucra 2 o más estadísticas de orden).

El enfoque multinomial que usamos aquí se analiza en esta publicación anterior. La única diferencia es que las muestras aleatorias discutidas aquí se extraen de la distribución logarítmica normal. Aquí se encuentra un conjunto de problemas de práctica para el enfoque multinomial. Aquí se encuentra otro conjunto de problemas prácticos para las estadísticas de pedidos.

Demostramos con ejemplos utilizando la muestra aleatoria de tamaño 11 extraída la distribución logarítmica normal con y, indicada anteriormente.

Ejemplo 2
Suponga que la variable aleatoria tiene una distribución logarítmica normal con parámetros y. Se extrae una muestra aleatoria de tamaño 11 de la población representada por. Representemos las estadísticas de orden correspondientes. Evalúe las siguientes probabilidades.

Aquí, está el estadístico de quinto orden, que es el quinto elemento de muestra más pequeño en la muestra aleatoria, mientras que es el estadístico de noveno orden en la muestra aleatoria. Antes de evaluar estas probabilidades, evaluamos las probabilidades y.

Las probabilidades anteriores y se basan en la tabla normal estándar. Ahora traducimos el enunciado de probabilidad en una probabilidad binomial. Para que el evento suceda, debe haber al menos 5 elementos de muestra que sean menos de 2.5.

Tenga en cuenta que . Para que suceda el evento, al menos 9 elementos de muestra son menores o iguales que 4.

Para obtener respuestas más precisas, utilice y en el cálculo anterior (de TI84 +). Conectar estos valores producirá lo siguiente:

Existe alrededor de un 56% de probabilidad de que en una muestra aleatoria de tamaño 11 de esta población logarítmica normal, el quinto elemento de muestra más pequeño sea inferior a 2,5. Por otro lado, existe un 45% de probabilidad de que el tercer elemento de muestra más grande sea mayor que 4.

Ejemplo 3
Como se discutió anteriormente, la distribución logarítmica normal tiene parámetros y se extrae una muestra aleatoria de tamaño 11. Las estadísticas del pedido son. Evalúe las siguientes probabilidades:

Trabajamos las dos primeras probabilidades en este ejemplo. Los dos restantes se realizan en el siguiente ejemplo.

Estas probabilidades involucran estadísticas de 2 o más órdenes. Una forma de evaluar estas probabilidades es obtener la función de densidad conjunta apropiada y luego integrar la densidad conjunta en una región apropiada. Como se mencionó anteriormente, el enfoque que adoptamos aquí es el enfoque multinomial.

Toma la primera probabilidad. La muestra aleatoria de tamaño 11 puede verse como un experimento multinomial. Hay tres intervalos a considerar & # 8211, y. Cada uno de los 11 muestreos aleatorios cae en uno y exactamente uno de estos tres intervalos. Las probabilidades de que un elemento de la muestra caiga en estos intervalos son:

Estas probabilidades se calculan en el Ejemplo 2. El experimento consiste en tomar muestras de la distribución logarítmica normal con y 11 veces. Cada elemento de la muestra aleatoria cae en uno de estos intervalos y con probabilidades de 0,4325, 0,3469 y 0,2206, respectivamente. Para que el evento suceda, 5 de los elementos de la muestra deben caer dentro, 3 de los elementos de la muestra deben estar dentro y 3 de los elementos de la muestra deben estar dentro. Considere la siguiente probabilidad multinomial:

Cuando las probabilidades, y se obtienen usando TI84 +, tenemos la siguiente respuesta a.

Ahora trabajamos la segunda probabilidad. Para que ocurra el evento, 5 o 6 elementos de muestra son menos de 2.5. Debemos dar cuenta de estos 2 casos.

Cuando las probabilidades, y se obtienen usando TI84 +, tenemos la siguiente respuesta a.

Ejemplo 4
Ahora completamos el Ejemplo 3 calculando las siguientes probabilidades.

Considere la probabilidad. Éste involucra 4 casos. De los 11 elementos de la muestra, 5 o 6 de ellos caen dentro del intervalo (caen dentro o caen dentro). Para cada uno de estos escenarios, hay dos casos & # 8211 en los que cae o cae. A continuación se muestran los 4 cálculos separados y el total.

Cuando las probabilidades, y se obtienen usando TI84 +, tenemos la siguiente respuesta a.

Para la probabilidad, hay incluso más casos. Hay 10 casos. El cálculo se muestra a continuación.

Con, y obtenido de TI84 +, la respuesta es

Ejemplo 5
Utilice el ejemplo 2 y el ejemplo 4 para calcular la probabilidad condicional. Compare esto con la probabilidad incondicional.

Del Ejemplo 2, es aproximadamente 0,45. Sin conocer información adicional, hay un 45% de probabilidad de que la estadística de noveno orden sea mayor que 4. Pero si sabemos que hay al menos 5 elementos de muestra menores que 2.5, es menos probable que sea mayor que 4 (aproximadamente 31% oportunidad).

Muestras lognormales grandes

La suma independiente de distribuciones logarítmicas normales no es logarítmica normal. Sin embargo, si la muestra es lo suficientemente grande, podemos aproximar la suma independiente usando la distribución normal debido al teorema del límite central. Presentamos un ejemplo.

Ejemplo 6
Para una determinada compañía de seguros, las reclamaciones de seguros siguen una distribución logarítmica normal con parámetros y.

  • Calcule la probabilidad de que una afirmación seleccionada al azar esté entre 200 y 250.
  • La compañía de seguros procesará cincuenta reclamaciones este mes. Calcule la probabilidad de que el monto promedio de la reclamación sea 200 y 250.

Para una afirmación individual, la media es y el segundo momento es. Esto significa que la variación de un reclamo individual es. Por tanto, la desviación estándar de un reclamo individual es.

Para una muestra aleatoria de tamaño 50, la media muestral es. La media de la media muestral es y la desviación estándar de la media muestral es.

Primero calculamos la probabilidad.

La probabilidad anterior usando TI84 + es 0.0817076952. A continuación, se calcula la probabilidad relativa a la media muestral.

Tenga en cuenta la diferencia en el cálculo entre la probabilidad de individuo y de. Para el primero, tomamos el logaritmo natural para transformarlo en una variable normal. Para este último, es aproximadamente normal ya que aplicamos el teorema del límite central. Por lo tanto, no es necesario aplicar el registro natural.

Con, la dispersión de la media muestral es mucho menor que la dispersión para el individuo dónde. Por tanto, es mucho menos probable que una observación individual de entre 200 y 250.

Problemas de práctica

Aquí se encuentra un conjunto de problemas de práctica.

Problemas de práctica de Daniel Ma


11. Variables aleatorias, PDF y valor esperado

Fcdkbear & rarr Разбор Codeforces Round # 169 manijuana & rarr CSES Shortest Routes 1 hippie & rarr Matrix Exponentiation for Two-Dimensional Dynamic Programming GlebsHP & rarr Codeforces Round # 364 análisis de problemas Problema de igdor99 y rarr Codeforces Ronda # 321 para determinar la solución de un arcanae y rarr editorial en sus limitaciones?

Блог пользователя neal

No use rand (): una guía para generadores de números aleatorios en C ++

No use rand (). ¿Por qué? Saltemos directamente a un código. ¿Qué valor imprimirá el siguiente código, aproximadamente?

Deberían ser unos 500.000, ¿verdad? Resulta que depende del compilador y en Codeforces imprime 16382, que ni siquiera se acerca. Pruébelo usted mismo.

¿Que esta pasando aqui?

Si busca la documentación de C ++ en rand (), verá que devuelve & quota valor integral pseudoaleatorio entre 0 y RAND_MAX. & Quot Haga clic de nuevo en RAND_MAX y verá que & quotEste valor depende de la implementación. Está garantizado que este valor es al menos 32767. & quot En las máquinas Codeforces, resulta que RAND_MAX es exactamente 32767. ¡Eso es tan pequeño!

No se detiene allí, aunque random_shuffle () también usa rand (). Recuerde que para realizar una mezcla aleatoria, necesitamos generar índices aleatorios de hasta norte , el tamaño de la matriz. Pero si rand () solo sube a 32767, ¿qué sucede si llamamos random_shuffle () en una matriz con significativamente más elementos que eso? Es hora de más código. ¿Qué esperaría que imprimiera el siguiente código?

Esto calcula la distancia promedio que se mueve cada valor en la mezcla aleatoria. Si trabaja un poco en matemáticas, encontrará que la respuesta en una mezcla aleatoria perfecta debería ser = 1.000.000. Incluso si no quiere hacer los cálculos, puede observar que la respuesta está entre = 1,500,000, la distancia promedio para el índice 0, y = 750.000, la distancia media para el índice .

Bueno, una vez más el código anterior decepciona, imprime 64463. Pruébelo usted mismo. En otras palabras, random_shuffle () movió cada elemento una distancia del 2% de la longitud de la matriz en promedio. Según mis pruebas, la implementación de random_shuffle () en Codeforces coincide exactamente con lo siguiente:

Entonces, naturalmente, si RAND_MAX es mucho menor que norte , esta reproducción aleatoria será problemática.

rand () en sí mismo tiene más problemas de calidad que solo RAND_MAX es pequeño, aunque generalmente se implementa como un generador congruencial lineal relativamente simple. En el compilador de Codeforces, se ve así:

En particular, los generadores congruenciales lineales (LCG) adolecen de una previsibilidad extrema en los bits inferiores. El k-ésimo bit (comenzando desde k = 0, el bit más bajo) tiene un período de como máximo 2 k + 1 (es decir, cuánto tiempo tarda en repetirse la secuencia). Entonces, el bit más bajo tiene un período de solo 2, el segundo más bajo un período de 4, etc. Es por eso que la función anterior descarta los 16 bits más bajos, y la salida resultante es como máximo 32767.

¿Cual es la solución?

No se preocupe, a partir de C ++ 11 hay mucho mejor generadores de números aleatorios disponibles en C ++. Lo único que debe recordar es usar mt19937, incluido en el encabezado & ltrandom & gt. Este es un Mersenne Twister basado en el prime 2 19937-1, que también es su período. Es un RNG de mucha mayor calidad que rand (), además de ser mucho más rápido (389 ms para generar y agregar 10 8 números de mt19937 en Invocación personalizada, frente a 1170 ms para rand ()). También produce salidas completas sin firmar de 32 bits entre 0 y 2 32 - 1 = 4294967295, en lugar de llegar al máximo en un miserable 32767.

Para reemplazar random_shuffle (), ahora puede llamar shuffle () y pasar su mt19937 como tercer argumento, el algoritmo shuffle usará su generador provisto para mezclar.

C ++ 11 también le brinda algunas distribuciones ingeniosas. uniform_int_distribution le brinda números perfectamente uniformes, sin el sesgo de mod; es decir, es más probable que rand ()% 10000 le dé un número entre 0 y 999 que un número entre 9000 y 9999, ya que 32767 no es un múltiplo perfecto de 10000 Hay muchas otras distribuciones divertidas además de distribución_normal y distribución_exponencial.

Para darle una idea más concreta, aquí hay un código que utiliza varias de las herramientas mencionadas anteriormente. Tenga en cuenta que el código inicia el generador de números aleatorios utilizando un reloj de alta precisión. Esto es importante para evitar hacks adaptados específicamente a su código, ya que el uso de una semilla fija significa que cualquiera puede determinar lo que generará su RNG. Para obtener más detalles, consulte Cómo se pueden piratear las soluciones aleatorias y cómo hacer que su solución sea imposible de piratear.

Una última cosa: si desea números aleatorios de 64 bits, simplemente use mt19937_64 en su lugar.

Ambas combinaciones dan como resultado una distancia promedio de casi exactamente 10 6, como esperábamos originalmente.

Referencias adicionales

Si desea generadores de números aleatorios aún más rápidos y de mayor calidad, eche un vistazo a este sitio de Sebastiano Vigna.


Variables aleatorias (Parte 2: Variables aleatorias continuas)

Variables aleatorias continuas: una variable aleatoria continua es una variable aleatoria que puede tomar una cantidad infinita de valores. Las probabilidades asociadas con un RV continuo se definen mediante la función de densidad de probabilidad (PDF). Función de densidad de probabilidad (PDF): como un RV continuo toma valores infinitos, la probabilidad $ P (X = x) $ para él no se puede definir y toma un valor de 0. En su lugar, definimos una función de densidad de probabilidad, que representa intuitivamente la probabilidad. por unidad de espacio, donde el espacio se define por el rango de la variable aleatoria subyacente.


Queja de DMCA

Si cree que el contenido disponible a través del sitio web (como se define en nuestros Términos de servicio) infringe uno o más de sus derechos de autor, notifíquenoslo proporcionando un aviso por escrito ("Aviso de infracción") que contenga la información que se describe a continuación a la persona designada. agente enumerado a continuación. Si Varsity Tutors toma medidas en respuesta a un Aviso de infracción, hará un intento de buena fe de comunicarse con la parte que hizo que dicho contenido esté disponible por medio de la dirección de correo electrónico más reciente, si la hubiera, proporcionada por dicha parte a Varsity Tutors.

Su Aviso de infracción puede enviarse a la parte que puso el contenido a disposición o a terceros como ChillingEffects.org.

Tenga en cuenta que será responsable de los daños (incluidos los costos y los honorarios de los abogados) si tergiversa materialmente que un producto o actividad infringe sus derechos de autor. Por lo tanto, si no está seguro de que el contenido ubicado o vinculado al sitio web infringe sus derechos de autor, debe considerar comunicarse primero con un abogado.

Siga estos pasos para presentar un aviso:

Debes incluir lo siguiente:

Una firma física o electrónica del propietario de los derechos de autor o una persona autorizada para actuar en su nombre.Una identificación de los derechos de autor que se alega que han sido infringidos.Una descripción de la naturaleza y ubicación exacta del contenido que usted afirma que infringe sus derechos de autor, en suficiente. detalle para permitir que los tutores universitarios encuentren e identifiquen positivamente ese contenido, por ejemplo, necesitamos un enlace a la pregunta específica (no solo el nombre de la pregunta) que contiene el contenido y una descripción de qué parte específica de la pregunta: una imagen, un enlace, texto, etc. - su queja se refiere a Su nombre, dirección, número de teléfono y dirección de correo electrónico y a Una declaración suya: (a) que cree de buena fe que el uso del contenido que afirma que infringe sus derechos de autor es no autorizado por la ley, o por el propietario de los derechos de autor o el agente de dicho propietario (b) que toda la información contenida en su Aviso de infracción es precisa, y (c) bajo pena de perjurio, que usted es el propietario de los derechos de autor o una persona autorizada para actuar en su nombre.

Envíe su queja a nuestro agente designado a:

Charles Cohn Varsity Tutors LLC
101 S. Hanley Rd, Suite 300
St. Louis, MO 63105


1.2 Aprendizaje no supervisado

Aprendizaje sin supervisión, a diferencia del aprendizaje supervisado, incluye un conjunto de herramientas estadísticas para comprender y describir mejor sus datos, pero realiza el análisis sin una variable objetivo. En esencia, el aprendizaje no supervisado se ocupa de identificar grupos en un conjunto de datos. Los grupos pueden estar definidos por las filas (es decir, agrupamiento) o las columnas (es decir, reducción de dimensión) sin embargo, el motivo en cada caso es bastante diferente.

El objetivo de agrupamiento consiste en segmentar las observaciones en grupos similares en función de las variables observadas, por ejemplo, dividir a los consumidores en diferentes grupos homogéneos, un proceso conocido como segmentación del mercado. En reducción de dimensión, a menudo nos preocupamos por reducir el número de variables en un conjunto de datos. Por ejemplo, los modelos de regresión lineal clásicos se rompen en presencia de características altamente correlacionadas. Se pueden utilizar algunas técnicas de reducción de dimensiones para reducir el conjunto de características a un conjunto potencialmente más pequeño de variables no correlacionadas. Un conjunto de características tan reducido se utiliza a menudo como entrada para modelos de aprendizaje supervisados ​​posteriores (por ejemplo, regresión de componentes principales).

El aprendizaje no supervisado a menudo se realiza como parte de un análisis de datos exploratorio (EDA). Sin embargo, el ejercicio tiende a ser más subjetivo y no hay un objetivo simple para el análisis, como la predicción de una respuesta. Además, puede resultar difícil evaluar la calidad de los resultados obtenidos con métodos de aprendizaje no supervisados. La razón de esto es simple. Si ajustamos un modelo predictivo usando una técnica de aprendizaje supervisado (es decir, regresión lineal), entonces es posible verificar nuestro trabajo viendo qué tan bien nuestro modelo predice la respuesta Y en observaciones no utilizadas para ajustar el modelo. Sin embargo, en el aprendizaje no supervisado, no hay forma de verificar nuestro trabajo porque no conocemos la verdadera respuesta: ¡el problema no está supervisado!

A pesar de su subjetividad, la importancia del aprendizaje no supervisado no debe pasarse por alto y estas técnicas se utilizan a menudo en las organizaciones para:

  • Divida a los consumidores en diferentes grupos homogéneos para que se puedan desarrollar e implementar estrategias de marketing personalizadas para cada segmento.
  • Identifique grupos de compradores en línea con historiales de navegación y compras similares, así como artículos que sean de particular interés para los compradores dentro de cada grupo. Luego, a un comprador individual se le pueden mostrar preferentemente los artículos en los que es más probable que esté interesado, según los historiales de compra de compradores similares.
  • Identifique productos que tengan un comportamiento de compra similar para que los gerentes puedan administrarlos como grupos de productos.

Estas preguntas, y muchas más, se pueden abordar con aprendizaje no supervisado. Además, los resultados de los modelos de aprendizaje no supervisados ​​se pueden utilizar como entradas para los modelos de aprendizaje supervisados ​​posteriores.


11. Variables aleatorias, PDF y valor esperado

Si se crean dos instancias de Random con la misma semilla, y se realiza la misma secuencia de llamadas a métodos para cada una, generarán y devolverán secuencias idénticas de números. Para garantizar esta propiedad, se especifican algoritmos particulares para la clase Random. Las implementaciones de Java deben usar todos los algoritmos que se muestran aquí para la clase Random, en aras de la portabilidad absoluta del código Java. Sin embargo, las subclases de la clase Random pueden usar otros algoritmos, siempre que se adhieran a los contratos generales para todos los métodos.

Los algoritmos implementados por la clase Random usan un método de utilidad protegido que en cada invocación puede suministrar hasta 32 bits generados pseudoaleatoriamente.

Muchas aplicaciones encontrarán el método Math.random () más sencillo de usar.

Las instancias de java.util.Random son seguras para subprocesos. Sin embargo, el uso simultáneo de la misma instancia de java.util.Random entre subprocesos puede generar contención y, en consecuencia, un rendimiento deficiente. En su lugar, considere usar ThreadLocalRandom en diseños multiproceso.

Las instancias de java.util.Random no son criptográficamente seguras. En su lugar, considere usar SecureRandom para obtener un generador de números pseudoaleatorios criptográficamente seguro para su uso por aplicaciones sensibles a la seguridad.

Resumen del constructor

Resumen del método

Métodos declarados en la clase java.lang.Object

Detalle del constructor

Aleatorio

Aleatorio

La invocación new Random (semilla) es equivalente a:

Detalle del método

SetSeed

La implementación de setSeed por clase Random pasa a usar solo 48 bits de la semilla dada. Sin embargo, en general, un método de sustitución puede utilizar los 64 bits del argumento largo como valor inicial.

El contrato general de next es que devuelve un valor int y si los bits del argumento están entre 1 y 32 (inclusive), entonces muchos bits de orden inferior del valor devuelto serán (aproximadamente) valores de bits elegidos independientemente, cada uno de los cuales es (aproximadamente) igualmente probable que sea 0 o 1. El método siguiente es implementado por la clase Random actualizando atómicamente la semilla y devolviendo Este es un generador de números pseudoaleatorios congruentes lineales, como lo define D. H. Lehmer y lo describe Donald E. Knuth en El arte de la programación informática, Volumen 2: Algoritmos seminuméricos, sección 3.2.1.

NextBytes

El método nextBytes es implementado por la clase Random como si lo hiciera:

NextInt

El método nextInt es implementado por la clase Random como si lo hiciera:

NextInt

La cobertura "aproximadamente" se usa en la descripción anterior solo porque el siguiente método es solo aproximadamente una fuente insesgada de bits elegidos independientemente. Si fuera una fuente perfecta de bits elegidos al azar, entonces el algoritmo mostrado elegiría valores int del rango establecido con perfecta uniformidad.

El algoritmo es un poco complicado. Rechaza valores que resultarían en una distribución desigual (debido al hecho de que 2 ^ 31 no es divisible por n). La probabilidad de que un valor sea rechazado depende de n. El peor de los casos es n = 2 ^ 30 + 1, para el cual la probabilidad de un rechazo es 1/2 y el número esperado de iteraciones antes de que termine el ciclo es 2.

El algoritmo trata el caso en el que n es una potencia de dos de forma especial: devuelve el número correcto de bits de orden superior del generador de números pseudoaleatorios subyacente. En ausencia de un tratamiento especial, el número correcto de de bajo orden se devolverían bits. Se sabe que los generadores de números pseudoaleatorios congruentes lineales, como el implementado por esta clase, tienen períodos cortos en la secuencia de valores de sus bits de orden inferior. Por lo tanto, este caso especial aumenta en gran medida la longitud de la secuencia de valores devueltos por llamadas sucesivas a este método si n es una pequeña potencia de dos.

NextLong

El método nextLong es implementado por la clase Random como si lo hiciera: Debido a que la clase Random usa una semilla con solo 48 bits, este algoritmo no devolverá todos los valores largos posibles.

SiguienteBooleano

El método nextBoolean es implementado por la clase Random como si lo hiciera:

NextFloat

El contrato general de nextFloat es que un valor flotante, elegido (aproximadamente) uniformemente del rango 0.0f (inclusive) a 1.0f (exclusivo), se genera y se devuelve pseudoaleatoriamente. Los 2 24 posibles valores flotantes de la forma m x 2-24, donde metro es un número entero positivo menor que 2 24, se producen con (aproximadamente) la misma probabilidad.

El método nextFloat es implementado por la clase Random como si lo hiciera:

La cobertura "aproximadamente" se usa en la descripción anterior solo porque el siguiente método es solo aproximadamente una fuente insesgada de bits elegidos independientemente. Si fuera una fuente perfecta de bits elegidos al azar, entonces el algoritmo mostrado elegiría valores flotantes del rango establecido con perfecta uniformidad.

[En las primeras versiones de Java, el resultado se calculó incorrectamente como: Esto podría parecer equivalente, si no mejor, pero de hecho introdujo una ligera falta de uniformidad debido al sesgo en el redondeo de los números de punto flotante: fue un poco más es probable que el bit de orden inferior del significando sea 0 de lo que sería 1.]

SiguienteDoble

El contrato general de nextDouble es que un valor doble, elegido (aproximadamente) uniformemente del rango 0.0d (inclusive) a 1.0d (exclusivo), se genera y se devuelve pseudoaleatoriamente.

El método nextDouble es implementado por la clase Random como si lo hiciera:

La cobertura "aproximadamente" se usa en la descripción anterior solo porque el siguiente método es solo aproximadamente una fuente no sesgada de bits elegidos independientemente. Si fuera una fuente perfecta de bits elegidos al azar, entonces el algoritmo que se muestra elegiría valores dobles del rango establecido con perfecta uniformidad.

[En las primeras versiones de Java, el resultado se calculó incorrectamente como: Esto podría parecer equivalente, si no mejor, pero de hecho introdujo una gran falta de uniformidad debido al sesgo en el redondeo de los números de punto flotante: fue tres veces ¡Es tan probable que el bit de orden inferior del significando sea 0 que 1! Esta falta de uniformidad probablemente no importe mucho en la práctica, pero nos esforzamos por alcanzar la perfección].

SiguienteGaussian

El contrato general de nextGaussian es que un valor doble, elegido (aproximadamente) de la distribución normal habitual con media 0.0 y desviación estándar 1.0, se genera y se devuelve pseudoaleatoriamente.

El método nextGaussian es implementado por la clase Random como si fuera una versión segura para subprocesos de lo siguiente: método polar de G. E. P. Box, M. E. Muller y G. Marsaglia, como lo describe Donald E. Knuth en El arte de la programación informática, Volumen 2: Algoritmos seminuméricos, sección 3.4.1, subsección C, algoritmo P. Tenga en cuenta que genera dos valores independientes al costo de una sola llamada a StrictMath.log y una llamada a StrictMath.sqrt.

Se genera un valor int pseudoaleatorio como si fuera el resultado de llamar al método nextInt ().

Se genera un valor int pseudoaleatorio como si fuera el resultado de llamar al método nextInt ().

A pseudorandom int value is generated as if it's the result of calling the following method with the origin and bound:

A pseudorandom int value is generated as if it's the result of calling the following method with the origin and bound:

Longs

A pseudorandom long value is generated as if it's the result of calling the method nextLong() .

Longs

A pseudorandom long value is generated as if it's the result of calling the method nextLong() .

Longs

A pseudorandom long value is generated as if it's the result of calling the following method with the origin and bound:

Longs

A pseudorandom long value is generated as if it's the result of calling the following method with the origin and bound:

Doubles

A pseudorandom double value is generated as if it's the result of calling the method nextDouble() .

Doubles

A pseudorandom double value is generated as if it's the result of calling the method nextDouble() .

Doubles

A pseudorandom double value is generated as if it's the result of calling the following method with the origin and bound:

Doubles

A pseudorandom double value is generated as if it's the result of calling the following method with the origin and bound:

Report a bug or suggest an enhancement
For further API reference and developer documentation see the Java SE Documentation, which contains more detailed, developer-targeted descriptions with conceptual overviews, definitions of terms, workarounds, and working code examples.
Java is a trademark or registered trademark of Oracle and/or its affiliates in the US and other countries.
Copyright © 1993, 2021, Oracle and/or its affiliates, 500 Oracle Parkway, Redwood Shores, CA 94065 USA.
Reservados todos los derechos. Use is subject to license terms and the documentation redistribution policy.


The C++11 Random Library

It is quite useful and important to know the function from the C/C++ libraries you can use to generate pseudorandom numbers. For a long time you could only use functions such as drand48(). It produces (almost) uniformly distributed random numbers in the interval [0,1]. If you wanted to generated random numbers with any other distribution you had to write you own!

Hopefully, the latest C++ standard (C++11), now comes with a random library. It provides a pseudorandom generator which is made of two parts. The first part is called the generator engine. It generates the numbers (you can choose among three different algorithms for generating these numbers) and the second part controls the distribution of the outcome (uniform, poisson, normal, etc.).


Ver el vídeo: Valor esperado de una variable aleatoria discreta. Khan Academy en Español (Septiembre 2021).