Artículos

13.3: Visualización de semejanza y distancia - Matemáticas


En la sección anterior, hemos visto cómo se puede medir e indexar el grado de similitud o distancia entre los patrones de vínculos de dos actores con otros actores. Una vez hecho esto, ¿entonces qué?

A menudo es útil examinar las similitudes o distancias para tratar de localizar agrupaciones de actores (es decir, más grandes que un par) que son similares. Al estudiar los patrones más amplios de qué grupos de actores son similares a otros, también podemos obtener una idea de "qué pasa con" las posiciones de los actores que son más críticas para hacerlas más similares o más distantes.

Dos herramientas que se usan comúnmente para visualizar patrones de relaciones entre variables también son muy útiles para explorar datos de redes sociales. Cuando hemos creado una matriz de similitud o distancia que describe todos los pares de actores, podemos estudiar la similitud de las diferencias entre las relaciones de "casos" de la misma manera que estudiaríamos las similitudes entre atributos.

En las siguientes dos secciones mostraremos ejemplos muy breves de cómo el análisis de conglomerados jerárquico y la escala multidimensional pueden usarse para identificar patrones en matrices de distancia / similitud actor por actor. Ambas herramientas se utilizan ampliamente en análisis que no son de red; Hay bibliografía extensa y excelente sobre las muchas e importantes complejidades del uso de estos métodos. Nuestro objetivo aquí es solo proporcionar una introducción muy básica.

Herramientas de agrupación

La agrupación jerárquica aglomerativa de nodos sobre la base de la similitud de sus perfiles de vínculos con otros casos proporciona un "árbol de unión" o "dendograma" que visualiza el grado de similitud entre los casos y se puede utilizar para encontrar clases de equivalencia aproximadas.

Herramientas> Clúster> Jerárquico procede colocando inicialmente cada caso en su propio grupo. Los dos casos más similares (aquellos con el índice de similitud medido más alto) se combinan luego en una clase. La similitud de esta nueva clase con todas las demás se calcula sobre la base de uno de los tres métodos. Sobre la base de la matriz de similitud recién calculada, el proceso de unión / recálculo se repite hasta que todos los casos se "aglomeran" en un solo grupo. La parte "jerárquica" del nombre del método se refiere al hecho de que una vez que un caso se ha unido en un grupo, nunca se vuelve a clasificar. Esto da como resultado agrupaciones de tamaño creciente que siempre encierran agrupaciones más pequeñas.

El método "Promedio" calcula la similitud de los puntajes promedio en el grupo recién formado con todos los demás grupos; el método "Single-Link" (también conocido como "vecino más cercano") calcula las similitudes sobre la base de la similitud del miembro del nuevo clúster que es más similar entre los otros casos que no están en el clúster. El método "Complete-Link" (también conocido como "vecino más lejano") calcula las similitudes entre el miembro del nuevo clúster que es menos similar entre sí y no en el clúster. El método predeterminado es utilizar el promedio del conglomerado; los métodos de enlace único tenderán a producir diagramas de unión largos y fibrosos; Los métodos de enlace completo tenderán a producir diagramas de unión muy separados.

La distancia de Hamming en el envío de información en la red Knoke se calculó como se muestra en la sección anterior, y los resultados se almacenaron como un archivo. Este archivo luego se ingresó a Herramientas> Clúster> Jerárquico. Especificamos que se utilizaría el método "promedio" y que los datos eran "disimilitudes". Los resultados se muestran en la Figura 13.9.

Figura 13.9: Agrupación de distancias de Hamming de envío de información en la red Knoke

El primer gráfico muestra que los nodos 1 y 9 fueron los más similares y se unieron primero. El gráfico, por cierto, se puede representar como un dendograma más pulido usando Herramientas> Dendograma> Dibujar en los datos guardados de la herramienta de clúster. En el siguiente paso, hay tres grupos (casos 2 y 5, 4 y 7, y 1 y 9). La unión continúa hasta que (en el paso 8 (^ text {th} )) todos los casos se aglomeran en un solo grupo. Esto da una imagen clara de la similitud de casos y las agrupaciones o clases de casos. Pero en realidad hay ocho imágenes aquí (una para cada paso de la unión). ¿Cuál es la solución "correcta"?

Una vez más, no hay una respuesta única. La teoría y un conocimiento sustantivo de los procesos que dan origen a los datos son la mejor guía. El segundo panel "Medidas de adecuación del clúster" puede ser de alguna ayuda. Hay varios índices aquí, y la mayoría (normalmente) darán respuestas similares. A medida que nos movemos de la derecha (pasos más altos o cantidades de aglomeración) a la izquierda (más grupos, menos aglomeración), el ajuste mejora. El índice E-I suele ser muy útil, ya que mide la relación entre el número de vínculos dentro de los conglomerados y los vínculos entre los conglomerados. Generalmente, el objetivo es lograr clases que sean muy similares por dentro y bastante distintas por fuera. Aquí, uno podría estar más tentado por la solución del paso 5 (^ text {th} ) del proceso (grupos de 2 + 5, 4 + 7, 1 + 9 y los otros grupos de un solo elemento ).

Para que sean significativos, los grupos también deben contener un porcentaje razonable de casos. El último panel muestra información sobre los tamaños relativos de los conglomerados en cada etapa. Con solo 10 casos para agrupar en nuestro ejemplo, esto no es terriblemente esclarecedor aquí.

UCINET proporciona dos herramientas de análisis de conglomerados adicionales que no discutiremos en detalle aquí, pero que quizás desee explorar. Herramientas> Clúster> Optimización permite al usuario seleccionar, a priori, varias clases, y luego utiliza el método de análisis de conglomerados elegido para ajustar de manera óptima los casos a las clases. Esto es muy similar a la técnica de optimización estructural que discutiremos a continuación. Herramientas> Clúster> Adecuación del clúster toma una clasificación proporcionada por el usuario (una partición o archivo de atributos), ajusta los datos a ella e informa sobre la bondad del ajuste.

Herramientas de escalado multidimensionales

Por lo general, nuestro objetivo en el análisis de equivalencia es identificar y visualizar "clases" o grupos de casos. Al utilizar el análisis de conglomerados, asumimos implícitamente que la similitud o la distancia entre los casos se refleja como una única dimensión subyacente. Sin embargo, es posible que haya múltiples "aspectos" o "dimensiones" subyacentes a las similitudes observadas de los casos. El análisis de factores o componentes podría aplicarse a correlaciones o covarianzas entre casos. Alternativamente, se podría utilizar la escala multidimensional (no métrica para datos que son inherentemente nominales u ordinales; métrica para valorados).

MDS representa los patrones de similitud o disimilitud en los perfiles de vínculo entre los actores (cuando se aplica a la adyacencia o distancias) como un "mapa" en el espacio multidimensional. Este mapa nos permite ver qué tan "cercanos" están los actores, si se "agrupan" en un espacio multidimensional y cuánta variación hay a lo largo de cada dimensión.

Las figuras 13.10 y 13.11 muestran los resultados de aplicar Herramientas> MDS> MDS no métrico a la matriz de adyacencia sin procesar de la red de información de Knoke, y seleccionando una solución bidimensional.

Figura 13.10: Coordenadas bidimensionales de MDS no métricas de la adyacencia de información de Knoke

El "estrés" es una medida de la falta de ajuste. Al usar MDS, es una buena idea buscar una variedad de soluciones con más dimensiones, para que pueda evaluar hasta qué punto las distancias son unidimensionales. Las coordenadas muestran la ubicación de cada caso (1 a 10) en cada una de las dimensiones. El caso uno, por ejemplo, está en el cuadrante inferior izquierdo, con puntuaciones negativas tanto en la dimensión 1 como en la dimensión 2.

El "significado" de las dimensiones a veces se puede evaluar comparando casos que se encuentran en los polos extremos de cada dimensión. ¿Son las organizaciones de un polo "públicas" y las del otro "privadas"? Al analizar los datos de las redes sociales, no es inusual que la primera dimensión sea simplemente la cantidad de conexión o el grado de los nodos.

Figura 13.11: Mapa bidimensional de MDS no métrico de adyacencia de información de Knoke

La figura 13.11 representa gráficamente los nodos según sus coordenadas. En este mapa, buscamos grupos de puntos ajustados y significativos para identificar casos que son muy similares en ambas dimensiones. En nuestro ejemplo, hay muy poca similitud de este tipo (salvo, quizás, los nodos 1 y 2).

Las herramientas de agrupamiento y escalado pueden resultar útiles en muchos tipos de análisis de red. Cualquier medida de las relaciones entre los nodos se puede visualizar utilizando estos métodos; los más comúnmente examinados son la adyacencia, la fuerza, la correlación y la distancia.

Estas herramientas también son bastante útiles para examinar la equivalencia. La mayoría de los métodos para evaluar la equivalencia generan medidas de cercanía o similitud actor por actor en los perfiles de vínculo (usando reglas diferentes, dependiendo del tipo de equivalencia que estemos tratando de medir). Cluster y MDS a menudo son muy útiles para dar sentido a los resultados.


Así que decidí hacer esta prueba para ver cómo funcionaba el método. Gracias a James Gentile y Alex Kienholz, obtuve los datos completos de la temporada sobre el lanzador de los Atléticos de Oakland, Jarrod Parker. A partir de ahí, dividí su temporada en dos partes: antes y después del 3 de julio. Luego, las puntuaciones de similitud se calcularon como se describió anteriormente.

Entonces, antes de entrar en más detalles sobre cada lanzamiento, diré que las dos mitades de Parker tenían un PD en brutoyo, j de 0,181321. Esto cambiaría la escala a una PD ajustada negativamenteyo, j y un puntaje de similitud del lanzador mayor que 1. Por lo tanto, parecería que el puntaje de similitud parece estar haciendo un trabajo razonable.

Bien, a los lanzamientos específicos de Parker. La base de datos PITCHf / x tenía a Parker lanzando un total de 8 tipos diferentes de lanzamientos, pero solo me voy a centrar en los 4 que se veían comúnmente en ambas mitades: recta de cuatro costuras, recta de dos costuras, cambio y control deslizante. .

La bola rápida de cuatro costuras vio una similitud de tono de 0.8334179. Esto es extremadamente alto, ya que el más alto observado en el estudio de 256 lanzadores fue de alrededor de 0,77. El biselador tuvo una puntuación de 0,7938409, el cambio tuvo 0,8593643 y el deslizador 0,794151. Una vez más, todo muy alto.

Ahora, puede pensar que los puntajes brutos alrededor de 0.8 son más bajos de lo esperado en la escala [0,1], pero en realidad no lo son. Recuerde, estos puntajes se basan en la mayor diferencia en las distribuciones empíricas. Entonces, estos puntajes brutos serán peores que, digamos, la diferencia promedio. Sin embargo, calcular la diferencia promedio puede llevar mucho más tiempo. Además, las puntuaciones se cambian y se escalan para ponerlas en una escala más intuitiva.

Ahora, mis datos de PITCHf / x que tenía anteriormente no tenían ningún identificador de fecha de juego, de lo contrario habría ejecutado este procedimiento exacto para los lanzadores en cuestión. Sin embargo, realicé una prueba similar en 50 de los lanzadores. Tomé la mitad de sus juegos que tenía (tenía identificadores para distinguir un juego de otro, pero no ordenados por fecha ni nada) para el lanzador y lo comparé con la otra mitad de juegos. Sin entrar en detalles, puedo decir que los puntajes brutos oscilaron entre 0,79 y 0,88 (redondeados), por lo que todos los puntajes escalados desplazados estuvieron muy cerca de 1 o más. Además, el "Lanzador más similar" de cada lanzador para la primera mitad habría sido su segunda mitad. Entonces, parece que los puntajes pueden emparejar con precisión a los lanzadores con ellos mismos.


Conectando literatura y matemáticas mediante la visualización de conceptos matemáticos

Libros informativos relacionados con las matemáticas, como el de Steve Jenkins Tamaño real y David M. Schwartz ' Si saltaste como una rana, proporcionan el enfoque de esta lección, que conecta lectura, escritura, matemáticas y ciencias. Explorando las imágenes de tamaño natural en Tamaño real y las comparaciones con objetos familiares en ambos libros, los estudiantes visualizan medidas y proporciones matemáticas, lo que, a su vez, enseña la razón. Los estudiantes comienzan primero con una lectura en voz alta y una discusión de Tamaño real y luego usar sus manos para hacer comparaciones de tamaño con las ilustraciones del libro. Luego escuchan y discuten Si saltaste como una rana. Luego, hablan sobre las similitudes y diferencias entre los dos libros y completan un diagrama de Venn. Finalmente, los estudiantes aplican estas estrategias a su propia investigación y escritura, uniendo literatura y matemáticas mientras investigan y escriben sobre un animal de uno de los textos y luego comparten su trabajo con la clase.


T-SNE: Detrás de las matemáticas

Siendo uno de los algoritmos de reducción de dimensionalidad más comentados en los últimos años, especialmente para las visualizaciones, pensé que me tomaría un tiempo para ayudar a otros a desarrollar una intuición sobre lo que realmente está haciendo t-SNE.

Desarrollado en 2008 por Laurens van der Maatens y Geoffrey Hinton, Incrustación de vecinos estocásticos distribuidos en t a diferencia del análisis de componentes principales (PCA), es un método no lineal que se utiliza para visualizar datos de dimensiones superiores en dimensiones interpretables por humanos como 2D o 3D.

Mientras que el análisis del componente principal intenta encontrar las dimensiones con la máxima cantidad de varianza mediante la proyección lineal de los puntos, el PCA a veces falla en preservar la estructura interna de los datos en escenarios no lineales como relaciones sinusoidales y cilíndricas. t-SNE supera esto durante las visualizaciones al preservar la estructura interna de los datos.

t-SNE intenta preservar la vecindad de los puntos incluso cuando se están transformando de dimensiones más altas a dimensiones más bajas. El algoritmo determina los puntos cercanos entre sí y los más alejados. El vecindario, es decir, el grupo con puntos cercanos entre sí, se conserva y esto se mantiene bien incluso si hay varios grupos. Sin embargo, la distancia entre los clústeres no se conserva después de la transformación.

¿Qué está haciendo t-SNE?

t-SNE intenta averiguar qué tan similares son los puntos y los agrupa en función de su similitud y, por lo tanto, puede preservar la estructura interna de los datos.

Considere la siguiente figura, t-SNE calcula las distancias entre los puntos y agrupa los puntos más cercanos para formar grupos en dimensiones más bajas también.

¿Cómo lo está haciendo t-SNE?

Para un punto de consulta, digamos uno de los puntos en el grupo rojo (Fig 1), la distancia entre todos los puntos se mide y se traza a lo largo de una distribución T de Student que es similar a una curva gaussiana pero tiene colas más altas. Las distribuciones T pueden diferenciar mejor los puntos más lejanos en relación con los puntos de consulta debido a sus colas más altas.

Con el punto de consulta en el centro, las distancias relativas a los otros puntos se miden para cada punto. Cuanto más alejado esté un punto de un punto de consulta, su distancia estará alejada del pico de la curva. Los puntos que se encuentran cerca del pico se considerarían vecinos del punto de consulta.

La figura 2 muestra cómo t-SNE determina la vecindad del grupo rojo. Esto se repite para todos los puntos para determinar múltiples grupos.

PCA vs t-SNE usando Python

Usé los datos de MNIST para esta comparación. Los datos del MNIST incluyen varias imágenes manuscritas de números que son beneficiosas para Reconocimiento óptico de caracteres.

PCA pudo convertir los datos de 784 dimensiones en 2 dimensiones, pero visualizar esto es bastante difícil. Los números no se pueden distinguir entre sí con claridad.

Intentemos ahora visualizar usando t-SNE. Debería poder agrupar los dígitos similares juntos mucho mejor que el PCA.

A continuación (Fig. 6) se muestra el gráfico de t-SNE que ha agrupado los diversos dígitos mucho mejor que PCA y podemos ver claramente qué grupo pertenece a qué dígito.

¿Dónde se usa t-SNE?

t-SNE se usa ampliamente en visualizaciones de datos de mayor dimensión, algunas de las áreas donde se usa t-SNE son las siguientes:

1. La investigación del cáncer, la bioinformática y el análisis musical son áreas en las que t-SNE se utiliza ampliamente para visualizar similitudes e indistinguibilidad.

2. Se aplica ampliamente en procesamiento de imágenes, PNL, datos genómicos y procesamiento de voz para obtener similitudes de datos de dimensiones superiores.

Falacias de t-SNE

1. Al ser un algoritmo estocástico, los resultados de t-SNE son diferentes para cada ejecución del algoritmo.

2. Aunque t-SNE puede preservar la estructura local de los datos, es posible que no conserve la estructura global.

3. La perplejidad, que es el número de vecinos a considerar para un vecindario, debe ser menor que el número de puntos. Idealmente, oscila entre 5 y 50.

4. t-SNE encuentra vecindarios con ruido aleatorio y con poca perplejidad que puede malinterpretarse.


Preguntas similares

Matemáticas POR FAVOR AYUDE POR FAVOR POR FAVOR POR FAVOR

Pregunta 1 Escribe los primeros cuatro términos de la secuencia cuyo término general se da. an = 3n - 1 Respuesta 2, 3, 4, 5 2, 5, 8, 11 -2, -5, -8, -11 4, 7, 10, 13 3 puntos Pregunta 2 Escribe los primeros cuatro términos de la secuencia cuyo general

Geometría

1. ¿Cuál de las siguientes es la ecuación correcta para el Teorema de Pitágoras, donde a y b son las longitudes de los lados yc es la longitud de la hipotenusa? A. (ab) ^ 2 = c ^ 2 B. a ^ 2-b ^ 2 = c ^ 2 C. a ^ 2 + b ^ 2 = c ^ 2 ******* D. (a + b ) ^ 2 = c ^ 2 2. Dado

Matemáticas (problema de distancia)

Los puntos A, B, C, D y E están ubicados en línea recta en orden. La distancia de A a E es de 20 cm. La distancia de A a D es de 15 cm. La distancia de B a E es de 10 cm. C está a medio camino entre B y D. Halla la distancia de A a

Geometría

Trisha dibujó un par de segmentos de línea a partir de un vértice. ¿Cuál de estas afirmaciones compara mejor el par de segmentos de recta con el vértice? Respuesta A: Los segmentos de línea tienen dos puntos finales y un vértice es un punto final común donde dos

1.Un segmento de recta en una recta numérica tiene sus extremos en -9 y 6 calcula la coordenada del punto medio del segmento. Las opciones de respuesta son A.1.5 B.-1.5 C.2 D.-3 2. Encuentre la coordenada del punto medio de HX dado que H (-1,3) y

Matemáticas

Los puntos A, B, C, D y E están ubicados en línea recta en orden. La distancia de A a E es de 20 cm. La distancia de A a D es de 15 cm. La distancia de B a E es de 10 cm. C está a medio camino entre B y D. Halla la distancia de A a

Geometría

cómo encontrar la distancia entre cada par de puntos (0,3) y (3, -5)

Pregunta 1 Escribe los primeros cuatro términos de la secuencia cuyo término general se da. an = 3n - 1 Respuesta 2, 3, 4, 5 2, 5, 8, 11 -2, -5, -8, -11 4, 7, 10, 13 3 puntos Pregunta 2 Escribe los primeros cuatro términos de la secuencia cuyo general

Física

1. Dos puntos en un plano tienen coordenadas polares (2,5 m, 30 grados) y (3,8 m, 120 grados). Determine (a) las coordenadas cartesianas de ambos puntos y (b) la distancia entre los puntos. 2. El vector A tiene una magnitud de 29 unidades y

Los puntos A y B están separados por un lago. Para encontrar la distancia entre ellos, un topógrafo ubica un punto C en tierra tal que ÐCAB = 48.8 °. También mide CA como 318 pies y CB como 523 pies. Calcula la distancia entre A y B. Por favor

an = 3n - 1 Respuesta 2, 3, 4, 5 2, 5, 8, 11 -2, -5, -8, -11 4, 7, 10, 13 3 puntos Pregunta 2 Escribe los primeros cuatro términos de la secuencia cuyo término general se da. an = 2 (2n - 3) Respuesta -6, -2, 2, 6 -1, 1, 3, 5-2, -4, -6, -8-2,

Matemáticas ... Sra. Sue

Estás diseñando un parque infantil rectangular. EN SU DIBUJO A ESCALA, LAS VERTICAS DEL RECTÁNGULO SON (6,3), (6,5) Y (8,3). ¿CUÁLES SON LAS COORDENADAS DEL CUARTO VÉRTEX? 1: (4,5) 2: (8,5) 3: (8,1) 4: (5,8)


13.3: Visualización de semejanza y distancia - Matemáticas

Afortunadamente, las estadísticas de las puntuaciones de las alineaciones locales, a diferencia de las de las alineaciones globales, se comprenden bien. Esto es particularmente cierto para las alineaciones locales que carecen de brechas, que consideraremos primero. Estos alineamientos fueron precisamente los buscados por los programas originales de búsqueda de bases de datos BLAST [6].
Un alineamiento local sin espacios consiste simplemente en un par de segmentos de igual longitud, uno de cada una de las dos secuencias que se comparan. Una modificación de los algoritmos Smith-Waterman [7] o Sellers [8] encontrará todos los pares de segmentos cuyas puntuaciones no se pueden mejorar mediante extensión o recorte. Estos se denominan pares de segmentos de alta puntuación o HSP.
Para analizar qué tan alto es probable que surja una puntuación por casualidad, se necesita un modelo de secuencias aleatorias. Para las proteínas, el modelo más simple elige los residuos de aminoácidos en una secuencia de forma independiente, con probabilidades de fondo específicas para los diversos residuos. Además, se requiere que la puntuación esperada para alinear un par aleatorio de aminoácidos sea negativa. Si este no fuera el caso, las alineaciones largas tenderían a tener una puntuación alta independientemente de si los segmentos alineados estaban relacionados, y la teoría estadística se derrumbaría.
Así como la suma de un gran número de variables aleatorias independientes distribuidas de forma idéntica (i.i.d) tiende a una distribución normal, el máximo de un gran número de i.i.d. las variables aleatorias tienden a una distribución de valores extremos [9]. (Eliminaremos los muchos puntos técnicos necesarios para hacer esta afirmación rigurosa). Al estudiar los alineamientos de secuencia locales óptimos, nos ocupamos esencialmente del último caso [10,11]. En el límite de longitudes de secuencia suficientemente grandes myn, las estadísticas de las puntuaciones de HSP se caracterizan por dos parámetros, K y lambda. De manera más simple, el número esperado de PAS con una puntuación de al menos S viene dado por la fórmula


A esto lo llamamos el valor E para la puntuación S.
Esta fórmula tiene un sentido eminentemente intuitivo. Duplicar la longitud de cualquiera de las secuencias debería duplicar el número de PAS que logran una puntuación determinada. Además, para que un HSP obtenga la puntuación 2x, debe alcanzar la puntuación x dos veces seguidas, por lo que se espera que E disminuya exponencialmente con la puntuación. Los parámetros K y lambda pueden considerarse simplemente como escalas naturales para el tamaño del espacio de búsqueda y el sistema de puntuación, respectivamente.

Puntuaciones de bits

Los puntajes brutos tienen poco significado sin un conocimiento detallado del sistema de puntaje utilizado, o más simplemente sus parámetros estadísticos K y lambda. A menos que se comprenda el sistema de puntuación, citar una puntuación bruta es como citar una distancia sin especificar pies, metros o años luz. Al normalizar una puntuación bruta mediante la fórmula


se obtiene una "puntuación de bits" S ', que tiene un conjunto estándar de unidades. El valor E correspondiente a una puntuación de bits determinada es simplemente


Las puntuaciones de bits subsumen la esencia estadística del sistema de puntuación empleado, de modo que para calcular la significación se necesita conocer además sólo el tamaño del espacio de búsqueda.

Valores p

El número de PAS aleatorios con puntuación> = S se describe mediante una distribución de Poisson [10,11]. Esto significa que la probabilidad de encontrar exactamente un PAS con puntuación> = S viene dada por


donde E es el valor E de S dado por la ecuación (1) anterior. Específicamente, la probabilidad de encontrar cero PAS con una puntuación> = S es e -E, por lo que la probabilidad de encontrar al menos una PAS es


Este es el valor P asociado con la puntuación S. Por ejemplo, si uno espera encontrar tres PAS con puntuación> = S, la probabilidad de encontrar al menos una es 0,95. Los programas BLAST informan el valor E en lugar de los valores P porque es más fácil comprender la diferencia entre, por ejemplo, el valor E de 5 y 10 que los valores P de 0,993 y 0,99995. Sin embargo, cuando los valores E P y el valor E son casi idénticos.

Búsquedas en bases de datos

Las estadísticas de alineaciones con huecos

Efectos de borde

La elección de las puntuaciones de sustitución

Los resultados que produce un programa de alineación local dependen en gran medida de las puntuaciones que utilice. Ningún esquema de puntuación es el mejor para todos los propósitos, y la comprensión de la teoría básica de las puntuaciones de alineación local puede mejorar la sensibilidad de los análisis de secuencia de uno. Como antes, la teoría está completamente desarrollada solo para las puntuaciones utilizadas para encontrar alineaciones locales sin huecos, por lo que comenzamos con ese caso.
Se ha descrito un gran número de puntuaciones de sustitución de aminoácidos diferentes, basadas en una variedad de fundamentos [23-36]. Sin embargo, las puntuaciones de cualquier matriz de sustitución con una puntuación esperada negativa se pueden escribir de forma única en el formulario


donde q ij, llamadas frecuencias objetivo, son números positivos que suman 1, p i son frecuencias de fondo para los diversos residuos y lambda es una constante positiva [10,31]. La lambda aquí es idéntica a la lambda de la ecuación (1).
Multiplicar todas las puntuaciones en una matriz de sustitución por una constante positiva no cambia su esencia: una alineación que fue óptima utilizando las puntuaciones originales sigue siendo óptima. Tal multiplicación altera el parámetro lambda pero no las frecuencias objetivo q ij. Por lo tanto, hasta un factor de escala constante, cada matriz de sustitución está determinada de forma única por sus frecuencias objetivo. Estas frecuencias tienen un significado especial [10,31]:

Una clase dada de alineamientos se distingue mejor del azar por la matriz de sustitución cuyas frecuencias objetivo caracterizan a la clase.

Para elaborar, se puede caracterizar un conjunto de alineaciones que representan regiones de proteínas homólogas por la frecuencia con la que se alinea cada posible par de residuos. Si la valina en la primera secuencia y la leucina en la segunda aparecen en el 1% de todas las posiciones de alineación, la frecuencia objetivo para (valina, leucina) es 0.01. La forma más directa de construir matrices de sustitución apropiadas para la comparación de secuencias locales es estimar las frecuencias objetivo y de fondo, y calcular las puntuaciones de log-odds correspondientes de la fórmula (6). Estas frecuencias en general no pueden derivarse de los primeros principios y su estimación requiere información empírica.

Las matrices de sustitución de aminoácidos PAM y BLOSUM

Matrices de sustitución de ADN

Puntuaciones de brecha

Regiones de secuencia de baja complejidad

Referencias

[1] Fitch, W.M. (1983) "Secuencias aleatorias". J. Mol. Biol. 163: 171-176. (PubMed)

[2] Lipman, D.J., Wilbur, W.J., Smith T.F. Y Waterman, M.S. (1984) "Sobre la importancia estadística de las similitudes de ácidos nucleicos". Nucl. Acids Res. 12: 215-226. (PubMed)

[3] Altschul, S.F. Y Erickson, B.W. (1985) "Importancia de los alineamientos de secuencias de nucleótidos: un método para la permutación de secuencias aleatorias que conserva el uso de dinucleótidos y codones". Mol. Biol. Evol. 2: 526-538. (PubMed)

[4] Deken, J. (1983) "Comportamiento probabilístico de la longitud de la subsecuencia común más larga". En "Time Warps, ediciones de cadenas y macromoléculas: la teoría y práctica de la comparación de secuencias". D. Sankoff y J.B. Kruskal (eds.), Págs. 55-91, Addison-Wesley, Reading, MA.

[5] Reich, J.G., Drabsch, H. y Daumler, A. (1984) "Sobre la evaluación estadística de similitudes en secuencias de ADN". Nucl. Acids Res. 12: 5529-5543. (PubMed)

[6] Altschul, S.F., Gish, W., Miller, W., Myers, E.W. y Lipman, D.J. (1990) "Herramienta básica de búsqueda de alineación local". J. Mol. Biol. 215: 403-410. (PubMed)

[7] Smith, T.F. Y Waterman, M.S. (1981) "Identificación de subsecuencias moleculares comunes". J. Mol. Biol. 147: 195-197. (PubMed)

[8] Vendedores, P.H. (1984) "Reconocimiento de patrones en secuencias genéticas por densidad de desajustes". Toro. Matemáticas. Biol. 46: 501-514.

[9] Gumbel, E. J. (1958) "Estadísticas de extremos". Columbia University Press, Nueva York, NY.

[10] Karlin, S. y Altschul, S.F. (1990) "Métodos para evaluar la significación estadística de las características de la secuencia molecular mediante el uso de esquemas de puntuación generales". Proc. Natl. Acad. Sci. USA 87: 2264-2268. (PubMed)

[11] Dembo, A., Karlin, S. y Zeitouni, O. (1994) "Distribución límite de la puntuación segmentaria máxima de dos secuencias no alineadas". Ana. Prob. 22: 2022-2039.

[12] Pearson, W.R. y Lipman, D.J. (1988) Herramientas mejoradas para la comparación de secuencias biológicas. "Proc. Natl. Acad. Sci. USA 85: 2444-2448. (PubMed)

[13] Pearson, W.R. (1995) "Comparación de métodos para buscar bases de datos de secuencias de proteínas". Prot. Sci. 4: 1145-1160. (PubMed)

[14] Altschul, S.F. & Gish, W. (1996) "Estadísticas de alineación local". Meth. Enzymol. 266: 460-480. (PubMed)

[15] Altschul, S.F., Madden, T.L., Sch y aumlffer, A.A., Zhang, J., Zhang, Z., Miller, W. y Lipman, D.J. (1997) "Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas". Ácidos nucleicos Res. 25: 3389-3402. (PubMed)

[16] Smith, T.F., Waterman, M.S. & Burks, C. (1985) "La distribución estadística de similitudes de ácidos nucleicos". Ácidos nucleicos Res. 13: 645-656. (PubMed)

[17] Collins, J.F., Coulson, A.F.W. & Lyall, A. (1988) "La importancia de las similitudes de secuencias de proteínas". Computación. Apl. Biosci. 4: 67-71. (PubMed)

[18] Mott, R. (1992) "Estimación de máxima verosimilitud de la distribución estadística de las puntuaciones de similitud de secuencia local de Smith-Waterman". Toro. Matemáticas. Biol. 54: 59-75.

[19] Waterman, M.S. & Vingron, M. (1994) "Estimaciones rápidas y precisas de significación estadística para búsquedas en bases de datos de secuencias". Proc. Natl. Acad. Sci. USA 91: 4625-4628. (PubMed)

[20] Waterman, M.S. & Vingron, M. (1994) "Significación de la comparación de secuencias y aproximación de Poisson". Stat. Sci. 9: 367-381.

[21] Pearson, W.R. (1998) "Estimaciones estadísticas empíricas para búsquedas de similitud de secuencia". J. Mol. Biol. 276: 71-84. (PubMed)

[22] Arratia, R. y Waterman, M.S. (1994) "Una fase de transición para la puntuación en la coincidencia de secuencias aleatorias que permiten deleciones". Ana. Apl. Prob. 4: 200-225.

[23] McLachlan, A.D. (1971) "Pruebas para comparar secuencias de aminoácidos relacionadas. Citocromo cy citocromo c-551". J. Mol. Biol. 61: 409-424. (PubMed)

[24] Dayhoff, M.O., Schwartz, R.M. Y Orcutt, B.C. (1978) "Un modelo de cambio evolutivo en proteínas". En "Atlas de secuencia y estructura de proteínas", vol. 5, Supl. 3 (ed. M.O. Dayhoff), págs. 345-352. Natl. Biomed. Res. Encontrado., Washington, DC.

[25] Schwartz, R.M. Y Dayhoff, M.O. (1978) "Matrices para detectar relaciones distantes". En "Atlas de secuencia y estructura de proteínas", vol. 5, Supl. 3 (ed. M.O. Dayhoff), pág. 353-358. Natl. Biomed. Res. Encontrado., Washington, DC.

[26] Feng, D.F., Johnson, M.S. Y Doolittle, R.F. (1984) "Alineación de secuencias de aminoácidos: comparación de métodos comúnmente usados". J. Mol. Evol. 21: 112-125. (PubMed)

[27] Wilbur, W.J. (1985) "Sobre el modelo de matriz PAM de evolución de proteínas". Mol. Biol. Evol. 2: 434-447. (PubMed)

[28] Taylor, W.R. (1986) "La clasificación de la conservación de aminoácidos". J. Theor. Biol. 119: 205-218. (PubMed)

[29] Rao, J.K.M. (1987) "Nueva matriz de puntuación para los intercambios de residuos de aminoácidos basada en parámetros físicos característicos de los residuos". En t. J. Peptide Protein Res. 29: 276-281.

[30] Risler, J.L., Delorme, M.O., Delacroix, H. y Henaut, A. (1988) "Sustituciones de aminoácidos en proteínas relacionadas estructuralmente. Un enfoque de reconocimiento de patrones. Determinación de una matriz de puntuación nueva y eficiente". J. Mol. Biol. 204: 1019-1029. (PubMed)

[31] Altschul, S.F. (1991) "Matrices de sustitución de aminoácidos desde una perspectiva teórica de la información". J. Mol. Biol. 219: 555-565. (PubMed)

[32] Estados, D.J., Gish, W. y Altschul, S.F. (1991) "Sensibilidad mejorada de las búsquedas en bases de datos de ácidos nucleicos utilizando matrices de puntuación específicas de la aplicación". Métodos 3: 66-70.

[33] Gonnet, G.H., Cohen, M.A. & Benner, S.A. (1992) "Emparejamiento exhaustivo de toda la base de datos de secuencias de proteínas". Science 256: 1443-1445. (PubMed)

[34] Henikoff, S. y Henikoff, J.G. (1992) "Matrices de sustitución de aminoácidos de bloques de proteínas". Proc. Natl. Acad. Sci. USA 89: 10915-10919. (PubMed)

[35] Jones, D.T., Taylor, W.R. y Thornton, J.M. (1992) "La generación rápida de matrices de datos de mutación a partir de secuencias de proteínas". Computación. Apl. Biosci. 8: 275-282. (PubMed)

[36] Overington, J., Donnelly, D., Johnson M.S., Sali, A. y Blundell, T.L. (1992) "Tablas de sustitución de aminoácidos específicas del entorno: moldes terciarios y predicción de pliegues de proteínas". Prot. Sci. 1: 216-226. (PubMed)

[37] Henikoff, S. y Henikoff, J.G. (1993) "Evaluación del desempeño de matrices de sustitución de aminoácidos". Proteínas 17: 49-61. (PubMed)

[38] Gotoh, O. (1982) "Un algoritmo mejorado para emparejar secuencias biológicas". J. Mol. Biol. 162: 705-708. (PubMed)


Creación de una aplicación web para visualizar la incrustación de Word

Hasta ahora, hemos creado con éxito un script de Python para visualizar la palabra incrustada en 2D o 3D con PCA o t-SNE. A continuación, podemos crear una secuencia de comandos de Python para crear una aplicación web para una mejor experiencia de usuario.

The web app enables us to visualize the word embedding with a lot of functionality and interactivity. As an example, the user can type their own input words and they can also choose the top-n most similar words associated with each input word that will be returned.

The web app can be created using Dash or Streamlit. In this article, I’m going to show you how to build a simple interactive web app to visualize the word embedding with Streamlit.

First, we will use all of the Python code that we have created before and put them into one Python script. Next, we can start to create several user input parameters as follows:

  • Dimension reduction technique, in which the user has an option whether they want to apply PCA or t-SNE. Since there are only two options, then we could use the selectbox attribute from Streamlit.
  • The dimension of the visualization, in which the user has an option whether they want to visualize the word embedding in 2D or 3D. Same as before, we can use the selectbox attribute.
  • Input words. This is a user input parameter that asks the user to type the input words that they want, for example ‘ball’, ‘school’, and ‘food’. Hence, we can use the text_input attribute.
  • Top-n most similar words, in which the user needs to specify how many similar words associated with each input word that will be returned. As we can choose any number, then the slider attribute would be the best option to use.

Next, we need to take consideration of parameters that will come up in case we decide to use t-SNE. In t-SNE, there are a few parameters that we can tweak to get the best visualization result. These parameters are the perplexity, the learning rate, and the number of optimization iteration. There is no single best value for each of these parameters in each case, hence the best solution would be to let the user specify these values.

Since we are using Scikit-learn, we can refer to the documentation to find out the default value of these parameters. The default value of perplexity is 30, but we can tweak the value between 5 to 50. The default value of the learning rate is 300, but we can tweak the value between 10 to 1000. Finally, the default value of the number of iteration is 1000, but we can tweak the value as less as 250. We can use slider attribute to create these parameter values.

Now we have covered all of the necessary part to build our web app. Finally, we can wrap things up together into one whole complete script as below.

You can now run the web app using Conda prompt. Within the prompt, go to the directory of your Python script and type the following command:

Next, a browser window will pop-up automatically, where you can access your web app locally. Below is the snapshot of what you can do with the web app.

And that’s it! You’ve created a simple web app with a lot of interactivity to visualize word embedding with PCA or t-SNE.

If you want to see the whole code of this word embedding visualization, you can access it on my GitHub page here.


Euclidean Distance

Euclidean distance (often called L2 norm) is the most intuitive of the metrics. Let’s define three vectors:

Just by looking at these vectors, we can confidently say that a y B are nearer to each other — and we see this even clearer when visualizing each on a chart:

Clearly, a y B are closer together — and we calculate that using Euclidean distance:

To apply this formula to our two vectors, a y b, we do:

And we get a distance of 0.014, performing the same calculation for d(a, c) returns 1.145, and d(b, c) returns 1.136. Clearly, a y B are nearer in Euclidean space.


PCA is an exploratory tool used that is generally used to simplify a large and complex dataset into a smaller, more easily understandable dataset. It achieves this by doing an orthogonal linear transformation that transforms data into a new coordinate system arranged by their variance content in the form of principal components i.e. your higher dimensional correlated data is projected into a smaller space that has linearly independent bases. The first component has the maximum variance and the last component has the least. Your features that were correlated in the original space are represented in this newer subspace in terms of linearly independent or orthogonal basis vectors. [Note: The basis set B of a given vector space V contains vectors allow every vector in V to be uniquely represented as a linear combination of these vectors [2]. The mathematics of PCA is beyond the scope of this article.] You can use these components for a lot of things, but in this article, I’ll be using these components to visualize patterns in the feature vectors or embedding that we usually obtain from the penultimate layer of a neural network in a 2D/3D space.

t-SNE is a powerful visualization technique that can help to find patterns in data in lower-dimensional spaces. It is a non-linear dimensionality reduction technique. However, unlike PCA it involves an iterative optimization which takes time to converge and there are a few parameters that can be tweaked. There are two major steps involved. First, t-SNE constructs a probability distribution over pairs of high-dimensional objects such that similar objects are assigned a higher probability and dissimilar objects are assigned lower probability. The similarity is calculated based one some distance such as Euclidean. Next, t-SNE defines similar probability distribution in a lower-dimensional space and minimises the Kullback-Leibler divergence (KL divergence) between the two distributions with respect to the locations of the points in the space. KL divergence is a statistical tool that allows you to measure the similarity between two distributions. It gives you the information lost when you use a distribution to approximate another. So if the KL divergence is minimised, we would have found a distribution that is a very good lower-dimensional approximation of the higher dimensional distribution of similar and dissimilar objects. This also means that the result would not be unique and you’ll get different results on every run. So it is a good idea to run the t-SNE algorithm multiple times before making your conclusion.

Next, I’ll talk about the classification dataset and architecture that we’ll be using in this article.


Contenido

Clustering tools Edit

Agglomerative Hierarchical clustering of nodes on the basis of the similarity of their profiles of ties to other nodes provides a joining tree or Dendrogram that visualizes the degree of similarity among cases - and can be used to find approximate equivalence classes. [2]

Multi-dimensional scaling tools Edit

Usually our goal in equivalence analysis is to identify and visualize "classes" or clusters of cases. In using cluster analysis, we are implicitly assuming that the similarity or distance among cases reflects as single underlying dimension. It is possible, however, that there are multiple "aspects" or "dimensions" underlying the observed similarities of cases. Factor or components analysis could be applied to correlations or covariances among cases. Alternatively, multi-dimensional scaling could be used (non-metric for data that are inherently nominal or ordinal metric for valued). [2]

MDS represents the patterns of similarity or dissimilarity in the tie profiles among the actors (when applied to adjacency or distances) as a "map" in multi-dimensional space. This map lets us see how "close" actors are, whether they "cluster" in multi-dimensional space, and how much variation there is along each dimension. [2]

Two vertices of a network are structurally equivalent if they share many of the same neighbors.

There is no actor who has exactly the same set of ties as actor A, so actor A is in a class by itself. The same is true for actors B, C, D and G. Each of these nodes has a unique set of edges to other nodes. E and F, however, fall in the same structural equivalence class. Each has only one edge and that tie is to B. Since E and F have exactly the same pattern of edges with all the vertices, they are structurally equivalent. The same is true in the case of H and I. [2]

Structural equivalence is the strongest form of similarity. In many real networks exact equivalence may be rare, and it could be useful to ease the criteria and measure approximate equivalence.

A closely related concept is institutional equivalence: two actors (e.g., firms) are institutionally equivalent if they operate in the same set of institutional fields. [3] While structurally equivalent actors have identical relational patterns or network positions, institutional equivalence captures the similarity of institutional influences that actors experience from being in the same fields, regardless of how similar their network positions are. For example, two banks in Chicago might have very different patterns of ties (e.g., one may be a central node, and the other may be in a peripheral position) such that they are not structural equivalents, but because they both operate in the field of finance and banking and in the same geographically defined field (Chicago), they will be subject to some of the same institutional influences. [3]

Measures for structural equivalence Edit

Cosine similarity Edit

A simple count of common neighbors for two vertices is not on its own a very good measure. One should know the degree of the vertices or how many common neighbors other pairs of vertices has. Cosine similarity takes into account these regards and also allow for the varying degrees of vertices. Salton proposed that we regard the i-th and j-th rows/columns of the adjacency matrix as two vectors and use the cosine of the angle between them as a similarity measure. The cosine similarity of i and j is the number of common neighbors divided by the geometric mean of their degrees. [4]

Its value lies in the range from 0 to 1. The value of 1 indicates that the two vertices have exactly the same neighbors while the value of zero means that they do not have any common neighbors. Cosine similarity is technically undefined if one or both of the nodes has zero degree, but according to the convention we say that cosine similarity is 0 in these cases. [1]

Pearson coefficient Edit

Pearson product-moment correlation coefficient is an alternative method to normalize the count of common neighbors. This method compares the number of common neighbors with the expected value that count would take in a network where vertices are connected randomly. This quantity lies strictly in the range from -1 to 1. [1]

Euclidean distance Edit

Euclidean distance is equal to the number of neighbors that differ between two vertices. It is rather a dissimilarity measure, since it is larger for vertices which differ more. It could be normalized by dividing by its maximum value. The maximum means that there are no common neighbors, in which case the distance is equal to the sum of the degrees of the vertices. [1]

Formally "Two vertices are automorphically equivalent if all the vertices can be re-labeled to form an isomorphic graph with the labels of u and v interchanged. Two automorphically equivalent vertices share exactly the same label-independent properties." [5]

More intuitively, actors are automorphically equivalent if we can permute the graph in such a way that exchanging the two actors has no effect on the distances among all actors in the graph.

Suppose the graph describes the organizational structure of a company. Actor A is the central headquarter, actors B, C, and D are managers. Actors E, F and H, I are workers at smaller stores G is the lone worker at another store.

Even though actor B and actor D are not structurally equivalent (they do have the same boss, but not the same workers), they do seem to be "equivalent" in a different sense. Both manager B and D has a boss (in this case, the same boss), and each has two workers. If we swapped them, and also swapped the four workers, all of the distances among all the actors in the network would be exactly identical.

Formally, "Two actors are regularly equivalent if they are equally related to equivalent others." In other words, regularly equivalent vertices are vertices that, while they do not necessarily share neighbors, have neighbors who are themselves similar. [5]

Two mothers, for example, are equivalent, because each has a similar pattern of connections with a husband, children, etc. The two mothers do not have ties to the same husband or the same children, so they are not structurally equivalent. Because different mothers may have different numbers of husbands and children, they will not be automorphically equivalent. But they are similar because they have the same relationships with some member or members of another set of actors (who are themselves regarded as equivalent because of the similarity of their ties to a member of the set "mother"). [2]

In the graph there are three regular equivalence classes. The first is actor A the second is composed of the three actors B, C, and D the third consists of the remaining five actors E, F, G, H, and I.

The easiest class to see is the five actors across the bottom of the diagram (E, F, G, H, and I). These actors are regularly equivalent to one another because:

  1. they have no tie with any actor in the first class (that is, with actor A) and
  2. each has a tie with an actor in the second class (either B or C or D).

Each of the five actors, then, has an identical pattern of ties with actors in the other classes.

Actors B, C, and D form a class similarly. B and D actually have ties with two members of the third class, whereas actor C has a tie to only one member of the third class, but this doesn't matter, as there is a tie to some member of the third class.


Ver el vídeo: Como calcular una distancia usando semejanza de triángulos (Septiembre 2021).