Artículos

4.1: Mínimos cuadrados - Matemáticas


Introducción

Aprendimos en el capítulo anterior que (Ax = b ) no necesita poseer una solución cuando el número de filas de (A ) excede su rango, es decir, (r

Las ecuaciones normales

El objetivo es elegir (x ) de manera que (A⁢x ) esté lo más cerca posible de (b ). Midiendo la cercanía en términos de la suma de los cuadrados de los componentes llegamos al problema de los 'mínimos cuadrados' de minimizar

res

[(|| Ax-b ||) ^ 2 = (Ax-b) ^ {T} (Ax-b) nonumber ]

sobre todo (x in mathbb {R} ). El camino hacia la solución está iluminado por el Teorema fundamental. Más precisamente, escribimos

( forall b_ {R}, b_ {N}, b_ {R} in mathbb {R} (A) wedge b_ {N} in mathbb {N} (A ^ {T}): ( b = b_ {R} + b_ {N}) ). Al notar que (i) ( forall b_ {R}, x in mathbb {R} ^ n: ((Ax-bR) in mathbb {R} (A)) ) y (ii) ( mathbb {R} (A) perp mathbb {N} (A ^ T) ) llegamos al Teorema de Pitágoras.

Definición: Teorema de Pythagoream

[norma ^ {2} (Ax-b) = (|| Ax-b_ {R} + b_ {N} ||) ^ 2 nonumber ]

[= (|| Ax-b_ {R} ||) ^ 2 + (|| b_ {N} ||) ^ 2 nonumber ]

Ahora está claro del Teorema de Pitágoras que el mejor (x ) es el que satisface

[Ax = b_ {R} nonumber ]

Como (b_ {R} in mathbb {R} (A) ) esta ecuación de hecho posee una solución. Sin embargo, todavía tenemos que especificar cómo se calcula (b_ {R} ) dado (b ). Aunque una expresión explícita para (b_ {R} ) proyección ortogonal de (b ) en ( mathbb {R} (A) ), en términos de (A ) y (b ) está a nuestro alcance, estrictamente hablando, no lo requeriremos. Para ver esto, observemos que si (x ) satisface la ecuación anterior, entonces proyección ortogonal de (b ) en ( mathbb {R} (A) ), en términos de (A ) y (b ) está a nuestro alcance, estrictamente hablando, no lo requeriremos. Para ver esto, observemos que si (x ) satisface la ecuación anterior, entonces

[Ax-b = Ax-b_ {R} + b_ {N} nonumber ]

[= -b_ {N} nonumber ]

Como (b_ {N} ) no se calcula más fácilmente que (b_ {R} ), puedes afirmar que solo vamos en círculos. Sin embargo, la información 'práctica' en la ecuación anterior es que ((Ax-b) in A ^ {T} ), es decir, (A ^ {T} (Ax-b) = 0 ), es decir,

[A ^ {T} Ax = A ^ {T} b nonumber ]

Como (A ^ {T} b in mathbb {R} (A ^ T) ) independientemente de (b ) este sistema, a menudo denominado ecuaciones normales, de hecho tiene una solución. Esta solución es única siempre que las columnas de (A ^ {T} A ) sean linealmente independientes, es decir, siempre que ( mathbb {N} (A ^ {T} A) = {0} ) . Recordando el Capítulo 2, Ejercicio 2, notamos que esto es equivalente a ( mathbb {N} (A) = {0 } )

El conjunto de (x in b_ {R} ) para el que el inadaptado ((|| Ax-b ||) ^ 2 ) es más pequeño se compone de aquellos (x ) para los cuales (A ^ {T} Ax = A ^ {T} b ) Siempre hay al menos uno de esos (x ). Hay exactamente uno de esos (x ) si ( mathbb {N} (A) = {0 } ).

Como ejemplo concreto, suponga con referencia a la Figura 1 que (A = begin {pmatrix} {1} & {1} {0} & {1} {0} & {0} end {pmatrix } ) y (A = begin {pmatrix} {1} {1} {1} end {pmatrix} )

Como (b ne mathbb {R} (A) ) no hay (x ) tal que (Ax = b ). De hecho, ((|| Ax-b ||) ^ 2 = (x_ {1} + x_ {2} + - 1) ^ 2 + (x_ {2} -1) ^ 2 + 1 ge 1 ) , con el mínimo obtenido únicamente en (x = begin {pmatrix} {0} {1} end {pmatrix} ), de acuerdo con la solución única de la ecuación anterior, para (A ^ {T } A = begin {pmatrix} {1} & {1} {1} & {2} end {pmatrix} ) y (A ^ {T} b = begin {pmatrix} {1} {2} end {pmatrix} ). Ahora reconocemos, a posteriori, que (b_ {R} = Ax = begin {pmatrix} {1} {1} {0} end {pmatrix} ) es la proyección ortogonal de b sobre el espacio de columna de (A ).

Aplicación de mínimos cuadrados al problema de prueba biaxial

Formularemos la identificación de las 20 rigideces de las fibras en esta figura anterior, como un problema de mínimos cuadrados. Visualizamos la carga, los 9 nodos y la medición de los 18 desplazamientos asociados, (x ). A partir del conocimiento de (x ) y (f ) deseamos inferir las componentes de (K = diag (k) ) donde (k ) es el vector de rigideces desconocidas de las fibras. El primer paso es reconocer que

[A ^ {T} KAx = f nonumber ]

puede escribirse como

[ forall B, B = A ^ {T} diag (Ax): (Bk = f) nonumber ]

Aunque conceptualmente simple, esto no es de gran utilidad en la práctica, ya que (B ) es 18 por 20 y, por lo tanto, la ecuación anterior posee muchas soluciones. La salida es calcular (k ) como resultado de más de un experimento. Veremos que, para nuestra pequeña muestra, serán suficientes 2 experimentos. Para ser precisos, suponemos que (x ^ 1 ) es el desplazamiento producido por la carga de (f ^ 1 ) mientras que (x ^ 2 ) es el desplazamiento producido por la carga de (f ^ 2 ). A continuación, montamos las piezas asociadas en

[B = begin {pmatrix} {A ^ {T} text {diag} (Ax ^ 1)} {A ^ {T} text {diag} (Ax ^ 2)} end {pmatrix} ]

y

[f = begin {pmatrix} {f ^ 1} {f ^ 2} end {pmatrix}. ]

Este (B ) es de 36 por 20, por lo que el sistema (Bk = f ) está sobredeterminado y, por tanto, maduro para mínimos cuadrados.

Procedemos entonces a ensamblar (B ) y (f ). Suponemos que (f ^ {1} ) y (f ^ {2} ) corresponden al estiramiento horizontal y vertical

[f ^ {1} = begin {pmatrix} {-1} & {0} & {0} & {0} & {1} & {0} & {- 1} & {0} & {0} & {0} & {1} & {0} & {- 1} & {0} & {0} & {0} & {1} & {0} end {pmatrix} ^ {T} nonumber ]

[f ^ {2} = begin {pmatrix} {0} & {1} & {0} & {1} & {0} & {1} & {0} & {1} & {0} & { 1} & {0} & {1} & {0} & {- 1} & {0} & {- 1} & {0} & {- 1} end {pmatrix} ^ {T} nonumber ]

respectivamente. Para el propósito de nuestro ejemplo, suponemos que cada (k_ {j} = 1 ) excepto (k_ {8} = 5 ). Ensamblamos (A ^ {T} KA ) como en el Capítulo 2 y resolvemos

[A ^ {T} KAx ^ {j} = f ^ {j} nonumber ]

con la ayuda del pseudoinverso. Para impartir algo de "realidad" a este problema, contaminamos cada (x ^ {j} ) con un 10 por ciento de ruido antes de construir (B )

[B ^ {T} Bk = B ^ {T} f nonumber ]

observamos que Matlab resuelve este sistema cuando se le presentak = B fcuando BB es rectangular. Hemos graficado los resultados de este procedimiento en el enlace. La fibra rígida se identifica fácilmente.

Proyecciones

Desde un punto de vista algebraico, la ecuación es una elegante reformulación del problema de mínimos cuadrados. Aunque es fácil de recordar, lamentablemente oscurece el contenido geométrico, sugerido por la palabra "proyección", de la ecuación. Como las proyecciones surgen con frecuencia en muchas aplicaciones, nos detenemos aquí para desarrollarlas con más cuidado. Con respecto a las ecuaciones normales, notamos que si ( mathbb {N} (A) = {0 } ) entonces

[x = (A ^ {T} A) ^ {- 1} A ^ {T} b nonumber ]

y entonces la proyección ortogonal de bb en ( mathbb {R} (A) ) es:

[b_ {R} = Ax nonumber ]

[= A (A ^ {T} A) ^ {- 1} A ^ T b nonumber ]

Definiendo

[P = A (A ^ {T} A) ^ {- 1} A ^ T nonumber ]

toma la forma (b_ {R} = Pb ). De acuerdo con nuestra noción de lo que debería ser una 'proyección', esperamos que (P ) mapeen vectores no en ( mathbb {R} (A) ) en ( mathbb {R} (A) ) mientras dejando ilesos los vectores que ya están en ( mathbb {R} (A) ). Más sucintamente, esperamos que (Pb_ {R} = b_ {R} ) es decir, (Pb_ {R} = Pb_ {R} ). Como esto último debería ser válido para todo (b en R ^ {m} ), esperamos que

[P ^ 2 = P nonumber ]

Encontramos que de hecho

[P ^ 2 = A (A ^ {T} A) ^ {- 1} A ^ T A (A ^ {T} A) ^ {- 1} A ^ T nonumber ]

[= A (A ^ {T} A) ^ {- 1} A ^ T nonumber ]

[= P nonumber ]

También notamos que (P ) es simétrico. Dignificamos estas propiedades a través

Definición: Proyección ortogonal

Una matriz (P ) que satisface (P ^ 2 = P ) se llama proyección. Una proyección simétrica se llama proyección ortogonal.

Nos hemos esforzado en motivar el uso de la palabra "proyección". Sin embargo, es posible que se pregunte qué tiene que ver la simetría con la ortogonalidad. Explicamos esto en términos de tautología.

[b = Pb − Ib nonumber ]

Ahora, si (P ) es una proyección, entonces también lo es (I-P ). Además, si (P ) es simétrico, entonces el producto escalar de (b ).

[ begin {align *} (Pb) ^ T (IP) b & = b ^ {T} P ^ {T} (IP) b [4pt] & = b ^ {T} (PP ^ {2 }) b [4pt] & = b ^ {T} 0 b [4pt] & = 0 end {align *}

es decir, (P⁢b ) es ortogonal a ((I-P) b ). Como ejemplos de proyecciones no ortogonales ofrecemos

[P = begin {pmatrix} {1} & {0} & {0} { frac {-1} {2}} & {0} & {0} { frac {-1} {4}} y { frac {-1} {2}} y {1} end {pmatrix} ]

y (I-P ). Finalmente, observemos que la fórmula central (P = A (A ^ {T} A) ^ {- 1} A ^ T ), es incluso un poco más general de lo que se anuncia. Se ha facturado como la proyección ortogonal sobre el espacio de columna de (A ). Sin embargo, a menudo surge la necesidad de la proyección ortogonal en algún subespacio arbitrario M. La clave para usar el antiguo PP es simplemente darse cuenta de que cada el subespacio es el espacio columna de alguna matriz. Más precisamente, si

[ {x_ {1}, cdots, x_ {m} } nonumber ]

es una base para MM entonces claramente si estos (x_ {j} ) se colocan en las columnas de una matriz llamada (A ) entonces ( mathbb {R} (A) = M ). Por ejemplo, si (M ) es la línea que pasa por ( begin {pmatrix} {1} & {1} end {pmatrix} ^ {T} ) entonces

[P = begin {pmatrix} {1} {1} end {pmatrix} frac {1} {2} begin {pmatrix} {1} & {1} end {pmatrix} nonumber ]

[P = frac {1} {2} begin {pmatrix} {1} & {1} {1} & {1} end {pmatrix} nonumber ]

es una proyección ortogonal sobre (M ).

Ejercicios

Ejercicio ( PageIndex {1} )

Gilbert Strang se estiró sobre una rejilla a longitudes de (l = 6, 7, 8 ) pies bajo fuerzas aplicadas de (f = 1, 2, 4 ) toneladas. Suponiendo la ley de Hooke (l − L = cf ), calcule su cumplimiento, (c ), y la altura original, (L ), por mínimos cuadrados.

Ejercicio ( PageIndex {2} )

Con respecto al ejemplo del § 3, observe que, debido a la generación aleatoria del ruido que contamina los desplazamientos, se obtiene una "respuesta" diferente cada vez que se invoca el código.

  1. Escriba un bucle que invoque el código una cantidad de veces estadísticamente significativa y envíe diagramas de barras de la rigidez promedio de la fibra y su desviación estándar para cada fibra, junto con el archivo M asociado.
  2. Experimente con varios niveles de ruido con el objetivo de determinar el nivel por encima del cual resulta difícil distinguir la fibra rígida. Explique cuidadosamente sus hallazgos.

Ejercicio ( PageIndex {3} )

Encuentra la matriz que proyecta ( mathbb {R} ^ 3 ) en la línea dividida por ( begin {pmatrix} {1} & {0} & {1} end {pmatrix} ^ {T} ) .

Ejercicio ( PageIndex {4} )

Encuentra la matriz que proyecta ( mathbb {R} ^ 3 ) en la línea dividida por ( begin {pmatrix} {1} & {0} & {1} end {pmatrix} ^ {T} ) y ( begin {pmatrix} {1} & {1} & {- 1} end {pmatrix} ^ {T} ).

Ejercicio ( PageIndex {5} )

Si (P ) es la proyección de ( mathbb {R} ^ m ) sobre un subespacio k - dimensional (M ), ¿cuál es el rango de (P ) y cuál es ( mathbb {R} (P) )?


Ver el vídeo: MINIMOS CUADRADOS EXCEL (Octubre 2021).