Artículos

10.4E: Ejercicios - Matemáticas


La práctica hace la perfección

Ejercicio CONJUNTO A: simplifica expresiones con (a ^ { frac {1} {n}} )

En los siguientes ejercicios, escribe como una expresión radical.

  1. una. (x ^ { frac {1} {2}} ) b. (y ^ { frac {1} {3}} ) c. (z ^ { frac {1} {4}} )
  2. una. (r ^ { frac {1} {2}} ) b. (s ^ { frac {1} {3}} ) c. (t ^ { frac {1} {4}} )
  3. una. (u ^ { frac {1} {5}} ) b. (v ^ { frac {1} {9}} ) c. (w ^ { frac {1} {20}} )
  4. una. (g ^ { frac {1} {7}} ) b. (h ^ { frac {1} {5}} ) c. (j ^ { frac {1} {25}} )
Respuesta

1. a. ( sqrt {x} ) b. ( sqrt [3] {y} ) c. ( sqrt [4] {z} )

3. ( sqrt [5] {u} ) b. ( sqrt [9] {v} ) c. ( sqrt [20] {w} )

Conjunto de ejercicios B: simplifica expresiones con (a ^ { frac {1} {n}} )

En los siguientes ejercicios, escribe con un exponente racional.

  1. una. ( sqrt [7] {x} ) b. ( sqrt [9] {y} ) c. ( sqrt [5] {f} )
  2. una. ( sqrt [8] {4} ) b. ( sqrt [10] {s} ) c. ( sqrt [4] {t} )
  3. una. ( sqrt [3] {7c} ) b. ( sqrt [7] {12d} ) c. (2 sqrt [4] {6b} )
  4. una. ( sqrt [4] {5x} ) b. ( sqrt [8] {9y} ) c. (7 sqrt [5] {3z} )
  5. una. ( sqrt {21p} ) b. ( sqrt [4] {8q} ) c. (4 sqrt [6] {36r} )
  6. una. ( sqrt [3] {25a} ) b. ( sqrt {3b} ) c. ( sqrt [8] {40c} )
Respuesta

1. (x ^ { frac {1} {7}} ) b. (y ^ { frac {1} {9}} ) c. (f ^ { frac {1} {5}} )

3. ((7 c) ^ { frac {1} {4}} ) b. ((12 días) ^ { frac {1} {7}} ) c. (2 (6 b) ^ { frac {1} {4}} )

5. ((21 p) ^ { frac {1} {2}} ) b. ((8 q) ^ { frac {1} {4}} ) c. (4 (36 r) ^ { frac {1} {6}} )

Ejercicio SET C: simplifica expresiones con (a ^ { frac {1} {n}} )

En los siguientes ejercicios, simplifique.

  1. una. (81 ^ { frac {1} {2}} ) b. (125 ^ { frac {1} {3}} ) c. (64 ^ { frac {1} {2}} )
  2. una. (625 ^ { frac {1} {4}} ) b. (243 ^ { frac {1} {5}} ) c. (32 ^ { frac {1} {5}} )
  3. una. (16 ^ { frac {1} {4}} ) b. (16 ^ { frac {1} {2}} ) c. (625 ^ { frac {1} {4}} )
  4. una. (64 ^ { frac {1} {3}} ) b. (32 ^ { frac {1} {5}} ) c. (81 ^ { frac {1} {4}} )
  5. una. ((- 216) ^ { frac {1} {3}} ) b. (- 216 ^ { frac {1} {3}} ) c. ((216) ^ {- frac {1} {3}} )
  6. una. ((- 1000) ^ { frac {1} {3}} ) b. (- 1000 ^ { frac {1} {3}} ) c. ((1000) ^ {- frac {1} {3}} )
  7. una. ((- 81) ^ { frac {1} {4}} ) b. (- 81 ^ { frac {1} {4}} ) c. ((81) ^ {- frac {1} {4}} )
  8. una. ((- 49) ^ { frac {1} {2}} ) b. (- 49 ^ { frac {1} {2}} ) c. ((49) ^ {- frac {1} {2}} )
  9. una. ((- 36) ^ { frac {1} {2}} ) b. (- 36 ^ { frac {1} {2}} ) c. ((36) ^ {- frac {1} {2}} )
  10. una. ((- 16) ^ { frac {1} {4}} ) b. (- 16 ^ { frac {1} {4}} ) c. (16 ^ {- frac {1} {4}} )
  11. una. ((- 100) ^ { frac {1} {2}} ) b. (- 100 ^ { frac {1} {2}} ) c. ((100) ^ {- frac {1} {2}} )
  12. una. ((- 32) ^ { frac {1} {5}} ) b. ((243) ^ {- frac {1} {5}} ) c. (- 125 ^ { frac {1} {3}} )
Respuesta

1. (9 ) b. (5 ) c. (8 )

3. (2 ) b. (4 ) c. (5 )

5. (- 6 ) b. (- 6 ) c. ( frac {1} {6} )

7. no real b. (- 3 ) c. ( frac {1} {3} )

9. ( frac {1} {6} )

11. (- 10 ) c. ( frac {1} {10} )

Ejercicio SET D: simplifica expresiones con (a ^ { frac {m} {n}} )

En los siguientes ejercicios, escribe con un exponente racional.

  1. una. ( sqrt {m ^ {5}} ) b. (( sqrt [3] {3 y}) ^ {7} ) c. ( sqrt [5] { left ( dfrac {4 x} {5 y} right) ^ {3}} )
  2. una. ( sqrt [4] {r ^ {7}} ) b. (( sqrt [5] {2 p q}) ^ {3} ) c. ( sqrt [4] { left ( dfrac {12 m} {7 n} right) ^ {3}} )
  3. una. ( sqrt [5] {u ^ {2}} ) b. (( sqrt [3] {6 x}) ^ {5} ) c. ( sqrt [4] { left ( dfrac {18 a} {5 b} right) ^ {7}} )
  4. una. ( sqrt [3] {a} ) b. (( sqrt [4] {21 v}) ^ {3} ) c. ( sqrt [4] { left ( dfrac {2 x y} {5 z} right) ^ {2}} )
Respuesta

1. (m ^ { frac {5} {2}} ) b. ((3 años) ^ { frac {7} {3}} ) c. ( left ( dfrac {4 x} {5 y} right) ^ { frac {3} {5}} )

3. (u ^ { frac {2} {5}} ) b. ((6 x) ^ { frac {5} {3}} ) c. ( left ( dfrac {18 a} {5 b} right) ^ { frac {7} {4}} )

Ejercicio CONJUNTO E: simplifica expresiones con (a ^ { frac {m} {n}} )

En los siguientes ejercicios, simplifique.

  1. una. (64 ^ { frac {5} {2}} ) b. (81 ^ { frac {-3} {2}} ) c. ((- 27) ^ { frac {2} {3}} )
  2. una. (25 ^ { frac {3} {2}} ) b. (9 ^ {- frac {3} {2}} ) c. ((- 64) ^ { frac {2} {3}} )
  3. una. (32 ^ { frac {2} {5}} ) b. (27 ^ {- frac {2} {3}} ) c. ((- 25) ^ { frac {1} {2}} )
  4. una. (100 ^ { frac {3} {2}} ) b. (49 ^ {- frac {5} {2}} ) c. ((- 100) ^ { frac {3} {2}} )
  5. una. (- 9 ^ { frac {3} {2}} ) b. (- 9 ^ {- frac {3} {2}} ) c. ((- 9) ^ { frac {3} {2}} )
  6. una. (- 64 ^ { frac {3} {2}} ) b. (- 64 ^ {- frac {3} {2}} ) c. ((- 64) ^ { frac {3} {2}} )
Respuesta

1. (32,768 ) b. ( frac {1} {729} ) c. (9 )

3. (4 ) b. ( frac {1} {9} ) c. irreal

5. (- 27 ) b. (- frac {1} {27} ) c. irreal

Ejercicio SET F: usa las leyes de los exponentes para simplificar expresiones con exponentes racionales

En los siguientes ejercicios, simplifique. Suponga que todas las variables son positivas.

  1. una. (c ^ { frac {1} {4}} cdot c ^ { frac {5} {8}} ) b. ( left (p ^ {12} right) ^ { frac {3} {4}} ) c. ( dfrac {r ^ { frac {4} {5}}} {r ^ { frac {9} {5}}} )
  2. una. (6 ^ { frac {5} {2}} cdot 6 ^ { frac {1} {2}} ) b. ( left (b ^ {15} right) ^ { frac {3} {5}} ) c. ( dfrac {w ^ { frac {2} {7}}} {w ^ { frac {9} {7}}} )
  3. una. (y ^ { frac {1} {2}} cdot y ^ { frac {3} {4}} ) b. ( left (x ^ {12} right) ^ { frac {2} {3}} ) c. ( dfrac {m ^ { frac {5} {8}}} {m ^ { frac {13} {8}}} )
  4. una. (q ^ { frac {2} {3}} cdot q ^ { frac {5} {6}} ) b. ( left (h ^ {6} right) ^ { frac {4} {3}} ) c. ( dfrac {n ^ { frac {3} {5}}} {n ^ { frac {8} {5}}} )
  5. una. ( left (27 q ^ { frac {3} {2}} right) ^ { frac {4} {3}} ) b. ( left (a ^ { frac {1} {3}} b ^ { frac {2} {3}} right) ^ { frac {3} {2}} )
  6. una. ( left (64 s ^ { frac {3} {7}} right) ^ { frac {1} {6}} ) b. ( left (m ^ { frac {4} {3}} n ^ { frac {1} {2}} right) ^ { frac {3} {4}} )
  7. una. ( left (16 u ^ { frac {1} {3}} right) ^ { frac {3} {4}} ) b. ( left (4 p ^ { frac {1} {3}} q ^ { frac {1} {2}} right) ^ { frac {3} {2}} )
  8. una. ( left (625 n ^ { frac {8} {3}} right) ^ { frac {3} {4}} ) b. ( left (9 x ^ { frac {2} {5}} y ^ { frac {3} {5}} right) ^ { frac {5} {2}} )
  9. una. ( dfrac {r ^ { frac {5} {2}} cdot r ^ {- frac {1} {2}}} {r ^ {- frac {3} {2}}} ) B. ( left ( dfrac {36 s ^ { frac {1} {5}} t ^ {- frac {3} {2}}} {s ^ {- frac {9} {5}} t ^ { frac {1} {2}}} right) ^ { frac {1} {2}} )
  10. una. ( dfrac {a ^ { frac {3} {4}} cdot a ^ {- frac {1} {4}}} {a ^ {- frac {10} {4}}} ) B. ( left ( dfrac {27 b ^ { frac {2} {3}} c ^ {- frac {5} {2}}} {b ^ {- frac {7} {3}} c ^ { frac {1} {2}}} right) ^ { frac {1} {3}} )
  11. una. ( dfrac {c ^ { frac {5} {3}} cdot c ^ {- frac {1} {3}}} {c ^ {- frac {2} {3}}} ) B. ( left ( dfrac {8 x ^ { frac {5} {3}} y ^ {- frac {1} {2}}} {27 x ^ {- frac {4} {3}} y ^ { frac {5} {2}}} right) ^ { frac {1} {3}} )
  12. una. ( dfrac {m ^ { frac {7} {4}} cdot m ^ {- frac {5} {4}}} {m ^ {- frac {2} {4}}} ) B. ( left ( dfrac {16 m ^ { frac {1} {5}} n ^ { frac {3} {2}}} {81 m ^ { frac {9} {5}} n ^ {- frac {1} {2}}} right) ^ { frac {1} {4}} )
Respuesta

1. (c ^ { frac {7} {8}} ) b. (p ^ {9} ) c. ( frac {1} {r} )

3. (y ^ { frac {5} {4}} ) b. (x ^ {8} ) c. ( dfrac {1} {m} )

5. (81 q ^ {2} ) b. (a ^ { frac {1} {2}} b )

7. (8 u ^ { frac {1} {4}} ) b. (8 p ^ { frac {1} {2}} q ^ { frac {3} {4}} )

9. (r ^ { frac {7} {2}} ) b. ( dfrac {6 s} {t} )

11. (c ^ {2} ) b. ( dfrac {2x} {3y} )

Ejercicio SET G: ejercicios de escritura

  1. Muestre dos métodos algebraicos diferentes para simplificar (4 ^ { frac {3} {2}} ). Explica todos tus pasos.
  2. Explique por qué no se puede evaluar la expresión ((- 16) ^ { frac {3} {2}} ).
Respuesta

1. Las respuestas variarán.

Autochequeo

una. Después de completar los ejercicios, use esta lista de verificación para evaluar su dominio de los objetivos de esta sección.

B. ¿Qué le dice esta lista de verificación sobre su dominio de esta sección? ¿Qué pasos tomará para mejorar?


  • M W
    12:50 p. M. - 1:20 p. M.
    Northridge 2132A
  • M W
    2:55 p. M. - 3:55 p. M.
    NRG 2132A
  • T Th
    11:55 am - 12:55 pm
    NRG 2132A
  • T Th
    2:55 p. M. - 3:25 p. M.
    NRG 2132A

TAREA: Recopilaré la tarea semanalmente y la calificaré para completarla (7.5% de la calificación).

PRUEBAS / HOJAS DE TRABAJO: Debes venir a clase preparado para hacer una prueba o hacer una tarea en clase todos los días. Ocasionalmente asignaré hojas de trabajo / exámenes para llevar a casa. No hay exámenes / hojas de trabajo tardíos o de recuperación (7.5% de la calificación).

PRUEBAS: Hay un total de 5 pruebas (75% de la nota).

DIARIO / PROYECTO: Mantendrá un breve diario personal de matemáticas durante la clase y completará un proyecto (cada uno cuenta como 5% de la calificación>.


Clave de respuestas del examen de escritura / gramática 10 4.a edición

Los "libros de gangas" son artículos nuevos que tienen pequeñas imperfecciones físicas debido al envío o manipulación que no afectan el uso del artículo. Todos los libros de ofertas se venden tal cual y todas las ventas son definitivas (no se aceptan devoluciones, cambios ni cancelaciones). Los libros de ofertas permanecerán en el carrito de compras hasta por 12 horas y luego se eliminarán si el pedido no se completa. Los pedidos que consisten en artículos regulares y en oferta se pueden comprar con tarjeta de crédito o PayPal y se envían juntos (con dos albaranes).

Este artículo es un archivo de descarga digital y no es un producto impreso o físico. Al finalizar el pago, recibirá un correo electrónico con un enlace para que descargue el archivo y lo guarde en su dispositivo local. Tenga en cuenta que los libros electrónicos y otras descargas de medios digitales no se pueden devolver y que todas las ventas son finales.

Brinda amplias oportunidades de escritura expositiva y descriptiva con asignaciones que incluyen un ensayo de investigación, un ensayo de causa y efecto, una carta personal, una respuesta a la literatura, la poesía, un informe de testigos presenciales, un editorial, un cuento corto, un discurso persuasivo, un discurso oral. diseño de anécdotas y páginas web. La mecánica no se descuida, ya que se revisan partes del discurso, la construcción de oraciones y los patrones. Las habilidades de los párrafos se desarrollan aún más junto con ejercicios para expandir, combinar y reducir oraciones.

A partir del segundo grado, Bob Jones ofrece un programa de inglés completo en todos los niveles para capacitar a los estudiantes a comunicarse de manera efectiva. Se desarrollan habilidades tanto orales como escritas, con un énfasis creciente en la composición en los niveles superiores. Todo lo que esperaría de un programa de inglés está aquí, desde la mecánica hasta los tipos de palabras, la gramática (incluidas las partes del habla y los diagramas) y todos los tipos y formas de escritura, incluido el análisis y la composición. Como con todos los materiales de Bob Jones, el curso integra temas y referencias cristianas. Las ediciones para profesores contienen planes de lecciones diarios y respuestas a los ejercicios de texto de trabajo de los estudiantes. Los textos de trabajo de los estudiantes son consumibles y se centran en diferentes temas en cada grado. Los paquetes de pruebas se componen de pruebas listas para usar para cada capítulo, y las respuestas a estas se encuentran en la clave del paquete de pruebas. A continuación se muestran breves descripciones de las habilidades por nivel de grado. Los materiales requeridos se enumeran primero, seguidos de los elementos con asterisco (*) que se consideran opcionales. Los materiales suplementarios utilizados en varios niveles de grado se enumeran después de los listados de nivel de grado. Los kits de educación en el hogar contienen la edición del maestro, el texto de trabajo y el material de prueba a un precio más bajo.

Estos materiales ofrecen una cobertura completa tanto de la escritura como de la gramática.


10.4E: Ejercicios - Matemáticas

对应 Tienda de aplicaciones de Apple 里 的 Euclidea 游戏。

  • (2020-05-20) 根据 iOS 4.20 版 增加 5 个 新 问题 , 并 更新 其 最优 解法。
  • (30/11/2019) 10,4 8E 新 纪录 解法。
  • (2019-06-01) 10.11 13E 新 纪录 解法。
  • (19 de mayo de 2019) 12,4 10E 新 纪录 解法。
  • (12 de marzo de 2019) 6.11 7L 新 纪录 解法。
  • (15/12/2018) 12,8 13E 新 纪录 解法。
  • (2018-12-08) 根据 iOS 4.12 版 增加 8 个 新 问题 并重 排 题目 顺序 , 更新 最优 解法 (包含 所有 新 题目 , 和 6.11 10E 解法)。
  • (18 de abril de 2018) 3.10 7E 新 纪录 解法。
  • (2018-04-11) 根据 iOS 4.07 版 增加 8 个 新 问题 并重 排 题目 顺序 , 更新 最优 解法 (包含 6.10 4E 和 8.6 4L 、 5E 解法)。
  • (2018-01-27) 14.4 6L 新 纪录 解法。
  • (11 de enero de 2018) 14,8 7E 新 纪录 解法。
  • (30/11/2017) 13,2 7E 新 纪录 解法。
  • (4 de octubre de 2017) 按照 iOS 3.37 版 重新 排列 题目 顺序。
  • (10 de julio de 2017) 2.8 5E 新 纪录 解法。
  • (2017-07-02) 按照 iOS 3.37 版 更新 v1 所有 题 号 以及 全部 最优 解法。
  • (12 de abril de 2017) 11,3 10E 新 纪录 解法。
  • (28 de febrero de 2017) 8.8 5E 新 纪录 解法。
  • (19 de enero de 2017) 5.5 5E 新 纪录 解法。
  • (02/12/2016) 7.3 3L 新 纪录 解法。
  • (02/12/2016) v1 版本 解法 更正 , 文字 描述 更新。

Este repositorio proporciona una colección completa de soluciones óptimas para el juego geométrico de iOS "Euclidea".


10.4E: Ejercicios - Matemáticas

Considere la matriz de sombrero $ H = X (X ^ TX) ^ <-1> X ^ T $, donde $ X $ es una matriz de $ N $ por $ d + 1 $, y $ X ^ TX $ es invertible.

(a) Muestre que $ H $ es simétrico.

(b) Muestre que $ H ^ K = H $ para cualquier entero positivo $ K $.

(c) Si $ I $ es la matriz identidad de tamaño N, demuestre que $ (I - H) ^ K = I - H $ para cualquier entero positivo K.

(d) Muestre que $ text(H) = d +1 $, donde la traza es la suma de los elementos diagonales. [Sugerencia: $ text(AB) = texto(BA) $]

Considere un objetivo ruidoso $ y = w ^ <* T> x + epsilon $ para generar los datos, donde $ epsilon $ es un término de ruido con media cero y varianza $ sigma ^ 2 $, generado de forma independiente para cada ejemplo $ (x, y) $. El error esperado del mejor ajuste lineal posible a este objetivo es $ sigma ^ 2 $.

Para los datos $ mathcal = <(x_1, y_1),. . . , (x_N, y_N)> $, denote el ruido en $ y_n $ como $ epsilon_n $ y sea $ epsilon = [ epsilon_1, epsilon_2. epsilon_N] ^ T $ suponga que $ X ^ TX $ es invertible. Siguiendo los pasos a continuación, demuestre que el error muestral esperado de la regresión lineal con respecto a $ mathcal D $ viene dado por. $ mathbb E _ < mathcal D> [E _ < text> (w _ < texto>)] = sigma ^ 2 (1- fracN) $ (a) Demuestre que la estimación en la muestra de está dada por $ hat y = Xw ^ * + H epsilon. $

(b) Muestre que el vector de error en la muestra $ hat y-y $ puede expresarse mediante una matriz multiplicada por $ epsilon $. ¿Qué es la matriz?

(c) Expresar $ E _ < text> (w _ < texto>) $ en términos de $ epsilon $ usando (b), y simplifique la expresión usando el Ejercicio 3.3 (c).

(d) Demuestre que $ mathbb E _ < mathcal D> [E _ < text> (w _ < texto>)] = sigma ^ 2 (1- fracN) $ usando (c) y la independencia de $ epsilon_1, epsilon_2. epsilon_N $. [Sugerencia: La suma de los elementos diagonales de una matriz (la traza) jugará un papel. Ver ejercicio 3.3]

Para el error de muestra esperado, tomamos un caso especial que es fácil de analizar. Considere un conjunto de datos de prueba $ mathcal D _ < text> = <(x_1, ),. . . , (x_N, )> $ que comparte los mismos vectores de entrada $ x_n $ con $ mathcal D $ pero con una realización diferente de los términos de ruido. Denota el ruido en $ y'_n $ como $ epsilon'_n $ y deja $ epsilon '= [ epsilon'1, épsilon '2. épsilon 'N] ^ T $. Definir $ E< texto> (w< texto>) $ para ser el error cuadrático promedio en $ mathcal D< texto>​$.

El error de prueba especial $ E _ < text> $ Es un caso muy restringido del error general fuera de muestra. Un análisis detallado muestra que se pueden obtener resultados similares para el caso general, como se muestra en el problema 3.1.

(a) 首先 将 $ y = w ^ <* T> x + epsilon $ 改写 为 向量 的 形式 , 记 $ y = [y_1. y_N] ^ T, X = [x_1. x_N] ^ T $ , 注意 题目 中 给出 $ epsilon = [ epsilon_1, epsilon_2. epsilon_N] ^ T $

(b) 直接 计算 即可 $ begin hat y-y & amp = Xw ^+ H epsilon- (Xw ^+ epsilon) & amp = (H-I) epsilon end $ (c) 直接 计算 即可 , 注意 要用 到 Ejercicio 3.3 证明 的 性质 $ begin E _ < texto> (w _ < texto>) & amp = frac 1N || hat yy || ^ 2 & amp = frac 1N || (HI) epsilon || ^ 2 & amp = frac 1N ((HI) epsilon) ^ T (( HI) epsilon) & amp = frac 1N epsilon ^ T (HI) (HI) epsilon (注意 H 对称) & amp = frac 1N epsilon ^ T (IH) epsilon (注意 (I - H) ^ K = I - H) & amp = frac 1N epsilon ^ T (IH) epsilon end $ (d) 这 题 也是 直接 计算 , 注意 要用 到 trace 的 性质 和 上 题 结论 $ begin mathbb E _ < mathcal D> [E _ < text> (w _ < texto>)] & amp = frac 1N mathbb E _ < mathcal D> [ epsilon ^ T (I-H) epsilon]

Otro umbral suave popular es la tangente hiperbólica $ tanh (s) = frac>> $ (a) ¿Cómo se relaciona $ tanh $ con la función logística $ theta $? [Sugerencia: cambio y escala]

(b) Muestre que $ tanh (s) $ converge a un umbral estricto para $ | s | $ grandes, y converge a ningún umbral para $ | s | $ pequeños [Sugerencia: formalice la figura siguiente].

[Medida de error de entropía cruzada]

(a) De manera más general, si estamos aprendiendo de los datos de $ ± 1 $ para predecir un objetivo ruidoso $ P (y | x) $ con hipótesis candidata $ h $, demuestre que el método de máxima verosimilitud se reduce a la tarea de encontrar $ h $ que minimiza $ E _ < text> (w) = sum_^ N [! [Y_n = + 1]!] Ln frac <1>+ [! [y_n = -1]!] ln frac <1> <1-h (x_n)> $ (b) Para el caso $ h (x) = theta (w ^ Tx) $, argumenta que minimizar el error en la muestra en el inciso a) es equivalente a minimizar el de (3.9).

Para dos distribuciones de probabilidad $$ y $$ con resultados binarios, la entropía cruzada (de la teoría de la información) es $ p log < frac 1 q> + (1-p) log < frac 1 <1-q>> $ El error de muestra en parte ( a) corresponde a una medida de error de entropía cruzada en el punto de datos $ (x_n, y_n) $, con $ p = [! [y_n = +1]!] $ y $ q = h (x_n). $

Para la regresión logística, demuestre que $ begin nabla E _ < texto> (w) & amp = - frac 1N sum_^ N frac<1 + e ^> & amp = frac 1N sum_^ N- theta (-y_nw ^ Tx_n) end $ Argumente que un ejemplo 'mal clasificado' contribuye más al gradiente que uno correctamente clasificado.

La afirmación de que $ hat v $ es la dirección que da la mayor disminución en $ E _ < text> $ solo es válido para $ eta $ pequeños. ¿Por qué?

Considere medidas puntuales de error $ e _ < text> (s, y) = [! [y neq text(s)]!] $, $ e _ < text> (s, y) = (ys) ^ 2 $, y $ e _ < log> (s, y) = ln (1+ exp (-ys)) $, donde la señal $ s = w ^ Tx $

(a) Para $ y = + 1 $, grafique $ e _ < text>, e _ < texto> $ y $ frac 1 < ln2> e _ < log> $ versus $ s $, en la misma gráfica.

(b) Muestre que $ e _ < text> (s, y) le e _ < text> (s, y) $, y por lo tanto, el error de clasificación está delimitado en la parte superior por el error al cuadrado.

(c) Muestre que $ e _ < text> (s, y) le frac 1 < ln2> e _ < log> (s, y) $, y, como en el inciso (b), obtenga un límite superior (hasta un factor constante) usando el método logístico error de regresión. Estos límites indican que minimizar el error de regresión al cuadrado o logística también debería disminuir el error de clasificación, lo que justifica el uso de las ponderaciones devueltas por la regresión lineal o logística como aproximaciones para la clasificación.

从 图像 中 我们 看出 , $ e _ < text> $ 和 $ frac 1 < ln2> e _ < log> $ 都是 $ e _ < text> $ 的 上 界 , 因此 我们 可以 用 线性 回归 或者 logistic 回归 计算 结果 , 再用 产生 的 结果 喂给 PLA。

(a) Defina un error para un solo punto de datos $ (x_n, y_n) $ para que sea $ e_n (w) = max (0, -y_nw ^ Tx_n) $ Argumente que PLA puede verse como SGD en $ e_n $ con tasa de aprendizaje $ eta = 1 $.

(b) Para la regresión logística con un $ w $ muy grande, argumente que minimizar $ E _ < text> $ Usar SGD es similar a PLA. Esta es otra indicación de que las ponderaciones de regresión logística se pueden utilizar como una buena aproximación para la clasificación.

(a) $ e_n (w) = max (0, -y_nw ^ Tx_n) $ 的 意思 是 对于 分类 正确 的 点 $ e_(w) = 0 $ , 对于 分类 不 正确 的 点 $ e_n (w) = - y_nw ^ Tx_n $ , 我们 来 求 梯度 $ frac < parcial (-y_nw ^ Tx_n)> < parcial w_i> = - y_nx ^ <(i)> _ n (x ^ <(i)> _ n 表示 x_n 的 第 i 个 分量) nabla (-y_nw ^ Tx_n) = - y_nx_n $ 所以 对于 分类 错误 的 点 $ (x_n, y_n) $ , 根据 SGD, 更新 规则 为 $ w (t + 1) = w (t) + eta (- nabla (-y_nw ^ Tx_n)) = w (t) + eta y_nx_n $ 所以 PLA 可以 被 看成$ e_n (w) = max (0, -y_nw ^ Tx_n) $ 的 SGD 且 $ eta = 1 $ 的 情形。

因此 对于 非常 大 的 $ w $ , 上述 更新 规则 可以 近似 为 $ w (t + 1) = w (t) + < eta y_nx_n> $ 和 PLA 一致 , 这 也 从 另一个 角度 说明 了 logístico 是 分类问题 的 一个 近似。

Considere la función transform $ phi $ en (3.12). ¿Qué tipo de límite en $ mathcal$ hace un hiperplano $ hat w $ en $ mathcal$ corresponden en los siguientes casos?

Haga un dibujo que ilustre un ejemplo de cada caso.

(c) $ hat w_1 & gt0, hat w_2 & gt 0, hat w_0 & lt0 $

(d) $ hat w_1 & gt0, hat w_2 & gt 0, hat w_0 & gt0 $

回顾 下 3.12 $ phi (x) = (1, x_1 ^ 2, x_2 ^ 2) $ 因此 对应 方程 为 $ hat w_0 + hat w_1x_1 ^ 2 + hat w_2 x_2 ^ 2 = 0 $ 后面 的 叙述 实际上是 高中 解析几何 的 知识。

(a) 有 三种 可能 , 分别 是 $ hat w_0 = 0, hat w_0 & gt0, hat w_0 & lt0 $

(b) 有 三种 可能 , 分别 是 $ hat w_0 = 0, hat w_0 & gt0, hat w_0 & lt0 $

Sabemos que en el plano euclidiano, el modelo de perceptrón $ mathcal$ No puede implementar todas las dicotomías de $ 16 $ en puntos de $ 4 $. Es decir, $ m _ < mathcal H> (4) & lt 16 $. Tome la función transform $ Phi $ en (3.12).

Es decir, si usó líneas, $ d_ = 3 $ si usó puntos suspensivos, $ d_ = 3 $ si usó líneas y puntos suspensivos, $ d_ & gt 3 $.

(b) 注意 $ Phi (x) $ 不 包括 偏置 项 为 $ 2 $ 维 , $ 2 $ 维 感知 机 最多 destrozar 3 个 点 , 所以 $ m _ < mathcal H_ Phi> (4) & lt 16 $ (c ) 这里 只 列 一种 我们 我们 之前 感知 机 无法 表示 的 情况

Considere la función transform $ z = Phi_2 (x) $ en (3.13). ¿Cómo podemos usar un hiperplano $ hat w $ en $ mathcal Z $ para representar los siguientes límites en $ mathcal X $

(b) El círculo $ (x_1-3) ^ 2 + (x_2 - 4) ^ 2 = 1 $

(c) La elipse $ 2 (x_1 - 3) ^ 2 + (x_2-4) ^ 2 = 1 $

(d) La hipérbola $ (x_1 - 3) ^ 2- (x_2-4) ^ 2 = 1 $

(e) La elipse $ 2 (x_1 + x_2-3) ^ 2 + (x_1 - x_2 - 4) ^ 2 = 1 $

回顾 3.13 $ phi_2 (x) = (1, x_1, x_2, x_1 ^ 2, x_1x_2, x_2 ^ 2) $ 接下来 分别 打开 上述 6 个 式子 即可

(a) $ (x_1-3) ^ 2 + x_2 = 1 x_1 ^ 2-6x_1 + 9 + x_2 -1 = 0 8-6x_1 + x_2 + x_1 ^ 2 = 0 hat w = (8, - 6,1,1,0,0) $ (b) $ (x_1-3) ^ 2 + (x_2 - 4) ^ 2 = 1 x_1 ^ 2-6x_1 + x_2 ^ 2-8x_2 + 24 = 0 sombrero w = (24, -6, -8,1,0,1) $ (c) $ 2 (x_1 - 3) ^ 2 + (x_2-4) ^ 2 = 1 2 (x_1 ^ 2-6x_1 + 9) + (x_2 ^ 2-8x_2 + 16) -1 = 0 2x_1 ^ 2-12x_1 + x_2 ^ 2-8x_2 + 33 = 0 hat w = (33, -12, -8,2,0, 1) $ (d) $ (x_1 - 3) ^ 2- (x_2-4) ^ 2 = 1 x_1 ^ 2-6x_1 + 9- (x_2 ^ 2-8x_2 + 16) -1 = 0 x_1 ^ 2 -x_2 ^ 2 + 8x_2-6x_1-8 = 0 hat w = (- 8, -6,8,1,0, -1) $ (e) $ 2 (x_1 + x_2-3) ^ 2 + ( x_1 - x_2 - 4) ^ 2 = 1 2 [(x_1 + x_2) ^ 2 + 9-6 (x_1 + x_2)] + (x_1-x_2) ^ 2-8 (x_1-x_2) + 16-1 = 0 2 (x_1 ^ 2 + x_2 ^ 2 + 2x_1x_2 + 9-6x_1-6x_2) + x_1 ^ 2 + x_2 ^ 2-2x_1x_2-8x_1 + 8x_2 + 15 = 0 3x_1 ^ 2 + 3x_2 ^ 2 + 33-20x_1 -4x_2 + 2x_1x_2 = 0 hat w = (33, -20, -4,3,2,3) $ (f) $ 2x_1 + x_2 = 1 2x_1 + x_2 -1 = 0 hat w = ( -1,2,1,0,0,0) $

Considere la transformación polinomial de $ Q $ ésimo orden $ phi_Q $ para $ mathcal= mathbb R ^ d $. ¿Cuál es la dimensionalidad $ widetilde d $ del espacio de características $ mathcal Z $ (excluyendo la coordenada fija $ z_0 = 1 $) Evalúe su resultado en $ d en <2, 3, 5, 1> $ y $ Q en <2, 3, 5, 1> $.

设 $ x = (x_1. X_d) $ , 那么 多项式 转换 的 一般 形式 为 $ prod_^ d x_i ^$ , 那么 $ Q $ 次 多项式 相当于 对此 加 了 一个 条件 ($ z_0 = 1 $ 不算 在内) $ 1 le sum_^n_i le Q (n_i ge0) $ 我们 记 $ sum_^n_i = q (n_i ge0) $ 的 解 的 数量 为 $ f (q) $ , 那么 $ 1 le sum_^n_i le Q (n_i ge0) $ 的 解 的 数量 为 $ suma_^ Qf (q) $ 我们 接下来 求解 $ f (q) $ , 对 式子 稍做 变形 $ sum_^n_i = q, n_i ge0 sum_^(n_i + 1) = q + d, n_i ge0 $ 令 $ n_i + 1 = m_i $ , 那么 上 式 可 化为

Las transformaciones de características de alta dimensión no son de ninguna manera las únicas transformaciones que podemos utilizar. Podemos tomar la compensación en la otra dirección y usar también transformaciones de características de baja dimensión (para lograr una barra de error de generalización aún más baja). Considere la siguiente transformación de fatura, que mapea una $ d $ -dimensional $ x $ a una $ z $ unidimensional, manteniendo solo la $ k $ ésima coordenada de x. $ phi _ <(k)> (x) = (1, x_k) $ Sea $ mathcal$ ser el conjunto de perceptrones en el espacio de características.

(a) Demuestre que $ d_( mathcal) = 2$.

(b) Demuestre que $ d_( aza grande_^ d mathcal) le 2 ( log_2 d +1) $.

$ mathcal$ Se denomina modelo de muñón de decisión en la dimensión $ k $.

(a) 这个 比较 简单 , $ mathcal$ 是 特征 空间 里 的 感知 机 , 并且 特征 空间 的 维度 为 1 , 因此 根据 感知 机 的 性质 , 我们 知道 $ d_( mathcal) = 1 + 1 = 2 $ (b) 我们 来看 下 $ mathcal$ 的 具体 形式 , 设 参数 为 $ (w_0, w_1) $ , 那么 对应 的 边界 平面 为 $ w_0 + w_1x_k = 0 x_k = - frac $ 因此 $ mathcal$ 划分 方法 可以 理解 为 看 第 $ k $ 个 下 标 , 如果 $ x_k $ 大于 阈 值 $ - frac$ , 标记 为 1 , 反之 标记 为 -1 , 或者 反过来 (大于 $ - frac$ 标记 为 -1, 小于 $ - frac$ 标记 为 1)。

假设 现在 有 $ N $ 个 点 , 现在 来 计算 $ mathcal H_ $ 能 区分 的 数量 , 先 对这 $ N $ 个 点 的 第 $ k $ 个 坐标 排序 ,先 不管 全 1 或者 全 -1 的 两种 情况, 那么 $ mathcal H_ $ 相当于 在 这 $ N $ 个 $ x_k $ 的 $ N-1 $ 个 间隔 挑选 , 一共 可以 有 $ N-1 $ 种 选择 , 那么 由于 大于阈 值 可以 为 1 , 也 可以 为 -1 , 所以 一共 可以 区分 $ 2 (N-1) $ 种 情形 , 因此 $ 除去 全 1 或者 全 -1 的 情况 , 每个 mathcal可以 区分 2N-2 种 情形 $ 那么 $ bigcup_^ d mathcal$ 一共 可以 表示 $ f (N) = 2 (N-1) times d + 2 $ 种 情形 , 注意 我们 这里 为了 更加 准确 , 全 1 或者 全 -1 的 情形 合并 在一起 统计 了。 当 $ N = 2 ( log_2 d +1) $ 时 $ begin f (2 ( log_2 d +1)) & amp = 2 (2 ( log_2 d +1) -1) times d + 2 & amp = 2 (2 log_2d + 1) times d + 2 end $ 我们 来 证明 $ 2 (2 log_2d + 1) times d + 2 le 2 ^ N = 2 ^ <2 ( log_2 d +1)> = 4d ^ 2 $ 接着 我们 来 进行 一些 处理 $ 2 ( 2 log_2d + 1) times d + 2 le4d ^ 2 Leftrightarrow 2d (2 log_2d + 1) le4d ^ 2-2 Leftrightarrow 2 log_2d + 1 le2d- frac 1d Leftrightarrow 2d - frac 1d-2 log_2d-1 ge0 $ 记 $ g (d) = 2d- frac 1d-2 log_2d-1 $ , 求 导 得 $ g '(d) = 2 + frac 1- frac <2> g '(d) = ( frac 1- frac <1> < ln2>) ^ 2 + 2 - ( frac <1> < ln2>) ^ 2 $ 将 $ ( frac 1- frac <1> < ln2>) ^ 2 + 2 - ( frac <1> < ln2>) ^ 2 $ 看成 关于 $ frac 1 d $ 的 二次 函数 , 由 二次 函数 的 性质可 得 $ g '(d) ge g' (1) = 3- frac <2> < ln2> & gt0 $ 所以 $ g (d) $ 在 $ [1, + infty) $ 递增 递增, $ G (d) ge g (1) = 0 $

因此 $ N = 2 ( log_2 d +1) $ 时 , $ f (N) le2 ^ N $ 从而 可 得 $ d_( aza grande_^ d mathcal) le 2 ( log_2 d +1) $ 这 是 因为 在 $ N = 2 ( log_2 d +1) $ 表示 的 最大 种类 数量 小于 等于 $ 2 ^ N $ , 所以 最多 destrozar $ 2 ( log_2 d +1 ) $ 个 点。

Escriba los pasos del algoritmo que combina $ phi_3 $ con regresión lineal. ¿Qué tal si usas $ phi_ <10> $ en su lugar? ¿Dónde está el principal cuello de botella computacional del algoritmo resultante?

这 部分 可以 参考 课本 86 页。 我们 直接 对 $ phi_k $ 进行 总结, 记 特征 空间 的 维度 为 $ widetilde d $ , 原始 数据 为 $ (x_1. X_N), (y_1. Y_N) $。

第一步 进行 特征 转换 , 记得 到 的 新 的 数据 为 $ ( widetilde x_1. Widetilde x_N) $ , 构成 的 矩阵 为 $ widetilde X $

第二步 计算 $ ( widetilde X ^ T widetilde X) ^ <-1> widetilde X ^ T $

第三 步 计算 $ ( widetilde X ^ T widetilde X) ^ <-1> widetilde X ^ Ty $

Considere la siguiente tarea de aprendizaje del "juguete" de semicírculo doble.

Hay dos semicírculos de ancho $ thk $ con radio interior $ rad $, separados por sep como se muestra (el rojo es -1 y el azul es +1). El centro del semicírculo superior está alineado con el centro del borde del semicírculo inferior. Esta tarea es linealmente separable cuando $ sep ge0 $, y no así para $ sep & lt0 $. Establezca $ rad = 10, thk = 5 $ y $ sep = 5 $. Luego, genere 2000 ejemplos de manera uniforme, lo que significa que tendrá aproximadamente 1000 ejemplos para cada clase.

(a) Ejecute el PLA comenzando desde $ w = 0 $ hasta que converja. Trace los datos y la hipótesis final.

(b) Repita el inciso (a) usando la regresión lineal (para clasificación) para obtener $ w $. Explique sus observaciones.

生成 点 的 方式 是 用 参数 方程 , 首先 从 $ [0,2 pi] $ 的 均匀 分布 中 生成 角度 $ theta $ , 再 从 $ [ text, exto+ texto] $ 生成 距离 圆心 的 距离 $ r $。 如果 $ theta in [0, pi] $ , 那么 属于 上 半 圆弧 , 此时 $ x = X_1 + r cos theta, y = Y_1 + r sin theta $ 否则 $ x = X_2 + r cos theta, y = Y_2 + r sin theta $ 这里 得到 如下 函数 , 依旧 在 helper.py 文件 中

Para la tarea de doble semicírculo del problema 3.1, varíe $ sep $ en el rango $ <0.2, 0.4,. . . , 5> $. Genere 2000 ejemplos y ejecute el PLA comenzando con $ w = 0 $. Registre el número de iteraciones que PLA necesita para converger.

Trace $ sep $ frente al número de iteraciones necesarias para que PLA converja. Explique sus observaciones. [Sugerencia: Problema 1.3.]

可以 看到 $ sep $ 越大 , 迭代 次数 总体 来说 在 下降。 现在 来 简单 分析 下 原因 , 回顾 Problema 1.3 (Página 33) $ rho = < min> <1 le n le N> y_n (w ^ <* T> x_n) R = <1 le n le N> || x_n || t le frac <>|| ^ 2> < rho ^ 2> $ 这里 圆环 的 位置 固定 , 所以 可以 认为 $ R $ 是 一个 常数 , 我们 来 分析 $ frac <|| w ^||> < rho> $。

Para la tarea de semicírculo doble del problema 3.1, establezca $ sep = -5 $ y genere 2000 ejemplos.

(a) ¿Qué pasará si ejecuta PLA en esos ejemplos?

(b) Ejecute el algoritmo de bolsillo para 100,000 iteraciones y grafique $ E _ < text> $ versus el número de iteración t.

(c) Grafique los datos y la hipótesis final del inciso (b).

(d) Utilice el algoritmo de regresión lineal para obtener los pesos w y compare este resultado con el algoritmo de bolsillo en términos de tiempo de cálculo y calidad de la solución.

(e) Repita (b) - (d) con una transformada de fatura polinomial de tercer orden.

(e) 先做 三次 特征 转换 , 再 重复 (b) 到 (d) , 注意到 三次 特征 转换 为 $ phi_3 (x) = (1, x_1, x_2, x_1x_2, x_1 ^ 2, x_2 ^ 2, x_1 ^ 3, x_1 ^ 2x_2, x_1x_2 ^ 2, x_2 ^ 3) $ 这里 特征 转换 使用 了 scikit-learn , 后续 作 曲线 的 图 用到 了 plt.contour 函数 , 原本 是 用来 绘制 等高 线 的 用来 画 隐 函数 的 图像

En el problema 1.5, presentamos el algoritmo Adaptive Linear Neuron (línea Ada) para la clasificación. Aquí, derivamos la línea Ada desde una perspectiva de optimización.

(a) Considere $ E_n (w) = ( max (0, 1 - y_nw ^ Tx_n)) ^ 2 $. Demuestre que $ E_n (w) $ es continuo y diferenciable. Escribe el gradiente $ nabla E_n (w) $.

(b) Muestre que $ E_n (w) $ es un límite superior para $ [! [ text(w ^ Tx_n) ne y_n]!] $. Por lo tanto, $ frac 1N sum_^ N E_n (w) $ es un límite superior para el error de clasificación en la muestra $ E _ < text> (w) $.

(c) Argumente que el algoritmo Adaline del problema 1.5 realiza un descenso de gradiente estocástico en $ frac 1N sum_^ N E_n (w) $.

(a) $ 1 - y_nw ^ Tx_n $ 关于 $ w $ 是 连续 的 , $ max (a, x) $ 关于 $ x $ 是 连续 的 , 所以 $ max (0, 1 - y_nw ^ Tx_n) $ 关于 $ w $ 是 连续 的 , 连续 函数 的 平方 也是 连续 的 , 所以 $ E_n (w) = ( max (0, 1 - y_nw ^ Tx_n)) ^ 2 $ 关于 $ w $ 连续。 再 来看 可 导 性 , 令$ s (w) = 1 - y_nw ^ Tx_n $ , $ s (w) $ 显然 关于 $ w $ 可 导 性, 我们 再 来看 下 $ f (s) = ( max (0, s)) ^ 2 $ $ f (s) = begin s ^ 2 & amps ge0 0 & amps & lt0 end $ 显然 这个 函数 也是 可 导 的。 所以 $ E_n (w) = f (s (w)) $ 也 可 导。 接下来 我们 求 梯度 $ frac < parcial E_> = comenzar frac < parcial (1 - y_nw ^ Tx_n) ^ 2> < parcial w_k> = (1 - y_nw ^ Tx_n) (- y_nx_n ^ k) & ampy_nw ^ Tx_n le1 0 & amp y_nw ^ Tx_n & gt1 end $ 因此 $ nabla E_n (w) = begin (1 - y_nw ^ Tx_n) (- y_nx_n) & ampy_nw ^ Tx_n le1 0 & ampy_nw ^ Tx_n & gt1 end $ (b) 作图 , 我们 先 对 式子 做 点 变形 $ [! [ text(w ^ Tx_n) ne y_n]!] Leftrightarrow [! [y_n times text(w ^ Tx_n) ne y_n veces y_n]!] Leftrightarrow [! [ text(y_nw ^ Tx_n) ne1]!] $ 令 $ s = text(y_nw ^ Tx_n) $

(c) 回顾 Problema 1.5 的 更新 规则 $ s (t) = w ^ T (t) x (t) 当 y (t) · s (t) le 1 时 , w (t + 1) = w ( t) + eta (y (t) -s (t)). x (t) $ 再 来看 下 我们 的 梯度 , 稍微 做 下 变形 $ (1 - y (n) w ^ Tx (n)) (- y (n) x (n)) = - (y (n) -w ^ Tx (n)) x (n) nabla E_n (w) = begin - (y (n) -w ^ Tx (n)) x (n) & ampy (n) w ^ Tx (n) le1 0 & ampy (n) w ^ Tx (n) & gt1 end $ 所以 随机 梯度 下降 法 的 更新 规则 为 $ w (t + 1) = w (t) - eta nabla E_t (w) = begin w (t) + eta (y (t) -w (t) ^ Tx (t)) x (t) & ampy (t) w (t) ^ Tx (t) le1 w (t) & ampy (t ) w (t) ^ Tx (t) & gt1 end $ 我们 使用 Problema 1.5 一样 的 符号 $ s (t) = w ^ T (t) x (t) $ , 那么 随机 梯度 下降 法 的 更新 规则 即为 Problema 1.5 的 更新 规则。

(a) Considere $ E_n (w) = max (0, 1 - y_nw ^ Tx_n) $ Muestre que $ E_n (w) $ es continuo y diferenciable excepto cuando $ y_n = w ^ Tx_n $.

(b) Muestre que $ E_n (w) $ es un límite superior para $ [! [ text(w ^ Tx_n) ne y_n]!] $. Por lo tanto, $ frac 1N sum_^ N E_n (w) $ es un límite superior para el error de clasificación en la muestra $ E _ < text> (w) $.

(c) Aplique descenso de gradiente estocástico en $ frac 1N sum_^ N E_n (w) $ (ignorando el caso singular de $ y_n = w ^ Tx_n $) y obtenga un nuevo algoritmo de aprendizaje de perceptrón.

(a) 我们 用上 一 题 一样 的 思路 , 令 $ s = y_nw ^ Tx_n $ , $ f (s) = max (0,1-s) $ 关于 $ s $ 连续, $ s $关于 $ w $ 连续 , 因此 $ E_n (w) = f (s (w)) $ 关于 $ w $ 连续。

$ s $ 关于 $ w $ 处处 可 导 , 但 $ f (s) = max (0,1-s) $ 在 $ s = 1 $ 处 不可 导 , 其余 点 均可 导。 我们 来看 下 $ s = 1 $ 的 特点 , 注意 $ y_n in <1, -1> $ , 那么 $ begin s & amp = 1 Leftrightarrow y_nw ^ Tx_n & amp = 1 Leftrightarrow y_n times y_nw ^ Tx_n & amp = y_n Leftrightarrow w ^ Tx_n & amp = y_n end $ 所以 $ E_n (w) = f (s (w)) $ 在 $ s = 1 $ 即 $ y_n = w ^ Tx_n $ 处 不可 导 , 其余 点 均可 导。

(b) 同 Problema 3.4 方法 , $ s = y_nw ^ Tx_n $ $ E_n (w) = max (0, 1 - y_nw ^ Tx_n) = max (0,1-s) E _ < text> = [! [ text(s) ne 1]!] $

(c) 先 不管 不可 导 点 , 我们 来 求 梯度 , 只 考虑 $ y_nw ^ Tx_n & lt1 $ 的 情形 , 此时 $ E_n (w) = 1 - y_nw ^ Tx_n frac < parcial E_n (w)> < parcial w_i> = frac < parcial (1 - y_nw ^ Tx_n)> < parcial w_i> = - y_nx_n ^ i $ 所以 $ 当 y_nw ^ Tx_n & lt1 时 , nabla E_n (w) = - y_nx_n 当 y_nw ^ Tx_n ge1 时 , nabla E_n (w) = 0 $ 所以 SGD (随机 梯度 下降 法) 的 更新 规则 为 $ 当 y (t) w (t) ^ Tx (t) & lt1 时 w (t + 1) = w (t) - eta nabla E_t (w) = w (t) + eta y (t) x (t) 当 y (t) w (t) ^ Tx (t) ge1 时 不 更新 $

Derive un algoritmo de programación lineal que se ajuste a un modelo lineal para la clasificación mediante los siguientes pasos. Un programa lineal es un problema de optimización de la siguiente forma: $ begin underet < min> & amp quad exto& amp quad Az le b end $ $A$, $b$ and $c$ are parameters of the linear program and $z$ is the optimization variable. This is such a well studied optimization problem that most mathematics software have canned optimization functions which solve linear programs.

(a) For linearly separable data,show that for some $w$, $y_n (w^Tx_n) ge1$ for $n = 1, . . . , N$.

(b) Formulate the task of finding a separating $w$ for separable data as a linear program. You need to specify what the parameters $A, b, c$ are and what the optimization variable $z$ is.

(c) If the data is not separable, the condition in (a) cannot hold for every $n$. Thus introduce the violation $xi_nge0$ to capture the amount of violation for example $x_n$. So, for $n = 1, . . . , N$,
$ egin y_n (w^Tx_n) &ge1-xi_n xi_n&ge0 end $ Naturally, we would like to minimize the amount of violation. One intuitive a pproach is to minimize $sum_^xi_n$, i .e., we want $w$ that solves
$ egin min_&quadsum_^xi_n ext &quad y_n (w^Tx_n) ge1-xi_n &quad xi_nge0 end $ where the inequalities must hold for $n = 1 , . . . , N​$. Formulate this problem as a linear program .

(d) Argue that the linear program you derived in (c) and the optimization problem in Problem 3.5 are equivalent.

(a)由第一章的结论,对于线性可分的数据,存在$w_1$,使得$y_n w_1^Tx_n>0(n = 1, . . . , N)$,设$ ho =min_<1le nle N>y_nw_1^Tx_n$,显然$ ho>0$,现在取$w=frac ho$,那么 $ y_n w^Tx_n=y_n (< ho>>)^Tx_n=frac < y_nw_1^Tx_n>< ho>ge1 $ 因此结论成立。

(b)这题的限制条件就是刚刚所说的$y_n w^Tx_nge1$,因此$z=w$,比较让人费解的是$c$应该取什么,实际上思考下,我们这里只要找到满足$y_n w^Tx_nge1,n = 1, . . . , N$这个条件的$w$即可,所以这里$c$可以取任意值。结合以上几点,下面把$A, b, c$分别写出,不妨设$w,x_nin mathbb R^d,n = 1, . . . , N$。

$ z=w=(w_1. w_d)^T x_n=(x_^1. x_n^d)^T A=left( egin -y_1x_1^T . -y_Nx_N^T end ight)

left( egin -y_1x_1^1 & . & -y_1x_1^d . & . & . -y_Nx_N^1 & . & -y_Nx_N^d end ight) in mathbb R^ b= left( egin -1 . -1 end ight)in mathbb R^N c为 mathbb R^d中任意向量 $

$ Az=left( egin -y_1x_1^T . -y_Nx_N^T end ight) w= left( egin -y_1x_1^Tw . -y_Nx_N^Tw end ight)

left( egin -y_1w^Tx_1 . -y_Nw^Tx_N end ight) = left( egin -1 . -1 end ight) $ 因此$Azle b​$即为$y_nw^Tx_nge1​$。

(c)依旧设$w,x_nin mathbb R^d,n = 1, . . . , N​$,和上一题类似的思路 $ z=(w_1. w_d,xi_1. xi_N)^Tin< mathbb R^> 记A_1=left( egin -y_1x_1^T . -y_Nx_N^T end ight)inmathbb R^,I_为N imes N阶单位矩阵 A_2=left( egin A_1& -I_ end ight)inmathbb R^ A_3=left( egin 0& -I_ end ight)inmathbb R^(0为N imes d阶0矩阵) A=left( egin A_2 A_3 end ight)inmathbb R^ <(2N) imes (N+d)>= (-1. -1,0. 0)^Tinmathbb R^<2N>,其中前N个分量为-1,其余为0 c=(0. 0,1. 1)^Tinmathbb R^,其中c的前d个分量为0,后N的分量为1 $ 同上一题的验证方法可以知此问题即为原来的问题。

(d)回顾下3.5 $ E_n (w) = max(0, 1 - y_nw^Tx_n) $ 我们的目标是最小化$frac 1N sum_^N E_n (w) $

这里我们令$xi n=E_n (w) = max(0, 1 - y_nw^Tx_n)$,那么 $ 1 - y_nw^Tx_nle xi_n 0lexi_n frac 1N sum^N E_n (w) =frac 1Nsum_^xi_n $ 注意$N$为常数,所以3.5即为 $ 在条件1 - y_nw^Tx_nle xi_n和0lexi_n下最小化sum_^xi_n $ 这就是我们刚刚考虑的问题。

Use the linear programming algorithm from Problem 3.6 on the learning task in Problem 3.1 for the separable ($sep = 5$) and the non separable ($sep = -5$) cases. Compare your results to the linear regression approach with and without the 3rd order polynomial feature transform.

For linear regression, the out of sample error is $ E_< ext> (h) =mathbb E [(h(x) - y)^2] $ Show that among all hypotheses, the one that minimizes $E_< ext> (h)$ is given by $ h^* (x) = mathbb E[y | x] $ The function $h^​$ can be treated as a deterministic target function, in which case we can write $y = h^ (x) + epsilon(x)​$ where $epsilon(x)​$ is an (input dependent) noise variable. Show that $epsilon(x)​$ has expected value zero.

这题其实是统计学习里一个比较常见的结论。 $ egin E_< ext> (h) &=mathbb E [(h(x) - y)^2] &=mathbb E [(h(x) -mathbb E[y | x]+mathbb E[y | x]-y)^2] &=mathbb E[(h(x) -mathbb E[y | x])^2+(mathbb E[y | x]-y)^2+2(h(x) -mathbb E[y | x])(mathbb E[y | x]-y)] &=mathbb E[(h(x) -mathbb E[y | x])^2]+mathbb E[(mathbb E[y | x]-y)^2]+2mathbb E[(h(x) -mathbb E[y | x])(mathbb E[y | x]-y)] &=mathbb E[(h(x) -h^(x))^2]+mathbb E[(h^(x)-y)^2]+2mathbb E[(h(x) -h^(x))(h^(x)-y)] end $ 下面分析$mathbb E[(h(x) -h^(x))(h^(x)-y)]$,注意$mathbb E(mathbb E(y|x))=mathbb E(y)$,因此 $ egin mathbb E[(h(x) -h^(x))(h^(x)-y)]&=mathbb E[mathbb E[(h(x) -h^(x))(h^(x)-y)|x]] &=mathbb E[(h(x) -h^(x))mathbb E[(h^(x)-y)|x]] end $ 接着分析$mathbb E[(h^(x)-y)|x]$,注意到 $ egin mathbb E[(h^(x)-y)|x]&=mathbb E(h^(x)|x)-mathbb E(y|x) &=h^(x)-h^(x) &=0 end $ 所以 $ mathbb E[(h(x) -h^(x))(h^(x)-y)]=mathbb E[(h(x) -h^(x))mathbb E[(h^(x)-y)|x]]=mathbb E[(h(x) -h^(x)) imes 0]=0 $ 综上 $ E_< ext> (h)=mathbb E[(h(x) -h^(x))^2]+mathbb E[(h^(x)-y)^2]ge mathbb E[(h^(x)-y)^2] 当且仅当h(x)=h^(x)时等号成立 $ 接着证明另一个结论。首先$y=y-h^(x)+h^(x)= h^* (x) + epsilon(x)$,所以只需计算$epsilon(x)$的数学期望,注意$mathbb E(mathbb E(y|x))=mathbb E(y)$,因此 $ egin mathbb E(epsilon(x))&=mathbb E[mathbb E(epsilon(x)|x)] &=mathbb E[mathbb E[(y-h^(x))|x]] &=mathbb E[mathbb E(y|x)-mathbb E(h^(x)|x)] &=mathbb E[h^(x)-h^(x)] &=0 end $ 所以$epsilon(x)​$满足条件,因此结论成立。

Assuming that $X^TX$ is invertible, show by direct comparison with Equation (3.4) that $E_< ext>(w)$ can be written as $ E_< ext>(w) = (w - (X^TX)^ <-1>X^Ty)^T(X^TX) (w - (X^TX)^<-1>X^Ty) + y^T(I - X(X^TX)^<-1>X^T)y $ Use this expression for $E_< ext>$ to obtain $w_< ext>$· What is the in sample error? [Hint: The matrix $X^TX$ is positive definite.]

Exercise 3.3 studied some properties of the hat matrix $H = X(X^TX)^<-1>X^T$, where $X$ is a $N$ by $d + 1$ matrix, and $X^TX $ is invertible. Show the following additional properties.

(a) Every eigenvalue of $H$ is either $ or $1$. [Hint: Exercise 3.3(b).]

(b) Show that the trace of a symmetric matrix equals the sum of its eigenvalues. [Hint: Use the spectral theorem and the cyclic property of the trace. Note that the same result holds for non-symmetric matrices, but is a little harder to prove.]

(c) How many eigenvalues of $H$ are $1$? What is the rank of $H$? [Hint: Exercise 3.3(d).]

(a)由3.3(b)我们知道$H^K=H$,所以对于$H$的任意特征值$lambda$ $ lambda^K=lambda lambda=0或1 $ (b)直接对一般的矩阵证明结论,利用标准型Jordan标准型​的结论即可 $ 任意方阵A可以相似于J,A = P J P^<-1>,其中J可以表示为如下形式 J= ext( J_1, J_2, dots,J_) J_ = egin lambda _i & 1 & 0 & dots & 0 0 & lambda _i & 1& dots & 0 0&0 & lambda _i & dots & 0 dots & dots & dots & dots & 1 0 & 0 & 0 & dots & lambda _i end in mathbb R^ $ 更具体的部分可以参考维基百科

Consider the linear regression problem setup in Exercise 3.4, where the data comes from a genuine linear relationship with added noise. The noise for the different data points is assumed to be iid with zero mean and variance $sigma^2$ . Assume that the 2nd moment matrix $Sigma =mathbb E_x[xx^T]$ is non-singular. Follow the steps below to show that, with high probability, the out-of-sample error on average is $ E_< ext> (w_< ext>) = sigma^2 (1 +frac< d + 1>+O (frac1N) ) $ (a) For a test point $x​$, show that the error $y - g(x)​$ is $ epsilon' - x^T(X^TX) ^<-1>X^Tepsilon $ where $epsilon'$ is the noise realization for the test point and $epsilon$ is the vector of noise realizations on the data .

(b) Take the expectation with respect to the test point, i.e., $x$ and $epsilon'$ , to obtain an expression for $E_< ext>$.Show that $ E_< ext> = sigma^2 + ext (Sigma(X^TX)^ <-1>X^Tepsilon epsilon ^TX(X^TX) ^<-1>) $ [Hints: a = trace(a) for any scalar a trace(AB) = trace(BA) expectation and trace commute.]

(c) What is $mathbb E_ [epsilon epsilon^T]​$?

(d) Take the expectation with respect to $epsilon​$ to show that, on average, $ E_< ext> = sigma^2 + frac ext (Sigma(frac 1N X^TX)^ <-1>) $ Note that :$frac 1N X^TX =frac 1N sum_^x_nx_n^T ​$ is an $N​$ sample estimate of $Sigma​$. So :$frac 1N X^TXapprox Sigma​$ . If :$frac 1N X^TX=Sigma​$, then what is $E_< ext>​$ on average?

(e) Show that (after taking the expectation over the data noise) with high probability, $ E_< ext> = sigma^2 (1 +frac< d + 1>+O (frac1N) ) $ [Hint: By the law of large numbers : $frac 1N X^TX$ converges in probability to $sum$, and so by continuity of the inverse at $sum$, $(frac 1N X^TX)^<-1>$ converges in probability to $sum^<-1>$.]

(a)同Exercise 3.4,记$y=[y_1. y_N]^T,X=[x_1. x_N]^T$,注意题目中给出$epsilon=[epsilon_1,epsilon_2. epsilon_N]^T$

那么 $ egin g(x)&=x^Tw_< ext> &=x^T(X^TX)^<-1>X^Ty &=x^T(X^TX)^<-1>X^T(Xw^* + epsilon) &=x^T(X^TX)^<-1>X^TXw^+X(X^TX)^<-1>X^Tepsilon &=x^Tw^+x^T(X^TX)^<-1>X^Tepsilon end $ 从而 $ egin y - g(x)&=x^Tw^+epsilon'-(x^Tw^+x^T(X^TX)^<-1>X^Tepsilon) &=epsilon'-x^T(X^TX)^<-1>X^Tepsilon end $ (b)利用定义计算即可,注意这题是关于$epsilon',x​$求期望 $ egin E_< ext>&=mathbb E(||y - g(x)||^2) &=mathbb E(||epsilon'-x^T(X^TX)^<-1>X^Tepsilon||^2) &=mathbb E((epsilon'-x^T(X^TX)^<-1>X^Tepsilon)^T(epsilon'-x^T(X^TX)^<-1>X^Tepsilon)) &=mathbb E[(-epsilon^TX(X^TX)^<-1>x+epsilon'^)(epsilon'-x^T(X^TX)^<-1>X^Tepsilon)] &=mathbb E[-epsilon^TX(X^TX)^<-1>xepsilon'+epsilon^<'T>epsilon' +epsilon^TX(X^TX)^<-1>xx^T(X^TX)^<-1>X^Tepsilon-epsilon'^x^T(X^TX)^<-1>X^Tepsilon)](注意epsilon'acksim mathcal N(0,sigma^2)) &=-2mathbb E[epsilon^TX(X^TX)^<-1>xepsilon']+mathbb E((epsilon'))^2+ ext(mathbb E(epsilon^TX(X^TX)^<-1>xx^T(X^TX)^<-1>X^Tepsilon)) &=-2mathbb E[epsilon^TX(X^TX)^<-1>x]mathbb E(epsilon')+sigma^2+mathbb E[ ext(epsilon^TX(X^TX)^<-1>xx^T(X^TX)^<-1>X^Tepsilon)] (注意 ext(AB)= ext(BA),mathbb E(epsilon')=0) &=sigma^2+mathbb E[ ext(xx^T(X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>)] &=sigma^2+ ext(mathbb E(xx^T(X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>)) &=sigma^2+ ext(mathbb E(xx^T)(X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>) &=sigma^2+ ext(Sigma (X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>)(Sigma = mathbb E_x[xx^T]) end $ (c)直接计算即可,注意到 $ mathbb E(epsilon_iepsilon_j)=egin

$ egin mathbb E_ [epsilon epsilon^T]&=mathbb E_ [(epsilon_1,epsilon_2. epsilon_N) (epsilon_1,epsilon_2. epsilon_N)^T]

(d)利用c,对b计算的$E_< ext>$关于$epsilon​$取数学期望可得 $ egin E_< ext>'&=mathbb E_(E_< ext>) &=mathbb E_[sigma^2+ ext(Sigma(X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>)] &=sigma^2+ ext[mathbb E_(Sigma (X^TX)^<-1>X^Tepsilonepsilon^TX(X^TX)^<-1>)] &=sigma^2+ ext[Sigma (X^TX)^<-1>X^Tmathbb E_(epsilonepsilon^T)X(X^TX)^<-1>)] &=sigma^2+sigma^2 ext[Sigma (X^TX)^<-1>X^TX(X^TX)^<-1>)] &=sigma^2+sigma^2 ext[Sigma (X^TX)^<-1>] &= sigma^2 + frac ext (Sigma(frac 1N X^TX)^ <-1>) end $ 由计算我们知道$frac 1N X^TX =frac 1N sum_^x_nx_n^T $是$Sigma$的极大似然估计,因此$frac 1N X^TXapproxSigma$。如果$frac 1N X^TX=Sigma$ $ E_< ext>'= sigma^2 + frac ext ( I_)= sigma^2 (1 +frac< d + 1>) $ (e)由大数定律我们知道$frac 1N X^TX$依概率收敛于$Sigma $,所以$(frac 1N X^TX)^<-1>$依概率收敛于$Sigma^<-1>$,从而有很高的的概率 $ Sigma(frac 1N X^TX)^<-1>=Sigma(Sigma^<-1>+S)=I_+ Sigma S $ 其中$S​$为一个矩阵,那么有很高的概率 $ ext (Sigma(frac 1N X^TX)^ <-1>)= sigma^2 (< d + 1>+O (1) ) $ 从而有很高的概率 $ E_< ext> = sigma^2 + frac ext (Sigma(frac 1N X^TX)^ <-1>)= sigma^2 (1 +frac< d + 1>+O (frac1N) ) $

In linear regression , the in sample predictions are given by $hat y = Hy$, where $H = X(X^TX)^<-1>X^T$. Show that $H$ is a projection matrix, i.e. $H^2 = H$. So $hat y$ is the projection of $y$ onto some space. What is this space?

这里简单说明这几个结论。$hat y = Hy=X(X^TX)^<-1>X^Ty=Xw_< ext>​$,由线性代数知识我们知道$hat y​$属于$X​$的列张成的子空间。接着考虑$y-hat y​$,注意$H​$为对称矩阵 $ hat y^T(y-hat y)=y^TH^T(I-H)y=y^T(H^T-H^TH)y=y^T(H-H^2)y=0 $ 所以$y-hat y$垂直于$hat y$。

This problem creates a linear regression algorithm from a good algorithm for linear classification. As illustrated , the idea is to take the original data and shift it in one direction to get the +1 data points then , shift it in the opposite direction to get the -1 data points.

More generally, The data $(x_n , y_n)$ can be viewed as data points in $mathbb R^$ by treating the $y$ value as the $(d + 1)$ th coordinate.

Now, construct positive and negative points
$ mathcal D_+= (x_1 , y_1) + a, . . . , (x_N, y_N) + a mathcal D_-= (x_1 , y_1) - a, . . . , (x_N, y_N) - a $ where $a$ is a perturbation parameter. You can now use the linear programming algorithm in Problem 3.6 to separate $mathcal D_+ $ from $mathcal D_-$ . The resulting separating hyperplane can be used as the regression 'fit' to the original data.

(a) How many weights are learned in the classification problem? How many weights are needed for the linear fit in the regression problem?

(b) The linear fit requires weights $w$, where $h(x) = w^Tx$. Suppose the weights returned by solving the classification problem are $w_$ . Derive an expression for $w$ as a function of $w_$ ·

(c) Generate a data set $y_n = x_n^2 + sigma epsilon_n$ with $N = 50$, where $x_n$ is uniform on $[0, 1]$ and $epsilon_n$ is zero mean Gaussian noise set $sigma = 0.1$. Plot $mathcal D_+$ and $mathcal D_-$ for $a = [0,0.1]^T $.

(d) Give comparisons of the resulting fits from running the classification approach and the analytic pseudo-inverse algorithm for linear regression .

题目的意思是对于回归问题的点$(x_n , y_n)$,有个一个偏移量$a$,构造两个点集, $ mathcal D_+= (x_1 , y_1) + a, . . . , (x_N, y_N) + a mathcal D_-= (x_1 , y_1) - a, . . . , (x_N, y_N) - a $ 我们对于这两个点集作分类问题,利用分类问题得到的参数来做回归。

(a)由题设知$x_nin mathbb R^d$,所以$(x_n,y_n)=(x_n^1. x_n^d,y_n)in mathbb R^$,注意学习的时候还要加一个$1$分量 ,数据变为$(1,x_n,y_n)=(1,x_n^1. x_n^d,y_n)in mathbb R^$,从而对于分类问题我们需要学习$d+2$个权重$w=(w_0. w_,w_)$。

In a regression setting, assume the target function is linear, so $f(x) = x^Tw_f$ , and $y= Xw_f+epsilon$, where the entries in $epsilon$ are zero mean, iid with variance $sigma^2$ . In this problem derive the bias and variance as follows.

(a) Show that the average function is $overline(x) = f(x)​$, no matter what the size of the data set, as long as $X^TX​$ is invertible. What is the bias?

(b) What is the variance? [Hint: Problem 3.11]

(a)注意$(X^TX)^<-1>$可逆,$epsilon$的数学期望为$ $ egin mathbb E(w_f)&=mathbb E((X^TX)^<-1>X^Ty) &=mathbb E((X^TX)^<-1>X^T(Xw_f+epsilon)) &=mathbb E((X^TX)^<-1>X^TXw_f)+(X^TX)^<-1>X^Tmathbb E(epsilon) &=w_f end $ 所以$overline(x) = x^Tmathbb E(w_f)=x^T w_f=f(x)​$ $ ext(x)=(overline(x) - x^T w_f- epsilon )^2=epsilon ^2 ext=mathbb E[ ext(x)] =mathbb E[epsilon^2]=sigma^2 $ (b)注意 $ E_< ext> = ext + ext $ 由Problem 3.11可得 $ E_< ext> = sigma^2 + ext (Sigma(X^TX)^ <-1>X^Tepsilon epsilon ^TX(X^TX) ^<-1>) $ 因此 $ ext = E_< ext> - ext = ext (Sigma(X^TX)^ <-1>X^Tepsilon epsilon ^TX(X^TX) ^<-1>) $

In the text we derived that the linear regression solution weights must satisfy $X^TXw = X^Ty​$. If $X^TX​$ is not invertible, the solution $w_< ext>=(X^TX)^<-1>X^Ty​$ won 't work. In this event, there will be many solutions for w that minimize $E_< ext>​$. Here, you will derive one such solution. Let $ ho​$ be the rank of $X​$. Assume that the singular value decomposition (SVD) of $X​$ is $X = UGamma V^T​$ where $Uin mathbb R^ ​$ satisfies $U^TU = I_< ho>​$. $Vinmathbb R^ <(d+1) imes ho>​$ satisfies $V^TV = I_< ho>​$. and $Gamma inmathbb R^< ho imes ho>​$ is a positive diagonal matrix.

(b) Show that $w_< ext> = VGamma ^<-1>U^Ty$ satisfies $X^TXw_< ext> = X^Ty$, and hence is a solution.

(c) Show that for any other solution that satisfies $X^TXw = X^Ty, ||w_< ext> || < ||w||$ · That is, the solution we have constructed is the minimum norm set of weights that minimizes $E_< ext>$·

In Example 3.4, it is mentioned that the output of the final hypothesis $g(x)​$ learned using logistic regression can be thresholded to get a ' hard ' ($±1​$) classification. This problem shows how to use the risk matrix introduced in Example 1 . 1 to obtain such a threshold .

Consider fingerprint verification, as in Example 1.1. After learning from the data using logistic regression, you produce the final hypothesis $ g(x) = mathbb P[y = +1 | x] $ which is your estimate of the probability that $y = +1​$. Suppose that the cost matrix is given by

For a new person with fingerprint $x​$, you compute $g(x)​$ and you now need to decide whether to accept or reject the person (i.e., you need a hard classification ) . So, you will accept if $g(x) ge kappa​$ , where $kappa​$ is the threshold.

(a) Define the cost(accept) as your expected cost if you accept the person. Similarly define cost(reject) . Show that
$ egin ext&=(1 - g(x))c_a ext&=g(x)c_r end $ (b) Use part (a) to derive a condition on $g(x)​$ for accepting the person and hence show that $ kappa=frac $ (c) Use the cost matrices for the Supermarket and CIA a pplications in Example 1.1 to compute the threshold $kappa$ for each of these two cases. Give some intuition for the thresholds you get.

(a)如果accept,那么 $ ext=mathbb P[y = +1 | x] imes 0+mathbb P[y = -1 | x] imes c_a=(1-g(x))c_a $ 如果reject,那么 $ ext=mathbb P[y = +1 | x] imes c_r+mathbb P[y = -1 | x] imes0=g(x)c_r $ (b)令只有当$ extle ext​$时才应该接受,解这个不等式可得 $ (1 - g(x))c_ale g(x)c_r c_ale g(x)(c_a+c_r) fracle g(x) $ 所以当$fracle g(x)$时接受,$frac> g(x)$时拒绝,对照题目可知 $ kappa=frac $ (c)回顾课本上有关超市和CIA的图

Consider a function $ E(u, v) = e^u + e^ <2v>+ e^ + u^2 - 3uv + 4v^2 - 3u - 5v $ (a) Approximate $E(u + Delta u, v + Delta v)$ by $hat E_1(Delta u, Delta v)$, where $hat E_1$ is the first-order Taylor's expansion of $E$ around $(u, v) = (0, 0) $. Suppose $hat E_1(Delta u, Delta v)= a_uDelta u + a_vDelta v + a$. What are the values of $a_u , a_v $, and $a$?

(b) Minimice $ hat E_1 $ sobre todos los $ ( Delta u, Delta v) $ posibles de manera que $ | ( Delta u, Delta v) | = 0,5 $. En este capítulo, probamos que el vector de columna óptimo $ left [ begin Delta u Delta v end right] $ es paralelo al vector columna $ - nabla E (u, v) $, que se denomina dirección de gradiente negativa. Calcule el $ ( Delta u, Delta v) $ óptimo y el $ E (u + Delta u, v + Delta v) $ resultante.

(c) Aproximadamente $ E (u + Delta u, v + Delta v) $ por $ hat E_2 ( Delta u, Delta v) $, donde $ E_2 $ es la expansión de Taylor de segundo orden de $ E $ alrededor de $ (u, v) = (0, 0) $. Supongamos que $ hat E_2 ( Delta u, Delta v) = b_( Delta u) ^ 2 + b_( Delta v) ^ 2 + b_( Delta u) ( Delta v) + b_u Delta u + b_v Delta v + b $ ¿Cuáles son los valores de $ b_ , B_ , B_ , B_ , B_$ Y $ b $?

(d) Minimice $ hat E_2 $ sobre todos los $ ( Delta u, Delta v) $ posibles (independientemente de la longitud). Utilice el hecho de que $ nabla ^ 2 E (u, v) | _ <(0,0)> $ (la matriz hessiana en $ (0, 0) $) es definida positiva para demostrar que el vector de columna óptimo $ izquierda [ begin Delta u ^ * Delta v ^ * end right] = - ( nabla ^ 2 E (u, v)) ^ <-1> nabla E (u, v) $ que se llama la dirección de Newton.

(e) Calcule numéricamente los siguientes valores:

(I) el vector $ ( Delta u, Delta v) $ de longitud .5 $ a lo largo de la dirección de Newton, y el $ E (u + Delta u, v + Delta v) $ resultante.

(Ii) el vector $ ( Delta u, Delta v) $ de longitud .5 $ que minimiza $ E (u + Delta u, v + Delta v) $, y el resultado $ E (u + Delta u, v + Delta v) $. (Sugerencia: Sea $ Delta u = 0.5 sin theta $.)

Compare los valores de $ E (u + Delta u, v + Delta v) $ en (b), (e i) y (e ii). Exprese brevemente sus hallazgos.

La dirección del gradiente negativo y la dirección de Newton son fundamentales para diseñar algoritmos de optimización. Es importante comprender estas instrucciones y ponerlas en su caja de herramientas para diseñar algoritmos de aprendizaje.

带入 公式 求解 , $ Delta u = 0.4472136, Delta v = 0.2236068, E (u + Delta u, v + Delta v) = 1.87339277 $

(e) 将 之前 计算 出来 的 系数 带入 $ hat E_2 ( Delta u, Delta v) = b_( Delta u) ^ 2 + b_( Delta v) ^ 2 + b_( Delta u) ( Delta v) + b_u Delta u + b_v Delta v + b $ , 令 ​​$ Delta u = t, Delta v = s $ $ begin hat E_2 ( Delta u, Delta v) & amp = b_( Delta u) ^ 2 + b_( Delta v) ^ 2 + b_( Delta u) ( Delta v) + b_u Delta u + b_v Delta v + b & amp = 1.5 (t ^ 2) +5 (s ^ 2) -2st-2t-3s-2 & amp = 1.5 (ta) ^ 2 + 5 (sb) ^ 2-2 (ta) (sb) + C end $ 其中 $ a, b, C $ 均为 常数 , 后续 会 求解 出来 , 令 $ t_1 = t-a, s_1 = s-b $ $ begin hat E_2 ( Delta u, Delta v) & amp = 1.5 (ta) ^ 2 + 5 (sb) ^ 2-2 (ta) (sb) + C & amp = 1.5t ^ 2_1 + 5s ^ 2_1-2t_1s_1 + C & amp = frac 3 2 (t_1- frac 2 3 s_1) ^ 2 + (5- frac 2 3) s_1 ^ 2 + C end $ 题目 中 要 使得 $ E_2 (u, v) = E_2 (0,0) + hat E_2 ( Delta u, Delta v) $ 最小 , 所以 求 $ hat E_2 ( Delta u, Delta v) $ 的 最小值 即可。

由 上 式 , 当 $ s_1 = 0, t_1- frac 2 3 s_1 = 0 $ 时 , 即 $ s_1 = t_1 = 0 $ 时 $ hat E_2 ( Delta u, Delta v) $ 最小 , 注意 $ t_1 , s_1 $ 的 定义 可 得 此时 $ t = a, s = b $ 而 $ Delta u = t, Delta v = s $ , 所以 等号 成立 的 条件 为 $ Delta u = a, Delta v = b $ 接下来 求解 $ a, b $ $ begin 1.5 (ta) ^ 2 + 5 (sb) ^ 2-2 (ta) (sb) + C & amp = 1.5 (t ^ 2-2at + a ^ 2) +5 (s ^ 2-2sb + b ^ 2) - 2 (ts-as-bt + ab) + C & amp = 1.5t ^ 2 + 5s ^ 2-2st- (3a-2b) t- (10b-2a) s + 1.5a ^ 2 + 5b ^ 2-2ab + C & amp = 1.5 t ^ 2 + 5s ^ 2-2st-2t-3s-2 end $ 那么 $ begin 3a-2b = 2 -2a + 10b = 3 end left [ begin 3 y amperio -2 -2 y amperio 10 end right] left [ begin a b endderecho]

finalderecho]
left [ begin Delta u Delta v end right] = left [ begin a b end right] = left [ begin 3 y amperio -2 -2 y amperio 10 end right] ^ <-1> left [ begin 2 3 end right] $ 所以 这种 方法 可以 得出 牛顿 方法 同样 的 解 , 这 也 验证 了 牛顿 方法 的 正确性 , 计算 结果 同 (d)。

Tome la función transfrm $ phi_2 $ en la ecuación (3.13) como $ phi $.

(a) Muestre que $ d_ ( mathcal_ < phi>) le 6 $

(b) Muestre que $ d_ ( mathcal_ < phi>) & gt4 $. [Sugerencia: ejercicio 3.12]

(c) Dar un límite superior en $ d_ ( mathcal_ < phi_k>) $ por $ mathcal = mathbb R ^ d $.

(d) Defina $ tilde < phi_2>: x to (1, x_1, x_2, x_1 + x_2, x_1-x_2, x_1 ^ 2, x_1x_2, x_2x_1, x_2 ^ 2) text x in mathbb R ^ 2 $ Argumenta que $ d_ ( mathcal < tilde < phi_2 >>) = d ( mathcal << phi_2 >>) $. En otras palabras, mientras $ tilde < phi_2> ( mathcal X) en R ^ 9 $, $ d ( mathcal < tilde < phi_2 >>) le 6 & lt 9 $. Por lo tanto, la dimensión de $ phi ( mathcal) $ Solo da un límite superior de $ d ( mathcal< phi>) $, y el valor exacto de $ d ( mathcal_ < phi>) $ puede depender de los componentes de la transformación.

回顾 103 页 的 $ phi_2 $ $ phi_2 (x) = (1, x_1, x_2, x_1 ^ 2, x_1x_2, x_2 ^ 2) $ (a) 可以 将 $ phi_2 (x) in mathbb R ^ 5 $ 看成 $ mathbb R ^ 5 $ 上 的 感知 机 , 所以
$ d_ ( mathcal< phi_2>) le6 $ (b) 对于 每种 分类 , 实际上 我们 是 在 找到 满足 如下 条件 的 $ w $ , $ text(w ^ Tx ^ <(i)>) = y ^ <(i)> (i = 1,2. N) $ 其中 $ (x ^ <(1)>. x ^ <(N)>) $为 输入 数据 , $ (y ^ <(1)>. Y ^ <(N)>) $ 为 对应 的 分类 ($ y ^ <(i)> in <1, -1> $) , 对于此 题 , 我们 取 $ N = 5 $ , 且 求解 一个 更强 的 条件 $ w ^ Tx ^ <(i)> = y ^ <(i)> (i = 1,2. 5) $ 结合 $ phi_2 (x) = (1, x_1, x_2, x_1 ^ 2, x_1x_2, x_2 ^ 2) $ 可 得 $ w_0 + w_1x_1 ^ <(i)> + w_2x_2 ^ <(i)> + w_3 (x_1 ^ < (i)>) ^ 2 + w_4x_1 ^ <(i)> x_2 ^ <(i)> + w_5 (x_2 ^ <(i)>) ^ 2 = y ^ <(i)> (i = 1,2. 5) $ 这 是 关于 $ w_j (j = 0,1. 5) $ 的 六 元 一次方程 组 , 且 方程 组 有 五个 , 所以 必然 有解。 从而 对于 5 个 点 , 任意 一种 分类 均 可以表示 出来 , 所以 $ d ( mathcal< phi>) ge5 & gt4 $ (c) 可以 将 $ mathcal < phi_k> $ 看成 $ mathbb R ^ d $ 上 的 感知 机 , 所以 $ d_ ( mathcal_ < phi_k>) le d + 1 $ (d) 我们 每 一种 分类 实际上 对应 了 一个 $ w $ , 使得 $ text(w ^ Tx ^ <(i)>) = y ^ <(i)> (i = 1,2. N) $ 其中 $ (x ^ <(1)>. x ^ <(N)>) $ 为输入 数据 , $ (y ^ <(1)>. Y ^ <(N)>) $ 为 对应 的 分类 ($ y ^ <(i)> in <1, -1> $)。 所以 如果 我们 能证明 $ phi_2 $ 对应 的 $ w $ 与 $ tilde < phi_2> $ 对应 的 $ tilde w $ 可以 形成 一一对应 关系 , 那么 即可 证明 结论 , 因为 两种 特征 转化 下 的 分类 可以 一一对应。

先 证明 $ phi_2 $ 对应 的 $ w $ 与 $ tilde < phi_2> $ 对应 的 $ tilde w $ 可以 形成 一一对应 关系 $ begin tilde w ^ T tilde phi_2 & amp = tilde w_0 + tilde w_1x_1 + tilde w_2x_2 + tilde w_3 (x_1 + x_2) + tilde w_4 (x_1-x_2) + tilde w_5 (x_1 ^ 2) + tilde w_6 ( x_1x_2) + tilde w_7 (x_2x_1) + tilde w_8 (x_2 ^ 2) & amp = tilde w_0 + ( tilde w_1 + tilde w_3 + tilde w_4) x_1 + ( tilde w_2 + tilde w_3- tilde w_4) x_2 + tilde w_5 (x_1 ^ 2) + ( tilde w_6 + tilde w_7) (x_1x_2) + tilde w_8 (x_2 ^ 2) end $ 那么 $ tilde w $ 可以 对应 为 $ ( tilde w_0, tilde w_1 + tilde w_3 + tilde w_4, tilde w_2 + tilde w_3- tilde w_4, tilde w_5, tilde w_6 + tilde w_7, tilde w_8) $

接着 证明 $ tilde < phi_2> $ 对应 的 $ tilde w $ 与 $ phi_2 $ 对应 的 $ w $ 可以 形成 一一对应 关系 $ begin ^ T < phi_2> & amp = w_0 + w_1x_1 + w_2x_2 + w_3 (x_1 ^ 2) + w_4 (x_1x_2) + w_5 (x_2 ^ 2) & amp = w_0 + w_1x_1 + w_2x_2 + 0 (x_1 + x_2) + 0 (x_1-x_2) + w_3 (x_1 ^ 2) + w_4 (x_1x_2) +0 (x_2x_1) + w_5 (x_2 ^ 2) end $ 所以 $ tilde w $ 可以 对应 为 $ (w_0, w_1, w_2,0,0, w_3, w_4,0, w_5) $。

Un transformador cree que los siguientes procedimientos funcionarían bien para aprender de conjuntos de datos bidimensionales de cualquier tamaño. Indique si existe algún problema potencial en los procedimientos:

(a) Utilice la función transform $ phi (x) = begin ( underbrace <0. 0> _, 1,0. ) & amp text (0. 0) & amp text final $ antes de ejecutar PLA.

(b) Use la función transform $ phi $ con $ phi_n (x) = exp Big (- frac <| x-x_n | ^ 2> <2 gamma ^ 2> Big) $ usando algunos pequeño $ gamma $ ·

(c) Utilice la función transform $ phi $ que consta de todos $ phi_(x) = exp Big (- frac <| x- (i, j) | ^ 2> <2 gamma ^ 2> Big) $ antes de ejecutar PLA, con $ i in <0, frac <1> <100>,. . . , 1> $ y $ j in <0, frac <1> <100>,. . . , 1> $.

(a) 这 题 和 台大 的 作业 3 第 12 题 很像 , 我们 来看 三个 点 $ x_1, x_2, x_3 $ 的 情形 $ phi (x_1) = (1,0,0) phi (x_2 ) = (0,1,0) phi (x_3) = (0,0,1) $ 可以 看到 这里 将 3 个 点 映射 到 了 $ mathbb R ^ 3 $ , 同理 可知 $ N $ 个 点可以 映射 到 $ mathbb R ^ N $ , $ mathbb R ^ N $ 的 感知 机 $ d_= N + 1 $ , 所以 $ N $ 个 点 一定 能被 destrozar , 从而 这种 特征 转换 是 好的。


Prueba de bombeo¶

Introducción¶

A continuación se muestran los datos proporcionados que se obtuvieron de una prueba de bombeo realizada en el sitio “Oude Korendijk” al sur de Rotterdam en los Países Bajos (Ver Kruseman y De Ridder, p. 56, 59). Todos los piezómetros están abiertos a 20 m por debajo de la superficie del suelo. La cabeza de agua subterránea es poco profunda, a un metro de la superficie del suelo. Los primeros 18 m bajo tierra consisten en arcilla, turba y arena fina arcillosa. Estas capas forman una unidad de confinamiento prácticamente impermeable. Debajo de este, entre 18 y 25 m bajo la superficie del suelo se encuentran 7 m de arena y algo de grava, que forman el acuífero. Sedimentos de arena fina y arcillosos que se encuentran debajo de la base del acuífero, que se considera impermeable. Se instalaron piezómetros a 30, 90 y 215 m del pozo, abiertos a 20 m bajo tierra. El pozo tiene su pantalla instalada sobre todo el espesor del acuífero. Consideramos que el acuífero está confinado sin fugas. Pero debemos mirar con ojo crítico las curvas de reducción para verificar hasta qué punto este supuesto es cierto.

Los datos de reducción de los tres piezómetros se proporcionan a continuación. La primera columna es el tiempo después del inicio de la bomba en minutos, la segunda columna es la reducción en m.

El pozo extrae 788 m3 / d

El objetivo de la prueba de bombeo es determinar las propiedades kD y S del acuífero.


Funciones ASAP NextGen Gerente de Óptica

Una nueva interfaz fácil de usar que presenta a los usuarios una estructura de árbol familiar similar a CAD. Usando menús simples, cuadros de diálogo sensibles al contexto y los catálogos ASAP incluidos, los usuarios pueden crear una variedad de superficies ópticas y entidades geométricas, importar geometría CAD, agregar propiedades ópticas, agregar una fuente de luz y configurar opciones de análisis y trazado de rayos. Los componentes se muestran como nodos en el árbol y el nuevo visor 3D persistente se actualiza automáticamente para reflejar los cambios en la prescripción del sistema. El sistema definido puede ejecutarse con un solo clic del mouse y guardarse para su uso posterior. Y el nuevo Optics Manager en las funciones ASAP NextGen sin una sola línea de guión!

Creación automática de guiones

Hablando de guiones… ASAP NextGen ofrece otra primicia en la industria para el software de diseño óptico. Una vez que los sistemas están construidos en Optics Manager, ASAP NextGen creará automáticamente un script de trabajo a partir de la prescripción completa del sistema. Los usuarios que necesiten acceso al poderoso lenguaje de secuencias de comandos de ASAP pueden modificar y ejecutar inmediatamente estas secuencias de comandos para agregar análisis u optimización de múltiples variables utilizando el nuevo Administrador de optimización a sus tareas de diseño.

Procesamiento distribuido paralelo + remoto

Al presentar otro nuevo paradigma para la velocidad y eficiencia del trazado de rayos, ASAP NextGen con tecnología CoreMax ejecutará automáticamente procesos paralelos en todos los núcleos de una PC local, así como todos los núcleos en hasta (5) licencias remotas de ASAP instaladas en la LAN. Además, los usuarios pueden controlar la cantidad de núcleos a los que se accede en cada máquina. Esta combinación de procesamiento distribuido en paralelo y remoto es otra primicia en la industria y convertirá a ASAP NextGen en el trazador de rayos más rápido con el nivel más alto de potencia informática de cualquier software de diseño óptico comercial.

Administrador de flujo de trabajo

Proporciona acceso rápido y fácil a los menús de comandos para aquellos usuarios con los que se sienten menos cómodos pero que aún necesitan secuencias de comandos en ASAP NextGen. Los comandos se pueden encontrar en el cuadro de búsqueda o en el árbol del Administrador de flujo de trabajo, que se ha organizado en torno al proceso de simulación estándar de 4 pasos en ASAP ... geometría, fuentes, trazado de rayos y análisis. Los menús están claramente etiquetados para mostrar la información exacta necesaria para construir el comando y la Ayuda ASAP está integrada en el cuadro de diálogo Administrador de flujo de trabajo. Los comandos completados se insertan automáticamente en la ubicación del cursor del script activo.

Lenguajes de secuencias de comandos alternativos

Soporte recientemente agregado para C # y Iron Python como lenguajes de scripting alternativos con análisis y depuración de código integrados. Soporte mejorado para Visual Basic. Proporciona una base de código extensible para estos lenguajes.


Un algoritmo ELM microgenético multiobjetivo

La máquina de aprendizaje extremo (ELM) es una metodología para el aprendizaje de redes neuronales feedforward de una sola capa oculta (SLFN) que ha demostrado ser extremadamente rápida y proporcionar un rendimiento de generalización muy bueno. ELM funciona eligiendo aleatoriamente los pesos y sesgos de los nodos ocultos y luego obteniendo analíticamente los pesos y sesgos de salida para un SLFN con el número de nodos ocultos previamente fijado. En este trabajo, desarrollamos un ELM microgenético multiobjetivo (μ G - ELM) que proporciona el número apropiado de nodos ocultos para el problema que se está resolviendo, así como los pesos y sesgos que minimizan el MSE. El algoritmo multiobjetivo se realiza según dos criterios: el número de nodos ocultos y el error cuadrático medio (MSE). Además, como novedad, μ G-ELM incorpora un dispositivo de regresión para decidir si el número de nodos ocultos de los individuos de la población debe aumentarse, disminuir o no. En general, el algoritmo propuesto alcanza mejores errores al implicar también un menor número de nodos ocultos para los conjuntos de datos y competidores considerados.


Recompensa y señales de error de predicción ficticia en el cuerpo estriado ventral: asimetría entre procesamiento fáctico y contrafáctico

Se sabe que el error de predicción de la recompensa, la diferencia entre la recompensa esperada y la obtenida, actúa como una señal neuronal de aprendizaje reforzado. En el estudio actual, proponemos un enfoque de ajuste de modelo que combina datos conductuales y neuronales para ajustarse a modelos computacionales de aprendizaje por refuerzo. Brevemente, penalizamos los parámetros ajustados específicos del sujeto que se alejaron demasiado de la mediana del grupo, excepto cuando esa desviación condujo a una mejora en el ajuste del modelo a las respuestas neuronales. Por medio de una tarea de aprendizaje monetario probabilístico y fMRI, comparamos nuestro enfoque con los métodos de ajuste de modelos estándar. El Q-learning superó al actor-crítico tanto a nivel conductual como neuronal, aunque la inclusión de datos de neuroimagen en el ajuste del modelo mejoró el ajuste de los modelos actor-crítico. Observamos señales de error de predicción de valor de acción y de valor de estado en el cuerpo estriado, mientras que los enfoques de ajuste de modelos estándar no lograron capturar las señales de valor de estado. Finalmente, el estriado ventral izquierdo se correlacionó con el error de predicción de la recompensa, mientras que el estriado ventral derecho con el error de predicción ficticio, lo que sugiere una asimetría hemisférica funcional con respecto al aprendizaje impulsado por el error de predicción.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Resumen

Los humedales son ecosistemas importantes que desempeñan un papel clave en el control de las inundaciones, el sumidero de nutrientes, la estabilidad de la costa y la conservación de la biodiversidad. Se ha prestado considerable atención a nivel mundial a la evaluación y restauración de humedales degradados. De particular preocupación es el pantano Cootes Paradise, uno de los humedales de los Grandes Lagos más degradados en el sur de Ontario, que ha experimentado una disminución del 90% en la cobertura de macrófitos en los últimos 50 años. En este estudio, presentamos un modelo de eutrofización de humedales que explica explícitamente la interacción ecológica entre el fitoplancton, los macrófitos y la liberación de nutrientes de los sedimentos. Primero revisamos la literatura pertinente para compilar las formulaciones matemáticas de macrófitas más comúnmente utilizadas y los rangos de parámetros plausibles de sus principales procesos ecofisiológicos, estrategias de adaptación y roles funcionales del ecosistema, tales como limitación de recursos (nutrientes, luz y oxígeno), efectos de refugio y interacciones alelopáticas. Luego usamos dos métodos de análisis de sensibilidad: regresión lineal múltiple convencional y mapas autoorganizados (SOM) para evaluar la capacidad de nuestro modelo mecanicista para capturar diferentes facetas del funcionamiento de los humedales, incluido un posible cambio no lineal de un estado turbio dominado por fitoplancton a un estado claramente dominado por macrófitos. Nuestro análisis mostró que la variabilidad residual de los modelos lineales varió de 7% a 37%, cuando los parámetros ecológicos se consideran en el análisis de sensibilidad, y por lo tanto SOM El análisis es más adecuado para dilucidar patrones no lineales complejos e identificar la sensibilidad del modelo. Los parámetros relacionados con la caracterización de los procesos de sedimentos (porosidad del sedimento y difusividad vertical) parecen influir en la configuración de las predicciones del modelo para las variables de interés de gestión, como el fósforo total ambiental (TP) o clorofila α (Chlα) concentraciones y abundancia de macrófitos. Nuestro estudio también mostró que la capacidad de los macrófitos sumergidos para explotar la luz submarina disponible es fundamental en nuestros esfuerzos por predecir el resultado de su competencia con el fitoplancton.


Ver el vídeo: Pirâmides e Prismas Vértices, Faces e Arestas EMAI - 4º ano - Un. 3 Sequência 11 - Ativ. (Septiembre 2021).