Artículos

8.2E: Ejercicios para campos de dirección y métodos numéricos


Para los ejercicios 1 - 3, use el campo de dirección a continuación de la ecuación diferencial (y '= - 2y. ) Dibuje la gráfica de la solución para las condiciones iniciales dadas.

1) (y (0) = 1 )

2) (y (0) = 0 )

Respuesta:

3) (y (0) = - 1 )

4) ¿Existe algún equilibrio entre las soluciones de la ecuación diferencial de los ejercicios 1-3? Enumere los equilibrios junto con sus estabilidades.

Respuesta:
(y = 0 ) es un equilibrio estable

Para los ejercicios 5-7, use el campo de dirección a continuación de la ecuación diferencial (y '= y ^ 2−2y ). Dibuja la gráfica de la solución para las condiciones iniciales dadas.

5) (y (0) = 3 )

6) (y (0) = 1 )

Respuesta:

7) (y (0) = - 1 )

8) ¿Existe algún equilibrio entre las soluciones de la ecuación diferencial de los ejercicios 5-7? Enumere los equilibrios junto con sus estabilidades.

Respuesta:
(y = 0 ) es un equilibrio estable y (y = 2 ) es inestable

En los ejercicios 9 a 13, dibuje el campo de dirección para las siguientes ecuaciones diferenciales y luego resuelva la ecuación diferencial. Dibuja tu solución en la parte superior del campo de dirección. ¿Su solución sigue las flechas en su campo de dirección?

9) (y '= t ^ 3 )

10) (y '= e ^ t )

Respuesta:

11) ( dfrac {dy} {dx} = x ^ 2 cos x )

12) ( dfrac {dy} {dt} = te ^ t )

Respuesta:

13) ( dfrac {dx} {dt} = cosh (t) )

En los ejercicios 14 a 18, dibuje el campo direccional para las siguientes ecuaciones diferenciales. ¿Qué puede decir sobre el comportamiento de la solución? ¿Hay equilibrios? ¿Qué estabilidad tienen estos equilibrios?

14) (y '= y ^ 2−1 )

Respuesta:
Parece haber equlibria en (y = -1 ) (estable) y (y = 1 ) (inestable).

15) (y '= y − x )

16) (y '= 1 − y ^ 2 − x ^ 2 )

Respuesta:
No parece haber ningún equilibrio.

17) (y '= t ^ 2 sin y )

18) (y '= 3y + xy )

Respuesta:
Parece haber un equilibrio inestable en (y = 0. )

Haga coincidir el campo de dirección con las ecuaciones diferenciales dadas. Explique sus selecciones.

19) (y '= - 3y )

20) (y '= - 3t )

Respuesta:
(E )

21) (y '= e ^ t )

22) (y '= frac {1} {2} y + t )

Respuesta:
( A)

23) (y '= - ty )

Haga coincidir el campo de dirección con las ecuaciones diferenciales dadas. Explique sus selecciones.

24) (y '= t sin y )

Respuesta:
( B)

25) (y '= - t cos y )

26) (y '= t tan y )

Respuesta:
( A)

27) (y '= sin ^ 2y )

28) (y '= y ^ 2t ^ 3 )

Respuesta:
( C)

Estime las siguientes soluciones usando el método de Euler con (n = 5 ) pasos en el intervalo (t = [0,1]. ) Si puede resolver el problema de valor inicial exactamente, compare su solución con el solución. Si no puede resolver el problema del valor inicial, se le proporcionará la solución exacta para que la compare con el método de Euler. ¿Qué precisión tiene el método de Euler?

29) (y '= - 3y, quad y (0) = 1 )

30) (y '= t ^ 2, quad y (0) = 1 )

Respuesta:
(2.24, ) exacto: (3 )

Solución:

31) (y ′ = 3t − y, quad y (0) = 1. ) La solución exacta es (y = 3t + 4e ^ {- t} −3 )

32) (y ′ = y + t ^ 2, quad y (0) = 3. ) La solución exacta es (y = 5e ^ t − 2 − t ^ 2−2t )

Respuesta:
(7.739364, ) exacto: (5 (e − 1) )

33) (y ′ = 2t, quad y (0) = 0 )

34) [T] (y '= e ^ {(x + y)}, y (0) = - 1. ) La solución exacta es (y = - ln (e + 1 − e ^ x) )

Respuesta:
(−0,2535, ) exacto: (0 )

35) (y ′ = y ^ 2 ln (x + 1), quad y (0) = 1. ) La solución exacta es (y = - dfrac {1} {(x + 1) ( ln (x + 1) −1)} )

36) (y ′ = 2 ^ x, quad y (0) = 0. ) La solución exacta es (y = dfrac {2 ^ x − 1} { ln (2)} )

Respuesta:
(1.345, ) exacto: ( frac {1} { ln (2)} )

37) (y ′ = y, quad y (0) = - 1. ) La solución exacta es (y = −e ^ x ).

38) (y ′ = - 5t, quad y (0) = - 2. ) La solución exacta es (y = - frac {5} {2} t ^ 2−2 )

Respuesta:
(−4, ) exacto: (−1/2 )

Las ecuaciones diferenciales se pueden utilizar para modelar epidemias de enfermedades. En el siguiente conjunto de problemas, examinamos el cambio de tamaño de dos subpoblaciones de personas que viven en una ciudad: las personas infectadas y las personas susceptibles a la infección. (S ) representa el tamaño de la población susceptible y (I ) representa el tamaño de la población infectada. Suponemos que si una persona susceptible interactúa con una persona infectada, existe una probabilidad (c ) de que la persona susceptible se infecte. Cada persona infectada se recupera de la infección a un ritmo (r ) y vuelve a ser susceptible. Consideramos el caso de la influenza, donde asumimos que nadie muere a causa de la enfermedad, por lo que asumimos que el tamaño total de la población de las dos subpoblaciones es un número constante, (N ). Las ecuaciones diferenciales que modelan estos tamaños de población son

(S '= rI − cSI ) y (I' = cSI − rI. )

Aquí (c ) representa la tasa de contacto y (r ) es la tasa de recuperación.

39) Demuestre que, asumiendo que el tamaño total de la población es constante ((S + I = N), ) puede reducir el sistema a una única ecuación diferencial en (I: I '= c (N − I ) I − rI. )

40) Suponiendo que los parámetros son (c = 0.5, N = 5, ) y (r = 0.5 ), dibuje el campo direccional resultante.

41) [T] Use software de cálculo o una calculadora para calcular la solución al problema de valor inicial (y '= ty, y (0) = 2 ) usando el método de Euler con el tamaño de paso dado (h ). Encuentre la solución en (t = 1 ). Para una pista, aquí hay un "pseudocódigo" sobre cómo escribir un programa de computadora para realizar el Método de Euler para (y '= f (t, y), y (0) = 2: )

Crear función (f (t, y) )

Defina los parámetros (y (1) = y_0, t (0) = 0, ) tamaño del paso (h ) y el número total de pasos, (N )

Escribe un bucle for:

para (k = 1 ) a (N )

(fn = f (t (k), y (k)) )

(y (k + 1) = y (k) + h * fn )

(t (k + 1) = t (k) + h )

42) Resuelva el problema de valor inicial para la solución exacta.

Respuesta:
(y '= 2e ^ {t ^ 2/2} )

43) Dibuja el campo direccional

44) (h = 1 )

Respuesta:
( 2)

45) [T] (h = 10 )

46) [T] (h = 100 )

Respuesta:
( 3.2756)

47) [T] (h = 1000 )

48) [T] Evalúe la solución exacta en (t = 1 ). Haz una tabla de errores para el error relativo entre la solución del método de Euler y la solución exacta. ¿Cuánto cambia el error? ¿Puedes explicar?

Respuesta:
Solución exacta: y = (2 sqrt {e}. )
Numero de pieError
(h = 1 )( 0.3935)
(h = 10 )( 0.06163)
(h = 100 )( 0.006612)
(h = 10000 )( 0.0006661)

Para los ejercicios 49 a 53, considere el problema de valor inicial (y '= - 2y, ) con (y (0) = 2. )

49) Demuestre que (y = 2e ^ {- 2x} ) resuelve este problema con valores iniciales.

50) Dibuje el campo direccional de esta ecuación diferencial.

Respuesta:

51) [T] A mano, calculadora o computadora, calcule la solución usando el método de Euler en (t = 10 ) usando (h = 5 ).

52) [T] Con calculadora o computadora, calcule la solución usando el método de Euler en (t = 10 ) usando (h = 100. )

Respuesta:
(4.0741e ^ {- 10} )

53) [T] Grafique la respuesta exacta y cada aproximación de Euler (para (h = 5 ) y (h = 100 )) en cada h en el campo direccional. ¿Que notaste?

Colaboradores

  • Gilbert Strang (MIT) y Edwin “Jed” Herman (Harvey Mudd) con muchos autores contribuyentes. Este contenido de OpenStax tiene una licencia CC-BY-SA-NC 4.0. Descárguelo gratis en http://cnx.org.


Optimización de enjambres de partículas basada en el algoritmo de estrategia de perturbación intermedia y su aplicación en la segmentación de imágenes de múltiples umbrales

El algoritmo de optimización de enjambre de partículas (PSO) simula el comportamiento social entre individuos (o partículas) que “vuelan” a través del espacio de búsqueda multidimensional. Para mejorar la capacidad de búsqueda local de PSO y guiar la búsqueda, se definió y analizó en detalle una región que tenía la mayor cantidad de partículas. Inspirándonos en el comportamiento ecológico, presentamos un algoritmo PSO con estrategia de búsqueda de perturbaciones intermedias (IDPSO), que mejora la capacidad de búsqueda global de partículas y aumenta sus tasas de convergencia. Los resultados experimentales al comparar el IDPSO con diez variantes de PSO conocidas en 16 problemas de referencia demostraron la eficacia del algoritmo propuesto. Además, aplicamos el algoritmo IDPSO al problema de segmentación de imágenes multinivel para acortar el tiempo de cálculo. Los resultados experimentales del nuevo algoritmo en una variedad de imágenes mostraron que efectivamente puede segmentar una imagen más rápido.


Bases de datos de proteínas

En esta parte del ejercicio, extraeremos información de la base de datos de proteínas, Uniprot. Esta base de datos se administra en colaboración entre el Instituto Suizo de Bioinformática (SIB), el Instituto Europeo de Bioinformática (EBI) y la Universidad de Georgetown.

  • Base de conocimientos de UniProt (UniProtKB)
    secuencias de proteínas con anotaciones y referencias
  • Clústeres de referencia de UniProt (UniRef)
    Base de datos de homología reducida, donde secuencias similares se fusionan en entradas únicas.
  • Archivo UniProt (UniParc)
    un archivo que contiene todas las versiones de Uniprot sin anotaciones
  • UniProtKB / Swiss-Prot
    una base de datos de proteínas anotada manualmente.
  • UniProtKB / TrEMBL
    un suplemento de Swiss-Prot anotado por computadora, que contiene todas las traducciones de secuencias de nucleótidos EMBL que aún no están incluidas en Swiss-Prot.

Aquí, nos concentraremos en la base de datos Swiss-Prot http://www.uniprot.org/.

Minería de texto simple

Escriba "insulina humana" en el campo de búsqueda en la parte superior de la página. Deje el menú de búsqueda en "Base de conocimientos sobre proteínas (UniProtKB)", que es el predeterminado. ¿Cuántos hits encuentras?

¿Cuántas visitas son de Swiss-Prot? (Consejo: haga clic en "Mostrar solo comentarios")

¿Puedes identificar el golpe correcto?

Tenga en cuenta que todas las selecciones realizadas con el mouse se muestran en formato de texto en el cuadro Consulta en la parte superior de la página. Es posible editar los criterios de búsqueda en este cuadro para hacerlos más amplios y más estrechos. Intente, por ejemplo, excluir las proteínas que no son insulina, sino solo similares a la insulina. Para ello, agregue el siguiente texto en el cuadro de consulta: NO nombre: similar a la insulina y haga clic en la parte inferior de búsqueda. ¿Cuántos hits quedan ahora?

El contenido de Swiss-Prot

Haga clic en el número de acceso para la insulina (el código azul en el campo "Acceso"). Esto lo llevará a la entrada de insulina en la base de datos de Swiss-Prot. Dedique algún tiempo a obtener una descripción general de la página y la información que contiene.

Desplácese hacia abajo para ver las referencias, ¿cuántas hay? (La insulina es una proteína muy investigada). Tenga en cuenta lo que ha aportado cada referencia ("Citado para"). Puede acceder a la base de datos de publicaciones de PubMed en NCBI haciendo clic en el enlace "PubMed" para obtener una referencia; intente esto. El resumen de una publicación se puede leer aquí (o directamente en UniProt usando el enlace "Resumen"), si el trabajo es un artículo publicado real y no un "envío directo".

Lea la "Anotación general (comentarios)". Aquí encontrará algunas de las anotaciones funcionales y estructurales generales de la proteína (el resto se coloca en "Características". Uno de los tipos de comentarios más importantes es, naturalmente, "Función". Otro tipo de comentarios es "Ubicación subcelular", ¿dónde encuentra insulina ¿Por qué se encuentra aquí?

  1. La insulina tiene tanto un péptido señal como un propéptido. Ambos se escinden antes de la secreción. La insulina madura (las cadenas A y B) es, por tanto, mucho más pequeña de lo que se muestra en "Información de secuencia".
  2. La estructura secundaria se especifica como "HELIX" (alpha-helix), "STRAND" (parte de una hoja con pliegues beta) o "TURN". Intente hacer clic en "Detalles".
  3. Se han descrito algunas variantes (mutación) de la insulina. En algunos casos se sabe qué fenotipo (variantes de diabetes) se asocia con cada variante.

Para ver la estructura tridimensional de una proteína, debe ir a otra base de datos, RCSB PDB en "Bases de datos de estructura 3D". Trabajaremos con estructuras 3D el miércoles, pero echemos un vistazo rápido aquí también. Como puede ver, la estructura 3D de la insulina se ha determinado varias veces. Seleccione una de esas estructuras marcadas como "rayos X" en "Método" y haga clic en el enlace de entrada. Además de mucha información sobre cómo la molécula y el procedimiento experimental utilizado para resolver la estructura, la página también contiene una bonita imagen de la molécula de insulina.

Búsqueda Avanzada

Vaya al sitio web de UniProt http://www.uniprot.org/. Haga clic en "Campos" en el lado izquierdo del campo de búsqueda.

Ahora encontraremos cuántas proteínas se secretan de la célula al igual que la insulina. Seleccione "Ubicación subcelular" en el menú "Campo". A continuación, escriba "secreted" en el campo "Término" y haga clic en "Agregar y buscar". ¿Cuántas proteínas encuentras?

Combinando campos: ¿Cuántas proteínas secretadas gustan a los humanos? Haga clic en "Campos" de nuevo, deje el menú a la izquierda en "Y", seleccione "Organismo [SO]" en "Campo", escriba "humano" en el "Término" y haga clic en "Agregar & amp Buscar". ¿Cuántas proteínas encuentras ahora? (Observe nuevamente aquí cómo puede realizar la búsqueda editando el texto en el cuadro Consulta; sin embargo, para hacer esto, debe conocer los nombres de los campos)

Fieltro numérico: ¿Qué proteínas extremadamente cortas están presentes en UniProt? Borre la búsqueda anterior haciendo clic en la parte inferior "Borrar". Haga clic en "Campos" nuevamente y seleccione "Longitud de secuencia". Ahora aparecen dos nuevos campos donde puede definir los límites superior e inferior para la búsqueda. Escriba 1 y 10 y busque. Cuantas proteínas encuentras

Lo más probable es que las proteínas extremadamente cortas en TrEMBL sean errores sin evidencia de que las secuencias sean codificantes de proteínas. Limite su búsqueda solo a Swiss-Prot. ¿Cuántas proteínas quedan ahora?

Una gran fracción de las proteínas identificadas son fragmentos. Intente excluir fragmentos de la búsqueda. Haga clic en "Campos" nuevamente, deje el menú de la izquierda en "Y", establezca "Campo" en "Fragmento (sí / no)", seleccione "no" y busque. ¿Cuántas proteínas quedan ahora?


Respuestas a preguntas de opción múltiple

(MCQ I) (MCQ II)
P. No. Respuesta P. No. Respuesta
1 (a) 1 (CD)
2 (a) 2 (b), (d)
3 (D) 3 (b), (d)
4 (B) 4 (CD)
5 (C) 5 (a), (c).
6 (a) 6 (a), (b), (c) y (d).
7 (a)

Para recibir las alertas de exámenes y las alertas de empleo gubernamentales más rápidas en India, únase a nuestro canal de Telegram.


Metodología de diseño en ingeniería de rocas

Investigación en Diseño de ingeniería 1, págs. 1-2 (1989). . En Proceedings, 1987
Conferencia Internacional sobre Diseño de ingeniería (Editado por W. E. Eder), págs.
103-113. . Fairhurst, C. La aplicación de la mecánica a Roca Ingenieria .

  • Autor: Z.T. Bieniawski
  • Editor: Prensa CRC
  • ISBN: 9781000099645
  • Categoría: Tecnología e Ingeniería
  • Página: 210
  • Vista: 278

CONCLUSIÓN

El control del campo de radiación mixto en el lugar de trabajo permite una mejora significativa del control individual, p. Ej. determinando factores de corrección de energía a aplicar a la lectura del dosímetro o realizando calibraciones de campo. Esto permite compensar, en gran medida, la respuesta energética imperfecta de los dosímetros de neutrones.

Los resultados más precisos se pueden lograr mediante una combinación de cálculos de transporte de partículas y BSS. Sin embargo, estos métodos requieren conocimientos especializados y no son adecuados para la protección radiológica de rutina. El uso de monitores de área es mucho más simple y puede conducir, en muchos casos, a resultados suficientemente precisos.

Se ha avanzado mucho en los últimos años para el rango de energía ampliado, pero esta área de aplicación todavía está asociada con incertidumbres algo mayores.


Introducción¶

En el cuaderno 8, usamos métodos de visualización y modelos simples de intervalo entre picos para describir las propiedades de picos de una neurona retiniana que se mantuvo en condiciones ambientales y de luz constante. En otras palabras, examinamos una neurona que se disparaba por sí sola, sin ningún estímulo de conducción explícito. Por el contrario, muchos experimentos de neurociencia implican estimular o perturbar un sistema neuronal y registrar cambios en la actividad de picos de un conjunto de neuronas en respuesta a ese estímulo. La estimulación puede ser una señal simple aplicada directamente al sistema neural, como un pulso de corriente inyectado en una neurona. O puede ser un estímulo más complejo o abstracto que se siente en el sistema nervioso periférico e influye en la actividad neuronal en otros lugares, como la presentación de una película compuesta de una escena natural a un animal despierto, induciendo patrones de actividad en la corteza visual primaria y aguas abajo. áreas.

Este paradigma de estímulo-respuesta se relaciona con el importante concepto de codificación neuronal: que las características estadísticas de la actividad de picos contienen información sobre los estímulos, comportamientos u otras señales biológicas que influyen en la actividad. Desde una perspectiva de análisis de datos, estamos interesados ​​en modelar la relación entre estas señales y la actividad de picos observada. Podemos hacerlo a través de un modelo de tren de picos estadístico. Aquí exploramos una clase útil de modelos basados ​​en la teoría estadística de procesos puntuales. Definimos los modelos en términos de una función de tasa de Poisson, que define la probabilidad instantánea de observar un pico en cualquier momento en función de un conjunto de covariables. En particular, utilizamos una clase de modelos de procesos puntuales que pueden ajustarse por máxima verosimilitud y cuyos estimadores tienen múltiples propiedades óptimas. Estos se denominan modelos lineales generalizados (GLM).Ofrecemos algunas ideas estadísticas básicas para desarrollar la intuición sobre este tipo de modelos, pero los lectores pueden explorar la rica teoría que subyace a este enfoque a través de las referencias mencionadas en este cuaderno.

Datos de estudios de caso¶

Un colaborador se ha puesto en contacto con nosotros para discutir un nuevo experimento que ha realizado. Como parte de este experimento, ha implantado un pequeño paquete de electrodos en el hipocampo de una rata y ha entrenado a la rata para realizar una tarea espacial simple: correr de un lado a otro a lo largo de un laberinto lineal. Durante esta tarea, nuestro colaborador cree que ha registrado la actividad de picos de una celda de lugar, una celda cuya actividad es específica de la posición. Nos ha pedido que le ayudemos a caracterizar estos datos del tren de picos y que apoyemos (o refutemos) la noción de que la celda observada es una celda de lugar. Ha accedido a proporcionarnos los datos del tren de picos observados y la posición de la rata en función del tiempo, registrados durante unos minutos del experimento.

Metas¶

Nuestro objetivo es caracterizar las propiedades de la célula observada mientras la rata corre de un lado a otro en el laberinto lineal. Se sabe que la actividad de pico en estas células se relaciona con otras variables, como la velocidad y la dirección de la cabeza de la rata. Aquí, nos enfocamos en modelar la relación entre la trayectoria del movimiento de la rata y la actividad de picos observada. Al hacerlo, seleccionamos un modelo a través de un proceso iterativo de ajuste, evaluación y refinamiento del modelo.

Herramientas¶

En este cuaderno, desarrollamos una serie de modelos lineales generalizados. Implementamos procedimientos para ajustar, refinar y comparar esta serie de modelos. Demostramos el proceso de implementación y ajuste de un modelo de regresión de Poisson en Python, procedimientos para evaluar la bondad de ajuste del modelo y comparar modelos, y métodos para construir intervalos de confianza para los parámetros del modelo.


5.2 Predicción espacial de las variables del suelo

5.2.1 Principios fundamentales

"Pragmáticamente, el objetivo de un modelo es predecir y, al mismo tiempo, los científicos quieren incorporar su comprensión de cómo funciona el mundo en sus modelos" (Cressie y Wikle 2011). En términos generales, la predicción espacial consta de los siguientes siete pasos (Fig. 5.3):

Seleccione la variable de destino, la escala (resolución espacial) y la región geográfica de interés asociada

Definir un modelo de variación espacial para la variable objetivo.

Preparar un plan de muestreo y recolectar muestras y variables explicativas relevantes.

Estimar los parámetros del modelo utilizando los datos recopilados.

Derivar y aplicar el método de predicción espacial asociado con el modelo seleccionado

Evaluar los resultados de la predicción espacial y recopilar nuevos datos / ejecutar modelos alternativos si es necesario

Utilice los resultados del proceso de predicción espacial para la toma de decisiones y la prueba de escenarios..

Figura 5.3: De los datos al conocimiento y viceversa: el esquema general de predicción espacial aplicable a muchas ciencias ambientales.

El proceso de predicción espacial se repite en todos los nodos de una cuadrícula que cubre (D ) (o un dominio espacio-temporal en el caso de predicción espacio-temporal) y produce tres resultados principales:

Estimaciones de los parámetros del modelo (por ejemplo, coeficientes de regresión y parámetros de variograma), es decir, el modelo

Predicciones en nuevas ubicaciones, es decir, un mapa de predicción

Estimación de la incertidumbre asociada con las predicciones, es decir, una mapa de error de predicción.

De la figura 5.3 se desprende claramente que los pasos clave en el procedimiento de mapeo son: (a) elección del esquema de muestreo (por ejemplo, Ng et al. (2018) y Brus (2019)), (b) elección del modelo de variación espacial (por ejemplo, Diggle y Ribeiro Jr (2007)), y (c) elección de la técnica de estimación de parámetros (por ejemplo, Lark, Cullis y Welham (2006)). Cuando se proporciona el esquema de muestreo y no se puede cambiar, el enfoque de la optimización del proceso de predicción espacial es seleccionar y ajustar el método de predicción espacial de mejor rendimiento.

En un marco geoestadístico, la predicción espacial es la estimación de valores de alguna variable objetivo (Z ) en una nueva ubicación ( (_0 )) dados los datos de entrada:

donde (z (_i) ) son el conjunto de observaciones de entrada de la variable objetivo, (_i ) es una ubicación geográfica, (n ) es el número de observaciones y (<>(_0) ) es una lista de covariables o variables explicativas, disponibles en todas las ubicaciones de predicción dentro del área de estudio de interés ( ( in mathbb )). Para enfatizar que los parámetros del modelo también influyen en el resultado del proceso de predicción, esto se puede hacer explícito escribiendo (Cressie y Wikle 2011):

donde (Z ) son los datos, (Y ) es el proceso (oculto) que estamos prediciendo y (<< theta >> ) es una lista de parámetros del modelo, p. ej. coeficientes de tendencia y parámetros de variograma.

Existen muchos métodos de predicción espacial para generar predicciones espaciales a partir de muestras de suelo e información de covariables. Todos difieren en el modelo estadístico subyacente de variación espacial, aunque este modelo no siempre se hace explícito y diferentes métodos pueden utilizar el mismo modelo estadístico. Se ofrece una revisión de los métodos digitales de cartografía de suelos que se utilizan actualmente, por ejemplo, en McBratney et al. (2011), mientras que la revisión más extensa se puede encontrar en McBratney, Mendonça Santos y Minasny (2003) y McBratney, Minasny y Stockmann (2018). Li y Heap (2010) enumeran más de 40 técnicas de predicción espacial / interpolación espacial. Muchos métodos de predicción espacial a menudo son simplemente nombres diferentes para esencialmente lo mismo.
Lo que a menudo se conoce con un solo nombre, en la literatura estadística o matemática, se puede implementar a través de diferentes marcos computacionales y conducir a diferentes resultados (principalmente porque muchos modelos no están escritos con el más mínimo detalle y dejan flexibilidad para la implementación real) .

5.2.2 Muestreo de suelo

A muestra de suelo es una colección de observaciones de campo, generalmente representadas como puntos. Los aspectos estadísticos de los métodos y enfoques de muestreo se analizan en detalle por Schabenberger y Gotway (2005) y de Gruijter et al. (2006), mientras que algunas sugerencias más prácticas para el muestreo de suelos se pueden encontrar en Pansu, Gautheyrou y Loyer (2001) Webster y Oliver (2001), Tan (2005), Legros (2006) y Brus (2019). Algunas recomendaciones generales para el muestreo de suelos son:

Los puntos deben cubrir toda el área geográfica de interés y no sobrerrepresentar subáreas específicas que tienen características muy diferentes a las del área principal.

Las observaciones del suelo en ubicaciones puntuales deben realizarse utilizando métodos de medición consistentes. Idealmente, deberían tomarse réplicas para cuantificar el error de medición.

Se recomienda el muestreo masivo cuando se espera que la variación espacial a corta distancia sea grande y no sea de interés para el usuario del mapa.

Si se va a estimar un variograma, el tamaño de la muestra debe ser & gt50 y debe haber suficientes pares de puntos con pequeñas distancias de separación.

Si se van a estimar los coeficientes de tendencia, las covariables en los puntos de muestreo deben cubrir todo el espacio de características de cada covariable.

El diseño de muestreo o la justificación utilizada para decidir dónde ubicar las observaciones del perfil del suelo, o los puntos de muestreo, a menudo no es claro y puede variar de un caso a otro. Por lo tanto, no hay garantía de que los datos de puntos heredados disponibles utilizados como entrada para el modelado geoestadístico satisfagan las recomendaciones enumeradas anteriormente. Muchas de las ubicaciones de datos de perfiles heredados en el mundo se seleccionaron mediante un muestreo de conveniencia. De hecho, muchos puntos en los levantamientos tradicionales de suelos pueden haber sido seleccionados y muestreados para capturar información sobre condiciones inusuales o para ubicar límites en puntos de transición y máxima confusión sobre las propiedades del suelo (Legros 2006). Una vez que se reconoce que un suelo está ampliamente distribuido y es dominante en el paisaje, los topógrafos a menudo optan por no registrar las observaciones cuando se encuentra ese suelo, prefiriendo centrarse en el registro de sitios o áreas inusuales donde se produce la transición del suelo. Por lo tanto, la población de observaciones puntuales del suelo disponibles puede no ser representativa de la población real de suelos, y algunos suelos están sobre o subrepresentados.

Figura 5.4: Probabilidades de ocurrencia derivadas para las ubicaciones de muestreo reales (izquierda) y para un diseño de muestra puramente aleatorio con exactamente el mismo número de puntos (derecha). Probabilidades derivadas usando la función spsample.prob del paquete GSIF. El área sombreada de la izquierda indica qué áreas (en el espacio ambiental) se han representado sistemáticamente, mientras que el color blanco indica áreas que se han omitido sistemáticamente (y que no es por casualidad).

La Fig. 5.4 (el área de estudio de Ebergötzen) ilustra el problema de tratar con muestras agrupadas y la omisión de características ambientales. Usando las muestras reales que se muestran en el gráfico de la izquierda de la figura 5.4, nos gustaría mapear el área completa dentro del rectángulo. Esto es técnicamente posible, pero el usuario debe ser consciente de que los puntos de Ebergötzen reales omiten sistemáticamente el muestreo de algunas características ambientales: en este caso, bosques naturales / colinas que no eran de interés para el proyecto de la encuesta. Esto no significa que los datos puntuales de Ebergötzen no sean aplicables para análisis geoestadísticos. Simplemente significa que el sesgo de muestreo y la subrepresentación de condiciones ambientales específicas conducirán a predicciones espaciales que pueden estar sesgadas y ser altamente inciertas bajo estas condiciones (Brus y Heuvelink 2007).

5.2.3 Mapeo de suelos impulsado por el conocimiento

Como se mencionó anteriormente en la sección 1.4.8, el mapeo impulsado por el conocimiento a menudo se basa en reglas y conocimientos no declarados y no formalizados que existen principalmente en la mente y la memoria de los topógrafos individuales que realizaron estudios de campo y mapeo. La información experta o basada en el conocimiento se puede convertir en algoritmos de mapeo aplicando reglas conceptuales a árboles de decisión y / o modelos estadísticos (MacMillan, Pettapiece y Brierley 2005 Walter, Lagacherie y Follain 2006 Liu y Zhu 2009). Por ejemplo, un topógrafo puede definir las reglas de clasificación subjetivamente, es decir, en base a su conocimiento del área, luego ajustar iterativamente el modelo hasta que los mapas de salida se ajusten a sus expectativas de distribución de suelos (MacMillan et al. 2010).

En áreas donde se dispone de pocas o ninguna observación de campo de las propiedades del suelo, la forma más común de producir estimaciones es confiar en el conocimiento de expertos o basar las estimaciones en datos de otras áreas similares. Esta es una especie de 'transferencia de conocimiento' sistema. El mejor ejemplo de un sistema de transferencia de conocimientos es el concepto de serie de suelos en los Estados Unidos (Simonson 1968). Las series de suelos (+ fases) son las clases de niveles más bajos (más detallados) de tipos de suelo que típicamente se mapean. Cada serie de suelos debe consistir en pedones que tengan horizontes de suelo similares en color, textura, estructura, pH, consistencia, composición mineral y química y disposición en el perfil del suelo.

Si se encuentra el mismo tipo de serie de suelos repetidamente en ubicaciones similares, entonces hay poca necesidad de muestrear el suelo nuevamente en ubicaciones adicionales similares y, en consecuencia, se pueden reducir los costos de campo de la prospección de suelos. Esto suena como un enfoque atractivo porque se pueden minimizar los costos de la prospección centrándose en delinear la distribución de las series de suelos únicamente. El problema es que hay & gt15.000 series de suelos en los Estados Unidos (Smith 1986), lo que obviamente significa que no es fácil reconocer la misma serie de suelos simplemente haciendo observaciones rápidas de campo. Además, la precisión con la que uno puede reconocer consistentemente una serie de suelos bien puede fallar en las pruebas de estadística kappa estándar, lo que indica que puede haber una confusión sustancial entre las series de suelos (por ejemplo, un gran error de medición).

Grandes partes del mundo contienen básicamente muy pocos (escasos) registros de campo y, por lo tanto, será necesario improvisar para poder producir predicciones de suelos. Una idea para mapear tales áreas es construir tablas de atributos para tipos de suelo representativos, luego mapear la distribución de estos tipos de suelo en áreas sin usar muestras de campo locales. Mallavan, Minasny y McBratney (2010) se refieren a clases de suelo que pueden predecirse lejos de los lugares de muestreo reales como homosoils. El concepto de homosoles se basa en la suposición de que las ubicaciones que comparten entornos similares (por ejemplo, factores formadores del suelo) probablemente también exhiban suelos y propiedades del suelo similares.

Figura 5.5: Posiciones de accidentes geográficos y ubicación de un punto de predicción para el conjunto de datos de Maungawhau.

Los sistemas basados ​​en expertos también se basan en el uso de paradigmas de mapeo estándar, como el concepto de relacionar la ocurrencia de series de suelos con la posición del paisaje a lo largo de una secuencia superior o catena. La Fig. 5.5, por ejemplo, muestra una sección transversal derivada utilizando los datos de elevación de la Fig. 5.6. Un agrimensor experimentado visitaría el área e intentaría producir un diagrama que muestre una secuencia de tipos de suelo colocados a lo largo de esta sección transversal. Este conocimiento experto se puede utilizar posteriormente como reglas de mapeo manual, siempre que sea representativo del área, que se pueda formalizar mediante procedimientos repetibles y que se pueda probar mediante observaciones reales.

Figura 5.6: Una sección transversal del conjunto de datos del volcán Maungawhau comúnmente utilizado en R para ilustrar las técnicas de análisis de imágenes y DEM.

Si hay información auxiliar relevante, como un modelo de elevación digital (DEM), disponible para el área de estudio, se pueden derivar varios parámetros de DEM que pueden ayudar a cuantificar formas terrestres y procesos geomorfológicos. Los accidentes geográficos también pueden clasificarse automáticamente calculando varios parámetros DEM por píxel, o utilizando el conocimiento de la Fig. 5.7 (una muestra del área de estudio) para extraer de forma objetiva los accidentes geográficos y los suelos asociados en un área. Dicha información de forma de relieve auxiliar puede ser informativa sobre la distribución espacial del suelo, que es el principio clave de, por ejemplo, la metodología SOTER (Van Engelen y Dijkshoorn 2012).

El proceso de mapeo del mapeo de suelos impulsado por el conocimiento se puede resumir de la siguiente manera (MacMillan, Pettapiece y Brierley 2005 MacMillan et al. 2010):

Muestrear el área de estudio utilizando transectos orientados a lo largo de secciones transversales topográficas

Asignar tipos de suelo a cada posición de relieve y en cada ubicación de muestra

Derivar parámetros DEM y otros conjuntos de datos auxiliares

Desarrollar reglas (difusas) que relacionen la distribución de clases de suelo con las variables auxiliares (principalmente topográficas)

Implementar reglas (difusas) para asignar clases de suelo (o calcular probabilidades de clases) para cada ubicación de la cuadrícula

Genere valores de propiedad del suelo para cada clase de suelo utilizando observaciones representativas (centros de clase)

Estimar los valores de la variable de suelo objetivo en cada ubicación de la cuadrícula utilizando un promedio ponderado de la clase de suelo asignada o los valores de pertenencia y los valores centrales de las propiedades del suelo para cada clase de suelo.

Figura 5.7: Valores asociados de las covariables basadas en DEM: TWI - Índice de humedad topográfica y profundidad del valle para la sección transversal de la figura anterior.

En términos matemáticos, la predicción de las propiedades del suelo basada en valores de clasificación difusa del suelo utilizando el enfoque SOLIM Zhu et al. (2001, 2010) funciona de la siguiente manera:

donde ( hat z (_0) ) es el atributo de suelo predicho en (_0 ), ( nu _ (_0) ) es el valor de membresía de la clase (c_j ) en la ubicación (_0 ) y (z_) es el valor modal (o mejor representativo) del atributo de suelo inferido de la categoría (c_j ) -ésima. El atributo de suelo predicho se asigna directamente a partir de mapas de membresía utilizando una función de pesaje aditivo lineal. Considere el ejemplo de seis clases de suelo A, B, C, D, E y F. La tabla de atributos indica que el tipo de suelo A tiene 10%, B 10%, C 30%, D 40%, E 25% y F 35% de arcilla. Si los valores de membresía en una posición de la cuadrícula son 0.6, 0.2, 0.1, 0.05, 0.00 y 0.00, entonces la Ec. (5.9) predice el contenido de arcilla como 13.5%.

Es obvio de este flujo de trabajo que los aspectos críticos que determinan la precisión de las predicciones finales son la selección de dónde ubicamos las secciones transversales y el perfiles representativos del suelo y la fuerza de la relación entre las clases de suelo resultantes y las propiedades del suelo objetivo. Qi y col. (2006), por ejemplo, recomendó que se puedan identificar los valores más representativos para las clases de suelo, si hay muchos perfiles de suelo disponibles, al encontrar la ubicación de muestreo que ocurre en la celda de la cuadrícula con el valor de similitud más alto para una clase de suelo en particular. Los mapeadores de suelos buscan cada vez más formas de combinar sistemas expertos con técnicas de modelado de regresión y extracción de datos estadísticos.

Un problema de usar un sistema de mapeo supervisado, como se describió anteriormente, es que es difícil obtener una estimación objetiva del error de predicción (o al menos aún no se ha desarrollado una teoría estadística sólida para esto). La única posibilidad de evaluar la precisión de tales mapas sería recolectar muestras de validación independientes y estimar la precisión del mapeo siguiendo los métodos descritos en la sección 5.3. Entonces, de hecho, los sistemas basados ​​en expertos también dependen del muestreo estadístico y la inferencia para evaluar la precisión del mapa resultante.

5.2.4 Mapeo de suelos basado en geoestadísticas (mapeo pedométrico)

El mapeo pedométrico se basa en el uso de modelos estadísticos para predecir las propiedades del suelo, lo que nos lleva al campo de la geoestadística. La geoestadística trata el suelo como una realización de un proceso aleatorio (Webster y Oliver 2001). Utiliza las observaciones puntuales y las covariables cuadriculadas para predecir el proceso aleatorio en ubicaciones no observadas, lo que produce distribuciones de probabilidad condicionales, cuya extensión (es decir, desviación estándar, ancho de los intervalos de predicción) caracteriza explícitamente la incertidumbre asociada con las predicciones. Como se mencionó anteriormente en la sección 1.3.6, la geoestadística es un enfoque basado en datos para el mapeo de suelos en el que las muestras puntuales georreferenciadas son la entrada clave para la producción de mapas.

La geoestadística tradicional se ha identificado básicamente con varias formas de modelado de variogramas y kriging (Haining, Kerry y Oliver 2010). La geoestadística contemporánea extiende los modelos lineales y técnicas de kriging simple a modelos híbridos y no lineales; también extiende modelos puramente espaciales (2D) a modelos 3D y espacio-temporales (Schabenberger y Gotway 2005 Bivand, Pebesma y Rubio 2008 Diggle y Ribeiro Jr 2007 Cressie y Wikle 2011). La implementación de modelos geoestadísticos más sofisticados para el mapeo de suelos es una actividad continua y bastante desafiante (computacionalmente), especialmente en el caso del mapeo de alta resolución de grandes áreas (Hengl, Mendes de Jesus, et al.2017).

Tenga en cuenta también que el mapeo geoestadístico a menudo se restringe a las propiedades cuantitativas del suelo. Los modelos de predicción de suelos que predicen variables de suelo categóricas, como el tipo de suelo o la clase de color del suelo, a menudo son bastante complejos (ver, por ejemplo, Hengl, Toomanian, et al. (2007) y Kempen et al. (2009) para una discusión). La mayoría de los proyectos de mapeo de suelos a gran escala también requieren predicciones en 3D, o al menos predicciones 2D (capas) para varios intervalos de profundidad.Esto se puede hacer tratando cada capa por separado en un análisis 2D, posiblemente teniendo en cuenta las correlaciones verticales, pero también mediante el modelado geoestadístico 3D directo. Ambos enfoques se revisan en las siguientes secciones.

Durante la última década, los estadísticos han recomendado utilizar geoestadística basada en modelos como el marco más fiable para las predicciones espaciales. La esencia de las estadísticas basadas en modelos es que “Los métodos estadísticos se derivan de la aplicación de principios generales de inferencia estadística basados ​​en un modelo estocástico declarado explícitamente del mecanismo de generación de datos” (Diggle y Ribeiro Jr 2007 P. E. Brown 2015). Esto evita ad hoc, métodos de solución heurísticos y tiene la ventaja de que produce soluciones genéricas y portátiles. En P. E. Brown (2015) se dan algunos ejemplos de diversos modelos geoestadísticos.

El modelo geoestadístico básico trata la propiedad del suelo de interés como la suma de una tendencia determinista y un residuo estocástico:

donde ( varepsilon ) y por lo tanto (Z ) son procesos estocásticos normalmente distribuidos. Este es el mismo modelo que el presentado en la ecuación (5.1), en este caso ( varepsilon = varepsilon & # 39 + varepsilon & # 39 & # 39 ) es la suma de los valores estocásticos espacialmente correlacionados y espacialmente no correlacionados. componentes. La media de ( varepsilon ) se toma como cero. Tenga en cuenta que usamos la letra mayúscula (Z ) porque usamos un modelo probabilístico, es decir, tratamos la propiedad del suelo como un resultado de un proceso estocástico y definimos un modelo de ese proceso estocástico. Idealmente, la variación espacial del residuo estocástico de la ecuación (5.10) es mucho menor que la de la variable dependiente.

Cuando el supuesto de normalidad no es realista, como cuando la distribución de frecuencia de los residuos en las ubicaciones de observación está muy sesgada, la solución más fácil es adoptar un enfoque gaussiano transformado (Diggle y Ribeiro Jr 2007 ch3.8) en el que la geoestadística gaussiana El modelo se formula para una transformación de la variable dependiente (por ejemplo, logarítmico, logit, raíz cuadrada, transformada de Box-Cox). Un enfoque más avanzado eliminaría por completo el enfoque de distribución normal y supondría una Modelo geoestadístico lineal generalizado (Diggle y Ribeiro Jr 2007 P. E. Brown 2015) pero esto complica drásticamente el proceso de análisis y predicción estadísticos. El enfoque gaussiano transformado es casi tan simple como el enfoque gaussiano, aunque la transformación inversa requiere atención, especialmente cuando la predicción espacial incluye un cambio de soporte (que conduce a kriging en bloque). Si este es el caso, puede ser necesario utilizar un enfoque de simulación estocástica y derivar las predicciones y la incertidumbre asociada (es decir, la distribución de probabilidad condicional) mediante simulaciones numéricas.

La parte de tendencia de la ecuación (5.10) (es decir, (m )) puede tomar muchas formas. En el caso más simple, sería una constante, pero generalmente se toma como una función de covariables conocidas y exhaustivamente disponibles. Aquí es donde el mapeo de suelos puede beneficiarse de otras fuentes de información y puede implementar Jenny's Modelo de factor de estado de la formación del suelo (Jenny, Salem y Wallis 1968 Jenny 1994 Heuvelink y Webster 2001 McBratney et al. 2011), que se conoce desde la época de Dokuchaev (Florinsky 2012). Las covariables son a menudo mapas de propiedades ambientales que se sabe que están relacionadas con la propiedad del suelo de interés (por ejemplo, elevación, cobertura del suelo, geología), pero también podrían ser el resultado de un modelo mecanicista del proceso del suelo (como un modelo de acidificación del suelo, un modelo de lixiviación de nutrientes del suelo o un modelo de génesis del suelo). En el caso de este último se podría optar por tomar (m ) igual a la salida del modelo determinista, pero cuando las covariables son propiedades ambientales relacionadas, se debe definir una estructura para (m ) e introducir parámetros a estimar a partir de observaciones pareadas de la propiedad del suelo y las covariables. Uno de los enfoques más simples es utilizar regresión lineal múltiple para predecir valores en una nueva ubicación (_0 ) (Kutner et al.2005):

donde ( beta _j ) son los coeficientes del modelo de regresión, ( beta _0 ) es la intersección, (j = 1, ldots, p ) son covariables o variables explicativas (disponibles en todas las ubicaciones dentro del área de estudio de interés ( mathbb )), y (p ) es el número de covariables. La ecuación (5.11) también puede incluir covariables categóricas (por ejemplo, mapas de cobertura terrestre, geología, tipo de suelo) al representarlas mediante tantas variables ficticias binarias como categorías (menos uno, para ser precisos, ya que se incluye una intersección en el modelo). Además, también se pueden incluir covariables transformadas o interacciones entre covariables. Esto último se logra ampliando el conjunto de covariables con productos u otras mezclas de covariables. Sin embargo, tenga en cuenta que esto aumentará drásticamente el número de covariables. El riesgo de considerar un gran número de covariables es que puede resultar difícil obtener estimaciones fiables de los coeficientes de regresión. También uno puede correr el riesgo de multicolinealidad - la propiedad de las covariables está fuertemente correlacionada entre sí (como lo indicaron Jenny, Salem y Wallis (1968) ya en (1968)).

La ventaja de la ecuación (5.11) es que es lineal en los coeficientes desconocidos, lo que hace que su estimación sea relativamente sencilla y también permite derivar la incertidumbre sobre los coeficientes de regresión ( ( beta )). Sin embargo, en muchos casos prácticos, la formulación lineal puede ser demasiado restrictiva y es por eso que se han desarrollado ampliamente estructuras alternativas para establecer la relación entre dependientes y covariables. Ejemplos de estos llamados "Aprendizaje estadístico" y / o 'aprendizaje automático' enfoques son:

redes neuronales artificiales (Yegnanarayana 2004),

árboles de clasificación y regresión (Breiman 1993),

máquinas de vectores de apoyo (Hearst et al. 1998),

sistemas expertos basados ​​en computadora,

bosques aleatorios (Breiman 2001 Meinshausen 2006),

El tratamiento estadístico de muchos de estos métodos se da en Hastie, Tibshirani y Friedman (2009) y Kuhn y Johnson (2013). Se debe tener cuidado al usar técnicas de aprendizaje automático, como el bosque aleatorio, porque tales técnicas son más sensibles al ruido y los errores en los datos.

La mayoría de los métodos enumerados anteriormente requieren niveles apropiados de experiencia para evitar trampas y un uso incorrecto, pero, cuando sea factible y se use correctamente, estos métodos deben extraer la información máxima sobre la variable objetivo de las covariables (Statnikov, Wang y Aliferis 2008 Kanevski, Timonin y Pozdnukhov 2009).

La tendencia ( (m )) relaciona las covariables con las propiedades del suelo y para ello utiliza un modelo de correlación suelo-ambiente, el llamado Modelo CLORPT, que fue formulado por Jenny en 1941 (también está disponible una reimpresión (1994) de ese libro). McBratney, Mendonça Santos y Minasny (2003) formularon además una extensión del modelo CLORPT conocida como "ESCORPAN" modelo.

El modelo CLORPT se puede escribir como (Jenny 1994 Florinsky 2012):

donde (S ) representa suelo (propiedades y clases), (cl ) para el clima, (o ) para los organismos (incluidos los humanos), (r ) es el relieve, (p ) es el padre material o geología y (t ) es tiempo. En otras palabras, podemos asumir que la distribución tanto del suelo como de la vegetación (al menos en un sistema natural) puede explicarse, al menos parcialmente, por las condiciones ambientales. La ecuación (5.12) sugiere que el suelo es el resultado de factores ambientales, mientras que en realidad hay muchas retroalimentaciones y el suelo, a su vez, influye en muchos de los factores del lado derecho de la ecuación (5.12), como ( cl ), (o ) y (r ).

La incertidumbre acerca de los errores de estimación de los coeficientes del modelo puede tenerse en cuenta con bastante facilidad en el análisis de predicción posterior si el modelo es lineal en los coeficientes, como en la ecuación (5.11). En este libro, por lo tanto, nos limitamos a este caso, pero admitimos que las (X_j ) de la ecuación (5.11) se derivan de varias formas.

Dado que el residuo estocástico de la ecuación (5.10) se distribuye normalmente y tiene una media cero, solo queda por especificar su varianza-covarianza:

donde (<> ) es la distancia de separación entre dos ubicaciones. Tenga en cuenta que aquí asumimos que la función de correlación ( rho ) es invariante a la traducción geográfica (es decir, solo depende de la distancia () entre ubicaciones y no en las mismas ubicaciones). Si además la desviación estándar ( sigma ) fuera espacialmente invariante, entonces (C ) sería estacionario de segundo orden. Este tipo de supuestos simplificadores son necesarios para poder estimar la estructura de varianza-covarianza de (C ) a partir de las observaciones. Si se permite que la desviación estándar varíe con la ubicación, entonces se podría definir de manera similar a la ecuación (5.11). La función de correlación ( rho ) se parametrizaría en una forma común (por ejemplo, exponencial, esférica, Matérn), asegurando así que el modelo sea estadísticamente válido y positivo definitivo. También es bastante común suponer isotropía, lo que significa que la distancia geográfica bidimensional (<> ) se puede reducir a una distancia euclidiana unidimensional (h ).

Una vez definido el modelo, se deben estimar sus parámetros a partir de los datos. Estos son los coeficientes de regresión de la tendencia (cuando corresponda) y los parámetros de la estructura de varianza-covarianza del residuo estocástico. Los métodos de estimación más utilizados son los mínimos cuadrados y la máxima verosimilitud. Ambos métodos se han descrito ampliamente en la literatura (por ejemplo, Webster y Oliver (2001) y Diggle y Ribeiro Jr (2007)). Los modelos de tendencias más complejos también pueden usar las mismas técnicas para estimar sus parámetros, aunque también pueden necesitar depender de métodos de estimación de parámetros más complejos, como algoritmos genéticos y recocido simulado (Lark y Papritz 2003).

La predicción espacial óptima en el caso de un modelo de la ecuación (5.10) con una tendencia lineal de la ecuación (5.11) y un residuo normalmente distribuido viene dada por el bien conocido El mejor predictor lineal imparcial (BLUP):

donde los coeficientes de regresión y las ponderaciones de kriging se estiman utilizando:

y donde (<> ) es la matriz de (p ) predictores en las (n ) ubicaciones de muestreo, ( hat << beta >> ) es el vector de coeficientes de regresión estimados, () es la (n ) (n ) matriz de varianza-covarianza de residuos, (_ <<0>> ) es el vector de (n ) (1 ) covarianzas en la ubicación de predicción, y (< lambda> _ <<0>> ) es el vector de (n ) pesos de kriging utilizados para interpolar los residuos. La derivación de BLUP para datos espaciales se puede encontrar en muchos libros de estadística estándar, p. Stein (1999), Christensen (2001, 277), Venables y Ripley (2002, 425–30) y / o Schabenberger y Gotway (2005).

Cualquier forma de kriging calcula la distribución condicional de (Z (<> _0) ) en una ubicación no observada (<> _0 ) de las observaciones (z (<> _1) ), (z (<> _2), ldots, z (<> _n) ) y las covariables (<>(<> _0) ) (matriz de tamaño (p veces n )). Desde una perspectiva estadística, esto es sencillo para el caso de un modelo lineal y residuos distribuidos normalmente. Sin embargo, resolver matrices grandes y algoritmos de ajuste de modelos más sofisticados, como la probabilidad máxima restringida, puede llevar una cantidad de tiempo significativa si el número de observaciones es grande y / o la cuadrícula de predicción es densa. Los enfoques pragmáticos para abordar las limitaciones impuestas por grandes conjuntos de datos son restringir el conjunto de datos de observación a los vecindarios locales o adoptar un enfoque anidado de múltiples escalas.

Kriging no solo produce predicciones óptimas, sino que también cuantifica el error de predicción con la desviación estándar de kriging. Los intervalos de predicción se pueden calcular fácilmente porque los errores de predicción se distribuyen normalmente. Alternativamente, la incertidumbre en las predicciones espaciales también se puede cuantificar con simulación estocástica espacial. Mientras kriging produce el "Óptimo" predicción de la propiedad del suelo en cualquier ubicación, la simulación estocástica espacial produce una serie de valores posibles mediante el muestreo de la distribución de probabilidad condicional. De esta forma un gran número de "Realizaciones" se puede generar, lo que puede ser útil cuando el mapa resultante necesita ser transformado hacia atrás o cuando se usa en un análisis de propagación de incertidumbre espacial. La simulación estocástica espacial del modelo lineal gaussiano se puede realizar utilizando una técnica conocida como simulación secuencial gaussiana (Goovaerts 1997 Yamamoto 2008). En principio, no es más difícil que el kriging, pero ciertamente es numéricamente más exigente, es decir, lleva mucho más tiempo calcularlo.

5.2.5 Regresión-kriging (modelo genérico)

Ignorando los supuestos sobre la correlación cruzada entre la tendencia y los componentes residuales, podemos extender el modelo de regresión-kriging y usar cualquier tipo de regresión (no lineal) para predecir valores (por ejemplo, árboles de regresión, redes neuronales artificiales y otros modelos de aprendizaje automático). ), calcular los residuos en las ubicaciones de observación, ajustar un variograma para estos residuos, interpolar los residuos utilizando kriging ordinario o simple y agregar el resultado a la parte de regresión predicha. Esto significa que RK puede, en general, formularse como:

Nuevamente, la inferencia y predicción estadísticas es relativamente simple si el residuo estocástico, o una transformación del mismo, se puede suponer distribuido normalmente. El error del modelo de regresión-kriging es igualmente una suma de los errores del modelo de regresión y kriging.

5.2.6 Predicción espacial mediante regresión lineal múltiple

El predictor ( hat Y (<< s> _0>) ) de (Y (<< s> _0>) ) se toma típicamente como una función de covariables y el (Y ( _i) ) que, al sustituir las observaciones (y ( _i) ), produce una predicción (determinista) ( hat y (<< s> _0>) ). En el caso de la regresión lineal múltiple (MLR), los supuestos del modelo establecen que en cualquier ubicación en (D ) la variable dependiente es la suma de una combinación lineal de las covariables en esa ubicación y un residuo distribuido normalmente de media cero. Por lo tanto, en las (n ) ubicaciones de observación tenemos:

donde ( ) es un vector de la variable objetivo en las (n ) ubicaciones de observación, ( ) es una (n times p ) matriz de covariables en las mismas ubicaciones y (< beta> ) es un vector de (p ) coeficientes de regresión. Se supone que el residuo estocástico (< varepsilon> ) está distribuido de forma independiente e idéntica. Las observaciones pareadas de la variable objetivo y las covariables ( ( ) y ( )) se utilizan para estimar los coeficientes de regresión utilizando, por ejemplo, mínimos cuadrados ordinarios (Kutner et al.2004):

una vez estimados los coeficientes, estos se pueden usar para generar una predicción en ( _0 ):

con varianza de error de predicción asociada:

aquí, (< mathbf x> _0 ) es un vector con covariables en la ubicación de predicción y (var left [ varepsilon ( _0) right] ) es la varianza del residuo estocástico. Este último generalmente se estima mediante el error cuadrático medio (MSE):

La varianza del error de predicción dada por la ecuación (5.18) es más pequeña en los puntos de predicción donde los valores de la covariable están en el centro de la covariable ('característica') espacio y aumenta a medida que las predicciones se hacen más lejos del centro. Son particularmente grandes en caso de extrapolación en el espacio de características (Kutner et al. 2004). Tenga en cuenta que el modelo definido en la ecuación (5.16) es un modelo no espacial porque las ubicaciones de observación y la autocorrelación espacial de la variable dependiente no se tienen en cuenta.

5.2.7 Error de predicción de kriging universal

En el caso de kriging universal, kriging de regresión o Kriging con deriva externa, el error de predicción se calcula como (Christensen 2001):

donde (C_0 + C_1 ) es la variación del umbral (parámetros del variograma), () es la matriz de covarianza de los residuos, y (<> _0 ) es el vector de covarianzas de residuos en la ubicación no visitada.

Ignorando el componente mixto de la varianza de predicción en la ecuación (5.20), también se puede derivar una varianza de regresión-kriging simplificada, es decir, como una suma de la varianza de kriging y el error estándar de estimar la media de regresión:

Tenga en cuenta que siempre habrá una pequeña diferencia entre los resultados de la ecuación (5.19) y la ecuación (5.21), y esta es una gran desventaja de utilizar el marco general de regresión-kriging para la predicción espacial. Aunque la media predicha obtenida mediante el uso de métodos de kriging de regresión o kriging universal podría no diferir, la estimación de la varianza de predicción utilizando la ecuación (5.21) será subóptima ya que ignora el componente del producto. Por otro lado, la ventaja de ejecutar predicciones de regresión y kriging separadas a menudo vale la pena el sacrificio, ya que el tiempo de cálculo es un orden de magnitud más corto y tenemos más flexibilidad para combinar diferentes tipos de modelos de regresión con kriging cuando la regresión se ejecuta por separado de kriging. (Hengl, Heuvelink y Rossiter 2007).

5.2.8 Ejemplos de kriging de regresión

El tipo de modelo de regresión-kriging explicado en la sección anterior se puede implementar aquí combinando los paquetes de regresión y geoestadística. Considere, por ejemplo, el estudio de caso de Meuse:

Podemos superponer los puntos y las cuadrículas para crear la matriz de regresión mediante:

lo que nos permite ajustar un modelo lineal para el carbono orgánico en función de la distancia al río y el tipo de suelo:

A continuación, podemos derivar los residuos de regresión y ajustar un variograma:

Con esto, se han estimado todos los parámetros del modelo (cuatro coeficientes de regresión y tres parámetros de variograma) para la regresión-kriging y el modelo puede usarse para generar predicciones. Tenga en cuenta que el modelo de regresión que ajustamos es significativo y los residuos restantes aún muestran autocorrelación espacial. La variación de la pepita es aproximadamente 1/3 de la variación del umbral.

Utilizando el paquete gstat (Pebesma 2004 Bivand, Pebesma y Rubio 2013), la regresión y el kriging se pueden combinar ejecutando kriging universal o kriging con deriva externa (Hengl, Heuvelink y Rossiter 2007). Primero, se calcula el variograma de los residuos:

que da casi los mismos valores de parámetro de modelo que el kriging de regresión anterior. A continuación, el kriging se puede ejecutar con una sola llamada a la función krige genérica:

El paquete nlme se ajusta al modelo de regresión y al variograma de los residuos al mismo tiempo (Pinheiro y Bates 2009):

En este caso, los coeficientes de regresión se han estimado utilizando la ecuación (5.14), es decir, mediante Máxima probabilidad restringida (REML). La ventaja de ajustar el modelo de regresión y la estructura de autocorrelación espacial al mismo tiempo es que ambos ajustes se ajustan: la estimación de los coeficientes de regresión se ajusta para la autocorrelación espacial del residual y los parámetros del variograma se ajustan para la estimación de tendencia ajustada. Una desventaja de usar el paquete nlme es que la intensidad computacional aumenta con el tamaño del conjunto de datos, por lo que para cualquier conjunto de datos & gt1000 puntos, el tiempo de cálculo puede aumentar a decenas de horas de computación.Por otro lado, es posible que los coeficientes ajustados por los métodos REML no den como resultado predicciones significativamente mejores. Obtener la estimación más objetiva de los parámetros del modelo a veces no vale la pena, como lo demostraron Minasny y McBratney (2007).

La estimación simultánea de coeficientes de regresión y parámetros de variograma e incluir errores de estimación en coeficientes de regresión en cuenta mediante el uso de kriging / kriging universal con deriva externa es más elegante desde un punto de vista estadístico, pero existen desafíos computacionales y de otro tipo. Uno de ellos es que es difícil implementar la estimación global de coeficientes de regresión con predicción espacial local de residuos, que es un requisito en el caso de grandes conjuntos de datos espaciales. Además, el enfoque no se extiende a modelos de tendencias no lineales más complejos. En tales casos, recomendamos separar la estimación de tendencias del kriging de residuos mediante el método de regresión-kriging discutido anteriormente (ecuación (5.15)).

5.2.9 Ejemplos de regresión-kriging usando el paquete GSIF

En el paquete GSIF, la mayoría de los pasos descritos anteriormente (modelado de regresión y modelado de variogramas) que se utilizan para ajustar modelos de regresión-kriging están agrupados en funciones genéricas. Un modelo de regresión-kriging se puede ajustar en un paso ejecutando:

el objeto de clase gstatModel resultante consiste en un (1) componente de regresión, (2) modelo de variograma para residuo y (3) variograma de muestra para trazar, (4) ubicaciones espaciales de observaciones utilizadas para ajustar el modelo. Para predecir los valores de carbono orgánico usando este modelo, podemos ejecutar:

Figura 5.8: Predicciones de carbono orgánico en porcentaje (suelo superior) para el conjunto de datos de Meuse derivadas usando regresión-kriging con valores transformados, GLM-kriging, árboles de regresión (rpart) y modelos forestales aleatorios combinados con kriging. Los porcentajes entre paréntesis indican la cantidad de variación explicada por los modelos.

También podríamos haber optado por instalar un GLM con una función de enlace, que se vería así:

o ajustando un árbol de regresión:

Todos los modelos de regresión-kriging enumerados anteriormente son válidos y es probable que las diferencias entre sus respectivos resultados no sean grandes (Fig. 5.8). El árbol de regresión combinado con kriging (rpart-kriging) parece producir resultados ligeramente mejores, es decir, el error de validación cruzada más pequeño, aunque la diferencia entre los cuatro métodos de predicción no es, de hecho, grande (± 5% de la varianza explicada). No obstante, es importante realizar estas comparaciones, ya que nos permiten seleccionar objetivamente el método más eficiente.

Figura 5.9: Predicciones del carbono orgánico (valores transformados logarítmicamente) usando bosque aleatorio vs regresión lineal-kriging. La varianza aleatoria de kriging del bosque se ha obtenido utilizando el paquete quantregForest.

La figura 5.9 muestra la varianza de RK derivada para el modelo de bosque aleatorio utilizando el paquete quantregForest (Meinshausen 2006) y la fórmula de la ecuación (5.21). Tenga en cuenta que el paquete quantregForest estima una varianza de predicción mucho mayor que la RK lineal simple para grandes partes del área de estudio.

5.2.10 Regresión-kriging y promediado de polígonos

Aunque es posible que muchos cartógrafos de suelos no se den cuenta, muchas técnicas más simples basadas en regresiones pueden verse como un caso especial de RK, o sus variantes. Considere, por ejemplo, una técnica comúnmente utilizada para generar predicciones de las propiedades del suelo a partir de mapas poligonales: promedios ponderados. Aquí, la principal covariable disponible es un mapa de polígonos (que muestra la distribución de las unidades de mapeo). En este modelo se asume que la tendencia es constante dentro de las unidades de mapeo y que el residuo estocástico no está correlacionado espacialmente. En ese caso, el mejor predictor lineal no sesgado de los valores es un simple promedio de las propiedades del suelo por unidad (Webster y Oliver 2001, 43):

El mapa de salida producido por el promedio de polígono exhibirá cambios abruptos en los límites entre las unidades de polígono. La varianza de predicción de este modelo de predicción de clase de área es simplemente la suma de la varianza dentro de la unidad y la varianza de estimación de la media unitaria:

[empezar sombrero sigma ^ 2 (<> _0) = izquierda (1 + frac <1> derecha) cdot sigma _p ^ 2 tag <5.23> end]

De la ecuación (5.23), es evidente que la precisión de la predicción bajo este modelo depende del grado de variación dentro de la unidad. El enfoque es ventajoso si la variación dentro de la unidad es pequeña en comparación con la variación entre unidades. Las predicciones de este modelo también se pueden expresar como:

donde (p ) es el identificador de la unidad. Entonces, de hecho, el promedio ponderado por unidad es una versión especial de regresión-kriging donde se ignora la autocorrelación espacial (se supone cero) y todas las covariables son variables categóricas.

Volviendo al conjunto de datos de Mosa, podemos ajustar un modelo de regresión para la materia orgánica utilizando los tipos de suelo como predictores, lo que da:

y estos coeficientes de regresión para las clases de suelo 1, 2, 3 son iguales a los valores medios por clase:

Tenga en cuenta que esta igualdad se puede observar solo si eliminamos la intersección del modelo de regresión, por lo tanto, usamos:

El modelo RK también se puede extender a membresías difusas, en cuyo caso (< rm> ) los valores son variables binarias con valores continuos en el rango 0-1. Por lo tanto, también el modelo SOLIM Ec. (5.9) es de hecho solo una versión especial de regresión en unidades de mapeo:

donde (< rm> ) es la unidad cartográfica o el tipo de suelo, (z_) es el valor modal (o más representativo) de alguna propiedad del suelo (z ) para la clase (c_j ), y (n_p ) es el número total de puntos en alguna unidad de mapeo (< rm>) .

En última instancia, el promedio ponderado espacialmente de los valores por unidad de mapeo, los diferentes tipos de regresión y el kriging de regresión son, en principio, variantes diferentes del mismo método estadístico. Las diferencias están relacionadas con si solo se utilizan covariables categóricas o categóricas y continuas y si el residuo estocástico está correlacionado espacialmente o no. Aunque hay diferentes formas de implementar predicciones deterministas / estocásticas combinadas, no se deben tratar estas técnicas nominalmente equivalentes como muy diferentes.

5.2.11 Predicciones en el punto frente al soporte de bloque

El modelo geoestadístico se refiere a una variable del suelo que se define por el tipo de propiedad y cómo se mide (por ejemplo, pH del suelo (KCl), pH del suelo (H (_ 2 ) O), contenido de arcilla, carbono orgánico del suelo medido con espectroscopía ), sino también al tamaño y orientación de las muestras de suelo que se tomaron del campo. Esto es importante porque la variación espacial de la variable dependiente depende en gran medida del tamaño del soporte (por ejemplo, debido a un efecto de promediado, el contenido orgánico promedio de las muestras agrupadas tomadas de parcelas de 1 ha generalmente tiene menos variación espacial que la de las muestras de suelo individuales tomadas de cuadrados). Esto implica que las observaciones en diferentes soportes no pueden fusionarse sin tener en cuenta este efecto (Webster y Oliver 2001). Al hacer predicciones espaciales usando kriging, uno puede usar bloque-kriging (Webster y Oliver 2001) o kriging de área a punto (Kyriakidis 2004) para hacer predicciones en apoyos más grandes o más pequeños. Tanto el kriging de bloque como el kriging de área a punto se implementan en el paquete gstat mediante la función genérica krige (Pebesma 2004).

Apoyo se puede definir como el volumen de integración o el nivel de agregación en el que se toma una observación o para el que se da una estimación o predicción. El soporte se utiliza a menudo en la literatura como sinónimo de escala - El apoyo grande puede relacionarse con escalas generales o generales y viceversa (Hengl 2006). La noción de apoyo es importante para caracterizar y relacionar diferentes escalas de variación del suelo (Schabenberger y Gotway 2005). Cualquier investigación de las propiedades del suelo se realiza con un soporte específico y un espaciamiento espacial, siendo este último la distancia entre los lugares de muestreo. Si las propiedades se van a utilizar con diferentes soportes, p. Ej. cuando las entradas del modelo requieren un apoyo diferente al de las observaciones, la escala (agregación o desagregación) se vuelve necesaria (Heuvelink y Pebesma 1999).

Figura 5.10: Esquema con predicciones en el punto (arriba) y soporte de bloque (abajo). En el caso de varias versiones de kriging, tanto las predicciones de puntos como de bloques suavizan las mediciones originales proporcionalmente a la variación de la pepita. Después de Goovaerts (1997).

Dependiendo de cuán significativa sea la variación de la pepita, la varianza de predicción estimada por un modelo se puede reducir significativamente aumentando el soporte de puntos a bloques. La varianza del kriging en bloque es menor que la varianza del kriging puntual por una cantidad aproximadamente igual a la variación de la pepita. Incluso si tomamos un tamaño de bloque de unos pocos metros, esto reduce significativamente el error de predicción, si es que la variación de la pepita se produce dentro de unos pocos metros. Debido a que, por definición, muchas técnicas de tipo kriging suavizan los valores originales muestreados, uno puede notar fácilmente que para tamaños de soporte menores a la mitad de la distancia promedio más corta entre las ubicaciones de muestreo, tanto las predicciones de puntos como las de bloques pueden conducir a prácticamente las mismas predicciones (ver algunos ejemplos de Goovaerts (1997, 158), Heuvelink y Pebesma (1999) y / o Hengl (2006)).

Considere, por ejemplo, las predicciones y simulaciones de puntos y bloques utilizando las estimaciones del contenido de materia orgánica en la capa superior del suelo (en dg / kg) para el estudio de caso de Mosa. Primero generamos predicciones y simulaciones en soporte de puntos:

donde el bloque de argumentos define el tamaño de soporte para las predicciones (en este caso, puntos). Para producir predicciones sobre el soporte de bloques para bloques cuadrados de 40 por 40 m, ejecutamos:

La comparación visual confirma que los mapas de predicción de kriging de puntos y bloques son bastante similares, mientras que la varianza de kriging de bloques es mucho menor que la varianza de kriging de puntos (Fig. 5.11).

Aunque las varianzas de kriging en bloque son más pequeñas que las varianzas de kriging puntual, esto no implica que siempre se deba preferir el kriging en bloque al kriging puntual. Si el interés del usuario está en los valores de puntos en lugar de los promedios de bloque, se debe utilizar el kriging de puntos. El kriging de bloques también es computacionalmente más exigente que el kriging de puntos. Tenga en cuenta también que es más difícil (léase: más caro) validar mapas de kriging de bloques. En el caso de las predicciones puntuales, los mapas se pueden validar hasta cierto punto mediante la validación cruzada, que es económica. Por ejemplo, via one puede estimar el error de validación cruzada usando la función krige.cv. El paquete gstat informa automáticamente el error de validación cruzada (Hengl, Nikolić y MacMillan 2013):

Figura 5.11: Predicciones y simulaciones (2) en el punto (arriba) y soporte en bloque (abajo) usando el conjunto de datos Meuse. Tenga en cuenta que los valores de predicción producidos por métodos de puntos y bloques son bastante similares. Las simulaciones con soporte de bloques producen mapas más suaves que las simulaciones con soporte de puntos.

lo que muestra que la precisión del mapeo en el punto de apoyo es ca. 53% de la varianza original (ver más ecuación (5.31)).

Tenga en cuenta también que, en muchos casos, la validación cruzada mediante el soporte de bloques no es posible porque los datos de entrada necesarios para la validación cruzada solo están disponibles en el soporte puntual. Básicamente, esto significa que, para el ejemplo de Meuse, para estimar la precisión del mapeo en el soporte del bloque tendríamos que volver a visitar el área de estudio y recopilar muestras adicionales (compuestas) en el soporte del bloque que coincidan con el tamaño del soporte de las predicciones del bloque.

Aunque la predicción en el soporte del bloque es atractiva porque conduce a más preciso predicciones, la cantidad de variación explicada por las predicciones en el soporte de bloque versus punto podría no diferir tanto o incluso en absoluto. Del mismo modo, es posible que los usuarios no estén interesados ​​en los promedios de bloque y pueden requerir predicciones de puntos. Las simulaciones geoestadísticas sobre el soporte de bloques también pueden ser computacionalmente intensivas y es casi seguro que será necesario un esfuerzo de campo adicional para validar estos mapas.

Se pueden utilizar muestras puntuales para producir predicciones puntuales y de bloques, pero es más difícil producir predicciones puntuales a partir de observaciones de bloques. Esto se puede hacer usando kriging de área a punto (Kyriakidis 2004), pero esta técnica es computacionalmente intensiva, produce grandes incertidumbres de predicción y se ve obstaculizada por el hecho de que requiere el variograma de soporte puntual que no puede derivarse únicamente de observaciones de bloque únicamente. .

Figura 5.12: Gráficos de correlación para predicciones y varianza de predicción: soporte de punto vs bloque.

Figura 5.13: Diferencia en variogramas muestreados de los mapas simulados: soporte de punto vs bloque.

Lo que confunde a los no geoestadísticos es que tanto las predicciones de puntos como las de bloques se visualizan normalmente utilizando modelos GIS ráster, por lo que no se ve que las predicciones de puntos se refieran a los centros de las celdas de la cuadrícula (Hengl 2006). En el caso de la prospección de suelos, los datos de perfil de suelo disponibles normalmente se refieren a ubicaciones de puntos ( (1 times 1 ) metro o bloques horizontales más pequeños) porque las muestras de suelo tienen un soporte pequeño. En algunos casos, los topógrafos mezclan muestras de suelo de varias ubicaciones de perfiles diferentes para producir estimaciones compuestas de valores. No obstante, podemos suponer que la gran mayoría de los perfiles de suelo que se recolectan en el mundo se refieren a apoyos puntuales (laterales). Por lo tanto, la combinación más típica de tamaño de soporte con la que trabajamos es: soporte de puntos para observaciones de propiedades del suelo, soporte de bloques para covariables y soporte de puntos o bloques para predicciones de propiedades del suelo. El modelado en soporte de punto completo (tanto muestras de suelo, covariables como salidas en soporte de punto) es de hecho muy raro. Las covariables del suelo a menudo se derivan de datos de teledetección, que casi siempre se entregan en el soporte del bloque.

En principio, no hay ningún problema con el uso de covariables en el soporte del bloque para predecir el suelo en el soporte puntual, excepto que la fuerza de la relación entre la covariable y la propiedad del suelo objetivo puede verse debilitada por un desajuste en el soporte. Idealmente, siempre se debe intentar recopilar todos los datos de entrada con el mejor soporte posible y luego agregarlos en función de los requisitos del proyecto. Desafortunadamente, esto no siempre es posible, ya que la mayoría de las entradas abultado ya y nuestro conocimiento sobre la variación de corto alcance es a menudo muy limitado.

Higos. 5.12 y 5.13 (gráficos de correlación para el conjunto de datos de Mosa) confirma que: (1) las predicciones sobre el soporte de bloques y puntos no muestran prácticamente diferencias y (2) la diferencia en la varianza del error de predicción para kriging de puntos y bloques es efectivamente igual a la varianza de la pepita.

El tamaño de soporte objetivo para el GlobalSoilMap El proyecto, por ejemplo, tiene dimensiones horizontales de 3 segundos de arco (aprox. 100 m) del SRTM y otras capas de datos covariables que se utilizan para respaldar la predicción de la variación espacial en las propiedades del suelo. Este proyecto probablemente necesite predicciones tanto en el punto como en el soporte de bloque en la resolución objetivo, y luego también proporcionar valores agregados en bloques de resolución más gruesa (250, 500, 1000 m, etc.). En cualquier caso, es importante comprender las consecuencias de la agregación de datos espaciales y la conversión de soporte de punto a bloque.

5.2.12 Simulaciones geoestadísticas

En términos estadísticos, la evaluación de la incertidumbre de los mapas producidos es tan importante como la predicción de valores en todas las ubicaciones. Como se muestra en la sección anterior, la incertidumbre de las variables del suelo se puede evaluar de varias formas. Sin embargo, tres aspectos parecen ser importantes para cualquier tipo de modelo de predicción espacial:

Cuales son los funciones de distribución de probabilidad condicional (PDF) de la variable de destino en cada ubicación?

¿Dónde exhibe el modelo de predicción su errores más grandes?

Cuál es el precisión de las predicciones espaciales para toda el área de interés? ¿Y qué tan preciso es el mapa en general?

Para situaciones en las que se pueden estimar archivos PDF 'seguramente', Heuvelink y Brown (2006) argumentaron que confieren una serie de ventajas sobre las técnicas no probabilísticas. Por ejemplo, los PDF incluyen métodos para describir la interdependencia o correlación entre incertidumbres, métodos para propagar incertidumbres a través de modelos ambientales y métodos para rastrear las fuentes de incertidumbre en datos y modelos ambientales (Heuvelink 1998). Al adoptar un enfoque geoestadístico, kriging no solo produce mapas de predicción, sino que también genera automáticamente archivos PDF en los puntos de predicción y cuantifica la correlación espacial en los errores de predicción. La simulación geoestadística, como ya se introdujo en secciones anteriores, se refiere a un método en el que las realizaciones se extraen del PDF condicional utilizando un generador de números pseudoaleatorios. Estas simulaciones dan una imagen más realista de la estructura de correlación espacial o patrón espacial de la variable objetivo porque, a diferencia del kriging, no suavizan los valores.

Figura 5.14: 20 simulaciones (en el soporte del bloque) del carbono orgánico del suelo para el área de estudio de Meuse (sección transversal de oeste a este en Y = 330348). La línea en negrita indica el valor mediano y las líneas discontinuas indican los cuantiles superior e inferior (95% de probabilidad).

El modelo geoestadístico también proporciona estimaciones de la precisión del modelo, es decir, la varianza de kriging. Es útil notar que la varianza de un gran número de simulaciones geoestadísticas se aproximará a la varianza de kriging (y de la misma manera, el promedio de un gran número de simulaciones se aproximará al mapa de predicción de kriging).

Figura 5.15: Histograma para la variable objetivo (registro del conjunto de datos de Meuse de materia orgánica) basado en las observaciones reales (izquierda), predicciones en todos los nodos de la cuadrícula (centro) y simulaciones (derecha). Tenga en cuenta que el histograma para los valores pronosticados siempre mostrará una distribución algo más estrecha (suavizada), dependiendo de la fuerza del modelo, mientras que las simulaciones deberían poder reproducir el rango original (para más discusión ver también: Yamamoto et al. (2008) ).

Las diferencias entre un conjunto de realizaciones producidas usando simulaciones geoestadísticas capturan la incertidumbre asociada con el mapa de predicción y pueden usarse para comunicar la incertidumbre o usarse como entrada en un análisis de propagación de incertidumbre espacial.

Aunque la varianza de kriging y las simulaciones geoestadísticas son medios válidos y valiosos para cuantificar la precisión de la predicción, es importante tener en cuenta que estas evaluaciones de incertidumbre son basado en modelo, es decir, solo son válidas bajo los supuestos realizados por el modelo geoestadístico. Una verdadera sin modelo La evaluación de la precisión del mapa puede (solo) obtenerse mediante una validación basada en la probabilidad (Brus, Kempen y Heuvelink 2011). Para ello necesitamos una muestra independiente, es decir, una muestra que no se utilizó para construir el modelo y hacer las predicciones, y que, además, se seleccionó del área de estudio mediante un diseño de muestreo probabilístico.

Para el modelo de regresión-kriging ajustado para el carbono orgánico del conjunto de datos del Mosa, podemos producir 20 simulaciones cambiando el argumento nsim:

que muestra la diferencia entre el valor muestreado (2.681022), el valor predicho (2.677931) y los valores simulados para aproximadamente la misma ubicación, es decir, un PDF (ver también histogramas en la Fig. 5.15). Si promediamos las 20 simulaciones obtenemos una estimación alternativa de la media:

En este caso, queda una pequeña diferencia entre los dos resultados, lo que probablemente se deba al pequeño número de simulaciones (20) utilizadas.

5.2.13 Mapeo automatizado

Las aplicaciones de la geoestadística hoy sugieren que usaremos cada vez más mapeo automatizado algoritmos para mapear variables ambientales. Los autores del paquete intamap para R, por ejemplo, han producido una función de envoltura interpolar que genera automáticamente predicciones para cualquier combinación dada de observaciones de entrada y ubicaciones de predicción (Pebesma et al. 2011). Considere el siguiente ejemplo para predecir el contenido de materia orgánica utilizando el estudio de caso de Meuse:

que proporciona el (presumiblemente) mejor método de interpolación para el problema en cuestión (columna de valor), dado el tiempo disponible establecido con maximumTime (Pebesma et al. 2011):

La función de interpolación elige automáticamente entre: (1) kriging, (2) métodos de cópula, (3) interpolación de distancia inversa, métodos de proceso gaussiano espacial proyectado en el paquete gstat, (4) kriging transgaussiano o interpolación de Yamamoto.

La misma idea de ajuste y predicción de modelos automatizados se ha implementado en el paquete GSIF. Ya se han mostrado anteriormente algunos ejemplos de mapeo automático de suelos.

Figura 5.16: Un flujo de trabajo moderno de mapeo predictivo de suelos. Esto a menudo incluye algoritmos de aprendizaje automático de última generación. Fuente de la imagen: Hengl et al. (2017) doi: 10.1371 / journal.pone.0169748.

Mapeo automatizado, siempre que no sea un caja negra es beneficioso para las aplicaciones de cartografía de suelos por varias razones: (1) ahorra el tiempo y el esfuerzo necesarios para obtener los resultados iniciales, (2) permite la generación de mapas utilizando datos actuales (geoestadística en vivo) incluso a través de interfaces web, (3 ) reduce en gran medida la carga de trabajo en los casos en los que es necesario producir mapas repetidamente, como cuando se necesitan actualizaciones periódicas o se aplica el mismo modelo en diferentes subáreas. En la práctica, el mapeo automatizado es típicamente un proceso de tres etapas (Fig. 5.16):

Genere rápidamente predicciones y un informe de análisis (analizar por qué se eligió una técnica en particular y qué tan bien funciona? ¿Hay valores atípicos o artefactos? ¿Qué predictores son los más significativos? etc.).

Revise los resultados de la predicción espacial y ajuste algunos parámetros. y si es necesario filtrar y / o ajustar los mapas de entrada.

Vuelva a ejecutar el proceso de predicción y publique los mapas finales.

de ahí que los geoestadísticos sigan siendo una parte esencial y activa del proceso. En el mapeo automatizado, centran principalmente su experiencia en interpretar los resultados en lugar de analizar manualmente los datos.

Es poco probable que se pueda utilizar un modelo de predicción lineal simple para adaptarse a todos los tipos de datos del suelo. Es más probable que algunos modelos personalizados, es decir, modelos específicos para cada propiedad, funcionen mejor que si se usara un solo modelo para una diversidad de propiedades del suelo. Esto se debe a que las diferentes propiedades del suelo tienen diferentes distribuciones, varían de manera diferente a diferentes escalas y están controladas por diferentes procesos. Por otro lado, la forma preferida de garantizar que se pueda utilizar un solo modelo para mapear una variedad de propiedades del suelo es desarrollar un marco genérico con predictores multitemáticos y multiescala que permitan la búsqueda iterativa de la estructura y los parámetros óptimos del modelo. y luego implementar este modelo a través de un sistema de mapeo automatizado.

5.2.14 Selección de modelos de predicción espacial

El propósito de la predicción espacial es (a) producir un mapa que muestre la distribución espacial de la variable de interés para el área de interés, y (b) hacerlo de manera no sesgada. Un camino completo para evaluar las predicciones espaciales es el enfoque de intercalación (Kuhn y Johnson 2013), que engloba muchos de los procesos estándar, como el entrenamiento y la validación de modelos, la comparación de métodos y la visualización. Considere, por ejemplo, el% de materia orgánica en la capa superficial del suelo en el conjunto de datos del Mosa:

Podemos comparar rápidamente el rendimiento del uso de GLM frente al bosque aleatorio frente a ningún modelo para predecir la materia orgánica (om) mediante el uso de la funcionalidad del paquete de intercalación:

Esto ejecutará una validación cruzada repetida con 50%: 50% de entrenamiento y validación de divisiones, lo que significa que, en cada iteración, los modelos se reajustarán desde cero. A continuación, podemos comparar el rendimiento de los tres modelos usando:

Figura 5.17: Comparación de precisión de predicción espacial (RMSE en puntos de validación cruzada) para promedios simples (Media), GLM con solo mapa de suelo como covariable (Soilmap), GLM y modelos de bosque aleatorio (RF) con todas las covariables posibles. Las barras de error indican el rango de valores de RMSE para CV repetidos.

En el caso anterior, parece que el bosque aleatorio (paquete de guardabosques) ayuda a reducir el RMSE medio de la predicción de materia orgánica en aproximadamente un 32%:

Ciertamente, existe un valor agregado en el uso de covariables espaciales (en el caso anterior: distancia al agua y mapas de frecuencia de inundaciones) y en el uso del aprendizaje automático para la predicción espacial, incluso con conjuntos de datos más pequeños.

Tenga en cuenta también que la evaluación de la precisión de la predicción espacial para los tres modelos basada en la función de tren anterior no tiene modelo, es decir, la validación cruzada de los modelos es independiente de los modelos utilizados porque, en cada subconjunto de validación cruzada, el ajuste del modelo se repite y los puntos de validación se mantienen separados del entrenamiento del modelo. Sin embargo, la subconjunto de muestras puntuales no siempre es trivial: para considerar la validación cruzada como completamente confiable, las muestras deben ser representativas del área de estudio y preferiblemente recolectadas utilizando un muestreo objetivo, como un muestreo aleatorio simple o similar (Brus, Kempen y Heuvelink 2011 Brus 2019). En los casos en que las ubicaciones de muestreo se agrupan en un espacio geográfico, es decir, si algunas partes del área de estudio se omiten por completo del muestreo, los resultados de la validación cruzada también reflejarán ese sesgo de muestreo / representación deficiente. En todos los siguientes ejemplos, asumiremos que la validación cruzada proporciona una medida confiable de la precisión del mapeo y la usaremos como base para la evaluación de la precisión, es decir, la eficiencia del mapeo. En realidad, la validación cruzada puede ser difícil de implementar y, a menudo, puede conducir a resultados un tanto optimistas si existe un sesgo de muestreo o si hay muy pocos puntos para la validación del modelo. Por ejemplo, en el caso de los datos del perfil del suelo, se recomienda encarecidamente que se eliminen los perfiles completos del CV porque los horizontes del suelo están muy correlacionados (como se analiza en detalle en Gasch et al. (2015) y Brenning (2012)).

Todo el proceso de predicción espacial de las propiedades del suelo se podría resumir en 5 pasos:

  1. Comparación del modelo inicial (comparación de la precisión de la predicción y el tiempo de cálculo).
  2. Selección del modelo o modelos aplicables y estimación de los parámetros del modelo, es decir, ajuste del modelo.
  3. Predicciones, es decir, generación de mapas para todas las áreas de interés.
  4. Evaluación de la precisión objetiva mediante validación (cruzada) independiente.
  5. Exportación y uso compartido de mapas y documentación resumida que explica todos los pasos del procesamiento.

Estudiar el tutorial del paquete de intercalaciones y / o los tutoriales de mlr es muy recomendable para cualquiera que busque una introducción sistemática al modelado predictivo.

5.2.15 Regresión-kriging 3D

Se puede pensar que las mediciones de las propiedades del suelo en el punto de apoyo describen ubicaciones 3D explícitas (este, norte y profundidad), y se pueden tratar con geoestadísticas 3D (por ejemplo, kriging 3D). La aplicación del kriging 3D a las mediciones del suelo es engorrosa por varias razones:

Las diferencias entre los intervalos de muestreo y la correlación espacial en las dimensiones horizontal y vertical son muy grandes (& lt10 en la vertical frente a 100 a 1000 en la horizontal). La fuerte anisotropía resultante debe tenerse en cuenta cuando se deriva el modelo geoestadístico. La estimación de la anisotropía puede verse obstaculizada por el número relativamente pequeño de observaciones a lo largo del perfil vertical, aunque bajo un supuesto de estacionariedad puede beneficiarse de las numerosas repeticiones de datos de perfil para todas las ubicaciones del perfil.

Los valores de las propiedades del suelo se refieren al soporte de bloques verticales (generalmente porque son muestras compuestas, es decir, el promedio sobre un horizonte de suelo), por lo que se ha suavizado parte de la variación local (en la dimensión vertical).

Los agrimensores sistemáticamente subrepresentan las profundidades inferiores: los agrimensores tienden a tomar sistemáticamente menos muestras, ya que suponen que los horizontes más profundos son de menor importancia para el manejo o porque los horizontes más profundos son más costosos de recolectar o porque se supone que los horizontes más profundos son más homogéneos y uniformes.

Muchas propiedades del suelo muestran tendencias claras en la dimensión vertical y, si se ignora, el resultado puede ser un modelo geoestadístico muy deficiente. Puede que no sea tan fácil incorporar una tendencia vertical porque dicha tendencia generalmente no es consistentemente similar entre los diferentes tipos de suelo. Por otro lado, las variables del suelo se correlacionan automáticamente en las dimensiones horizontal y vertical (profundidad), por lo que tiene sentido tratarlas utilizando geoestadísticas 3D siempre que tengamos suficientes observaciones de suelo 3D.

Figura 5.18: Ubicaciones espaciales de predicción 3D en un sistema cuadriculado (vóxeles). En el mapeo de suelos, a menudo predecimos bloques de tierra más grandes, p. 100 a 1000 m, pero luego para profundidades verticales de algunas decenas de centímetros, por lo que los vóxeles de salida pueden parecer en realidad algo desproporcionados.

El hecho de que casi siempre haya & lt10 observaciones de suelo sobre la profundidad total de un perfil de suelo, de modo que las estimaciones del rango en la dimensión vertical serán relativamente pobres, es algo que no se puede mejorar. El hecho de que las muestras de suelo tomadas por horizonte se refieran al soporte del bloque es un problema más grave, ya que se ha perdido parte de la variación de corto rango, además sabemos que los valores puntuales no se refieren al centro del horizonte sino a todo el bloque del horizonte, lo cual , además de todo lo demás, tienden a ser irregulares, es decir, no tienen profundidad y ancho constantes.

Para predecir en el espacio 3D, ampliamos el modelo de regresión de la ecuación (5.10) con una función de profundidad del suelo:

donde (d ) es la tercera dimensión de profundidad expresada en metros desde la superficie de la tierra, (<< hat g >> (d_0) ) es la función de profundidad del suelo predicha, típicamente modelada por una función spline. Esto permite la predicción de las propiedades del suelo a cualquier profundidad utilizando observaciones a otras profundidades, pero requiere un modelado 3D de la estructura de covarianza, lo cual no es fácil porque puede haber anisotropías zonales y geométricas (es decir, las longitudes de varianza y correlación pueden diferir entre direcciones verticales y horizontales ). Además, el soporte vertical de las observaciones se vuelve importante y debe tenerse en cuenta que las observaciones son los promedios en los intervalos de profundidad y no los valores en puntos a lo largo del eje vertical (Fig. 5.18). Las funciones spline se han propuesto y utilizado como métodos de ajuste de curvas que preservan la masa para derivar valores de puntos y bloques a lo largo del eje vertical a partir de observaciones a intervalos de profundidad dados, pero la dificultad es que estas estimaciones de rendimiento (con incertidumbres) que no deben confundirse con valores reales. observaciones.

Un variograma 3D, p. Ej. modelado usando un modelo exponencial con tres parámetros estándar (pepita (c_0 ), umbral parcial (c_1 ), parámetro de rango (r )):

donde el escalar 'distancia' (h ) se calcula escalando las distancias de separación horizontal y vertical usando tres parámetros de anisotropía:

Por lo general, en el caso de los datos del suelo, la relación de anisotropía entre las distancias horizontales y verticales es alta; la variación espacial observada en unos pocos cambios de profundidad puede corresponder con varios o más en el espacio horizontal, de modo que la configuración inicial de la relación de anisotropía (es decir, la relación de los rangos de variograma horizontal y vertical) están entre 3000 y 8000, por ejemplo. Los criterios de ajuste del variograma se pueden utilizar para optimizar los parámetros de anisotropía. En nuestro caso asumimos que no había anisotropía horizontal y, por lo tanto, asumimos (a_x = a_y = 1 ), dejando solo (a_d ) para estimar. Una vez que se obtiene la relación de anisotropía, el modelado de variogramas 3D no difiere significativamente del modelado de variogramas 2D.

El marco 3D RK explicado anteriormente se puede comparar con el enfoque de Malone et al. (2009), quienes primero ajustaron una función spline de áreas iguales para estimar las propiedades del suelo a profundidades estándar, y luego ajustaron modelos de regresión y variograma en cada profundidad. Un inconveniente del enfoque de Malone et al. (2009), sin embargo, es que los modelos separados para cada profundidad ignoran todas las correlaciones verticales. Además, el spline de áreas iguales no se usa para modelar las relaciones de profundidad del suelo, sino solo para estimar los valores a profundidades estándar para ubicaciones de muestreo, es decir, se implementa para cada perfil de suelo (sitio) por separado. En el marco 3D RK explicado anteriormente, se utiliza un solo modelo para generar predicciones en cualquier ubicación y para cualquier profundidad, y esto tiene en cuenta las relaciones horizontales y verticales simultáneamente. El enfoque 3D RK es más fácil de implementar y permite incorporar todas las relaciones (verticales) de profundidad del suelo, incluidas las correlaciones espaciales.

5.2.16 Predicción con datos de múltiples escalas y fuentes

La figura 5.3 indica que la predicción espacial es un proceso lineal con una línea de entradas y una línea de salidas. En algunos casos, los mapeadores de suelos tienen que utilizar métodos que pueden funcionar con multiescala y / o múltiples fuentes datos, es decir, datos con diferentes extensiones, resolución e incertidumbre. Aquí por datos multiescala implicamos covariables utilizadas para el mapeo geoestadístico que están disponibles en dos o más resoluciones (claramente diferentes), pero que cubren la misma área de interés (ver también: clase RasterStack en el paquete raster). En el caso de la datos de múltiples fuentes, las covariables pueden ser de cualquier escala, pueden tener una extensión variable y una precisión variable (Fig. 5.19b). En otras palabras, cuando nos referimos a datos de múltiples escalas, asumimos que las capas de covariables de entrada difieren solo en su resolución, mientras que al referirnos a datos de múltiples fuentes, consideramos que todos los aspectos técnicos de los datos de entrada podrían ser potencialmente diferentes.

La organización (y el uso) de datos de múltiples escalas y fuentes es algo que probablemente no se pueda evitar en los proyectos globales de cartografía de suelos. Desde la perspectiva de los SIG, y asumiendo un derecho democrático a desarrollar y aplicar de forma independiente modelos de predicción espacial, es probable que la fusión de datos de múltiples escalas y fuentes múltiples sea inevitable.

Figura 5.19: Un esquema general para generar predicciones espaciales utilizando datos de múltiples escalas y fuentes.

Como estrategia general, para los datos de múltiples escalas, un enfoque estadísticamente robusto es ajustar un solo modelo a las covariables combinadas reducidas o mejoradas a una sola resolución común (Fig. 5.19a). Para los datos de múltiples fuentes, se pueden utilizar métodos de asimilación de datos, es decir, la combinación de predicciones (Fig. 5.19b) (Caubet et al. 2019). Imagínese si tenemos capas covariables para todo un continente con una resolución aproximada de p. Ej. 500 m, pero para algún país específico hay otras predicciones con una resolución más fina de p. Ej. 100 m. Obviamente, cualquier modelo que desarrollemos que utilice ambas fuentes de datos está limitado en su aplicación al alcance de ese país. Para asegurar que todos los datos de covariables y suelos disponibles para ese país se utilicen para generar predicciones, podemos ajustar dos modelos a escalas separadas e independientemente entre sí, y luego fusionar las predicciones solo para la extensión del país de interés. Un marco estadístico para fusionar tales predicciones se da, por ejemplo, en Caubet et al. (2019). En ese sentido, los métodos para la fusión de datos de múltiples fuentes son más atractivos para proyectos pancontinentales y globales, porque para la mayoría de los países del mundo, tanto los datos de suelos como los de covariables están disponibles en diferentes escalas efectivas.

Sin embargo, es importante enfatizar que, para combinar varios predictores, necesitamos tener una estimación de la incertidumbre de la predicción, p. derivado mediante validación cruzada; de lo contrario, no podemos asignar los pesos. En principio, debe evitarse una combinación lineal de técnicas estadísticas que utilicen la ecuación anterior si existe una base teórica que incorpore dicha combinación.

Las predicciones combinadas son especialmente interesantes para situaciones en las que:

las predicciones se producen utilizando diferentes entradas, es decir, datos con diferente cobertura,

hay varios métodos de predicción que son igualmente aplicables,

donde no existe una teoría que describa una combinación de métodos de predicción espacial,

donde el ajuste y la predicción de modelos individuales es más rápido y menos problemático que el ajuste de un modelo híbrido.

La estimación de la varianza de la predicción y el intervalo de confianza de las predicciones combinadas o fusionadas es más compleja que la estimación del valor medio.


Consejo 2: resalte las celdas que contienen texto

En el consejo 1, aprendió cómo resaltar valores en su hoja que están por debajo de 100.

Puede utilizar el mismo método para señalar exactamente dónde se encuentra una determinada cadena de texto.

Entonces, si estamos buscando todos los adaptadores compatibles con M (en el archivo de muestra), entonces no tenemos que usar nuestros ojos (mucho). En cambio, podemos dejar que el formato condicional haga todo el trabajo duro e identificar los resultados fácilmente nosotros mismos.

Seleccione algunos datos con texto. En el archivo de muestra, seleccionaremos el rango de B4 a B26. Así que básicamente todos nuestros nombres & # 8220Item & # 8221.

Luego, haga clic en el botón "Formato condicional" en la pestaña "Inicio", coloque el mouse sobre "Reglas de celdas destacadas" y haga clic en "Texto que contiene ...".

Luego veremos un cuadro emergente muy similar al que vimos en el consejo anterior.

Básicamente, solo ingrese el texto al que desea que se aplique el formato.

Si escribe "M compatible" en el campo de la izquierda, todas las celdas que contienen el texto "M compatible" se formatearán como usted eligió en el cuadro de la derecha.

Por lo tanto, una celda que contenga más texto del que escribe en el campo izquierdo "activará" el formato condicional si algunos del texto es “compatible con M”.

Recuerde que también puede aplicar un formato personalizado si no cree que los ajustes preestablecidos se adapten a su estilo.


Inteligencia artificial

Cerebro humano: ¿Ha intentado buscar en línea las palabras clave "número de neuronas en el cerebro"? ¡La respuesta es invariablemente 100 mil millones! Hay otro dato de que usamos solo el 1% del cerebro y, por lo tanto, ¿no te sorprende el número de mil millones de neuronas? ¿Podemos construir una máquina y el algoritmo de aprendizaje para hacer frente a un número similar de neuronas?

En esta página, encontrará ejemplos prácticos de la mayoría de los métodos de aprendizaje automático que se utilizan hoy en día.

  • Regresión (GNU OCTAVE)
  • Regresión logística (GNU OCTAVE)
  • SVM usando Python + sciKit-Learn
  • Clasificación de árboles de decisión / bosque aleatorio con Python + sciKit-Learn
  • Detección de anomalías
  • Reconocimiento de dígitos y clasificaciones ANN MLP
  • comprimir, fusionar, escalar, rotar y eliminar páginas de archivos PDF utilizando PyPDF2.

Cada declaración se comenta para que pueda conectarse fácilmente con el código y la función de cada módulo; recuerde que no es necesario comprender todo en el nivel fundamental, por ejemplo, el álgebra lineal detrás de cada algoritmo u operaciones de optimización. La mejor manera es encontrar datos, un script de ejemplo que funcione y jugar con ellos.

Aprendizaje automático, inteligencia artificial, computación cognitiva, aprendizaje profundo. son conversaciones emergentes y dominantes hoy en día, todas basadas en una verdad fundamental: siga los datos. A diferencia de la programación explícita (y algo estática), el aprendizaje automático utiliza muchos algoritmos que aprenden iterativamente de los datos para mejorar, interpretar los datos y finalmente predecir los resultados. En otras palabras: el aprendizaje automático es la ciencia de hacer que las computadoras actúen sin ser programadas explícitamente cada vez que se recibe una nueva información.

Un extracto de Machine Learning For Dummies, IBM Limited Edition: "La IA y los algoritmos de aprendizaje automático no son nuevos. El campo de la IA se remonta a la década de 1950. Arthur Lee Samuels, un investigador de IBM, desarrolló uno de los primeros programas de aprendizaje automático: un programa de autoaprendizaje para jugar a las damas. De hecho, él acuñó el término aprendizaje automático. Su enfoque del aprendizaje automático se explicó en un artículo publicado en el IBM Journal of Research and Development en 1959 ". Hay otros temas de discusión como Argumento de la habitación china cuestionar si un programa puede dar a una computadora una "mente," comprensión "y / o" conciencia ". Esto es para comprobar la validez de la prueba de Turing desarrollada por Alan Turing en 1950. prueba de Turing se utiliza para determinar si la computadora (o las máquinas) pueden pensar (inteligentemente) como los humanos.

Los periódicos / revistas técnicas y comerciales están llenos de referencias a "BiG Data". Para las empresas, generalmente se refiere a la información que capturan o recopilan los sistemas informáticos instalados para facilitar y monitorear diversas transacciones. Las tiendas en línea, así como las tiendas minoristas tradicionales, generan amplios flujos de datos. Los macrodatos pueden ser y son abrumadores y consisten en una tabla de datos con millones de filas y cientos, si no miles, de columnas. ¡Sin embargo, no todos los datos transaccionales son relevantes!

Los datos de BiG no solo son grandes, sino que a menudo también son problemáticos: contienen datos faltantes, información que pretende ser números y valores atípicos.

La gestión de datos es el arte de obtener información útil a partir de datos sin procesar generados dentro del proceso empresarial o recopilados de fuentes externas. Esto se conoce como ciencia de datos y / o análisis de datos y / o análisis de big data. Paradójicamente, el motor de crecimiento más poderoso para lidiar con la tecnología es la tecnología en sí. La era de Internet ha proporcionado demasiados datos para manejar y todo el mundo parece estar atrayéndolos. Es posible que los datos no siempre terminen en información útil y existe una mayor probabilidad de que se convierta en una distracción. El aprendizaje automático es un concepto relacionado que se ocupa de la regresión logística, máquinas de vectores de soporte (SVM), k-vecino más cercano (KNN), por nombrar algunos métodos.

Antes de continuar, tratemos de recordar cómo nos enseñaron a convertirnos en lo que se designa como una persona "educada o instruida" (todos hemos oído hablar de la tasa de alfabetización de un estado, distrito y país).

Método de aprendizaje clásicoEjemplo¿Aplicable al aprendizaje automático?
Instrucciones: repetición en los 3 modos: escrito, visual y verbal Cómo se ven los alfabetos y los númerosNo
ReglaContar, sumar, multiplicar, atajos, operaciones (reglas de divisibilidad).No
MnemotécnicaDibuje un paralelo de un tema fácil de comprender a uno más difícil: Principal (Principal), Principio (Regla)
AnalogíaComparación: sistema metabólico humano y motores de combustión internaNo
Razonamiento e inferencias inductivosÁlgebra: suma de los primeros n números enteros = n (n + 1) / 2, encontrar el siguiente dígito o alfabeto en una secuencia
TeoremasTrigonometría, geometría de coordenadas, cálculo, álgebra lineal, física, estadística
Memorizando (atraco)Hablar repetidamente, escribir, observar un fenómeno o palabras u oraciones, significado de proverbios
Lógica y razonamientoQué es correcto (apropiado) e incorrecto (inapropiado), interpolación, extrapolación
Recompensa y castigoAnimar a actuar de cierta manera, desanimar a no actuar de cierta manera
Identificación, categorización y clasificación¡Decir qué es qué! ¿Puede una persona identificar una papa si lo que ha visto en su vida son las papas fritas?

Esto es solo una demostración (usando Python y scikit-learn) de uno de los muchos métodos de aprendizaje automático que permiten a los usuarios saber qué esperar cuando alguien quiere profundizar. No es necesario comprender cada línea del código, aunque se han agregado comentarios para que los lectores aprovechen al máximo. Los datos en formato CSV se pueden descargar desde aquí.