Analyse exploratoire des données pour la géostatistique:analyse de la tendance

18 janvier 2017 Atilio Francois No Comments

Après l’article Introduction à l’analyse exploratoire des données pour la géostatistique , nous abordons chacun des outils disponibles pour réaliser l’analyse exploratoire des données spatialisées. Nous avons vu les histogrammes, les QQ-Plots, et les cartes de Voronoï. Nous verrons maintenant comment rechercher des tendances dans nos données.

Tendance? C’est quoi?

Il faut d’abord savoir ce que l’on cherche. Vous êtes sûrement familier avec la notion de tendance dans les séries temporelles (la tendance du chômage est à la baisse ou à la hausse, etc…).

Ici on traite des données spatiales. La notion de tendance est donc un peu différente car nous n’avons pas, a priori, la variable temps qui ordonne nos points en séries temporelles.

Prenons le même exemple utilisé dans les articles précédents, une série de points de sondes bathymétriques.

Rappelez-vous de ce que l’on disait dans l’article d’introduction sur les bases de la géostatistique : elle traite des phénomènes aléatoires avec dépendance. Peut-on assumer ici que les profondeurs sont distribuées sur notre zone d’étude de manière aléatoire? Bien sûr que non. Nous savons que la profondeur va augmenter, en principe, au fur et à mesure que nous nous éloignerons de la côte.

Si nous traçons un ligne côte-large :

et que nous projetons la valeur de nos points sur le plan défini par cette ligne:

on constate qu’effectivement, le nuage de nos points montre une relation entre la distance à la côte et la profondeur observée.

C’est ceci que nous appellerons une tendance dans nos données spatiales : quand il existe une fonction entre les valeurs des points et une direction donnée sur les trois axes spatiaux.

Quoi faire et pourquoi.

Si vous utilisez une méthode géostatistique (krigeage, par exemple) sur ces données avec tendance, vous ne respectez pas les hypothèses de base de la géostatistique. Le phénomène qui va ressortir en cachant tout autre phénomène est la distance à la côté. Vous allez vous embêter avec un outil compliqué pour avoir un résultat qui ne sera pas meilleur que celui que vous auriez avec une méthode déterministe (IDW,Spline,…) beaucoup plus simple à mettre en œuvre.

Si ce qui vous intéresse c’est cette tendance, oubliez la géostatistique et utilisez les méthodes d’interpolation déterministes classiques.

Par contre, si ce qui vous intéresse c’est de voir s’il y a d’autres phénomènes plus fins qui déterminent les profondeurs:

Le point central des deux barres noires est expliqué par la distance à la côte. Mais, la dispersion des valeurs pour chaque distance, est-ce qu’elle peut être modélisée ou pas?. C’est là qu’intervient la géostatistique : si vous souhaitez prévoir les valeurs non seulement en fonction de la distance à la côte mais aussi en fonction de ces autres phénomènes invisibles à première vue.

Analyse de la tendance

L’outil d’analyse des tendances de Geostatistical Analyst peut aider à identifier les tendances globales dans le jeu de données en entrée.
Cet outil fournit une vue tridimensionnelle des données. Les emplacements des points d’échantillonnage sont tracés sur le plan x, y. Au-dessus de chaque point d’échantillonnage, la valeur est donnée par la hauteur dans la dimension z . L’intérêt de l’outil d’analyse de tendance réside dans le fait que les valeurs sont ensuite projetées sur les plans x, z et y, z en tant que diagrammes de dispersion.

Cela peut être considéré comme des vues latérales à travers les données tridimensionnelles. Les polynômes sont ensuite ajustés à travers les diagrammes de dispersion sur les plans projetés.

En appliquant des rotations sur les différents axes vous pouvez observer le résultat en direct, sur le nuage de points projetés sur chaque plan, ainsi que la courbe d’ajustement polynomiale calculée.

Ceci revient à prendre la droite côté-large de notre exemple et de la tourner dans tous les sens pour voir quel est l’orientation pour laquelle la tendance est le plus marquée.

En tournant les axes, on arrive à voir les deux courbes d’ajustement. La courbe bleue ajuste bien le nuage de points bleus, pour une certaine orientation. Dans notre exemple, la courbe verte, perpendiculaire à la direction de la courbe bleue, n’indique aucune tendance visible.

Tendance, autocorrélation et pépite

Une surface peut être composée de deux composantes principales: une tendance globale fixe et une variation aléatoire à courte portée.

La tendance globale est parfois appelée structure moyenne fixe. La variation aléatoire à courte portée (parfois appelée erreur aléatoire) peut être modélisée en deux parties: l’autocorrélation spatiale et l’effet pépite. Ces deux notions sont utilisées lors de la modélisation du semi-variogramme.

Si vous décelez une tendance globale dans vos données, alors vous devez décider comment la modéliser. Que vous utilisiez une méthode déterministe ou une méthode géostatistique pour créer une surface dépend généralement de votre objectif. Si vous souhaitez modéliser uniquement la tendance globale et créer une surface lisse, vous pouvez utiliser une méthode d’interpolation polynomiale globale ou locale pour créer une interpolation finale.

Cependant, vous pouvez traiter la tendance dans une méthode géostatistique. Tout d’abord on la supprime, en soustrayant la tendance à chaque point et en gardant les résidu en tant qu’entrées de la méthode géostatistique. Puis, on modélise les résidus (la composante restante) comme variation aléatoire à courte portée en utilisant une méthode de krigeage. Une fois obtenu le résultat du krigeage, on rajoute à chaque maille du résultat, la valeur de la tendance calculée pour cette maille.

La raison principale pour supprimer une tendance en géostatistique est de satisfaire les hypothèses de stationnarité.

Si vous décomposez vos données en tendance plus variation à courte portée, vous supposez que la tendance est fixe et que la variation à courte portée est aléatoire. Ici, aléatoire ne signifie pas «imprévisible», mais plutôt qu’elle est régie par des règles de probabilité qui incluent la dépendance à des valeurs voisines, ce qui est appelé autocorrélation.

La surface finale sera la somme des surfaces fixes et aléatoires. En d’autres termes, pensez que vous aller ajouter deux couches pour obtenir le résultat final: celle qui ne change jamais (tendance), et l’autre qui change de façon aléatoire (autocorrélation).

Si vous pouvez identifier et quantifier la tendance, vous gagnerez une compréhension plus profonde de vos données et ainsi vous pourrez prendre de meilleures décisions. Si vous supprimez la tendance, vous serez en mesure de modéliser plus précisément la variation aléatoire à courte portée car la tendance globale n’influencera pas votre analyse spatiale.

Examen de la tendance globale par l’analyse des tendances

L’outil Trend de geostatistical analyst projette les points dans deux directions (par défaut, nord et est) sur des plans perpendiculaires au plan cartographique.

Une courbe polynomiale est adaptée à chaque projection. Toute la surface de la carte peut être tournée dans n’importe quelle direction, ce qui modifie également la direction représentée par les plans projetés. Si la courbe à travers les points projetés est plate, aucune tendance n’existe, comme le montre la ligne verte dans le plan projeté à gauche dans l’image ci-dessus

Si le polynôme est défini comme un modèle incurvé (vers le haut ou vers le bas, tel que représenté avec la ligne bleue dans le plan projeté gauche dans le diagramme ci-dessus), ceci suggère une tendance globale dans les données

Cela suggère qu’un polynôme du second ordre peut être adapté aux données . Grâce au raffinement autorisé dans l’outil d’analyse des tendances, on peut identifier l’orientation réelle de la tendance. Dans ce cas, sa plus forte influence est du nord-est au sud-ouest.

Ordre de la tendance

Une fois que vous aurez détecté une tendance, il vous reste à définir de quel ordre (premier, deuxième, troisième,…) est cette tendance. Même si cela paraît compliqué, en réalité c’est très simple.

Prenez un feuille de papier.

Gardez la droite et penchez-la. Si votre tendance ressemble à ça, vous avez une tendance de premier ordre. Au niveau de l’outil tendance de geostatistical analyst cela se traduit par des ajustements sous forme de deux droites.

Courbez la feuille de manière à créer un creux ou une bosse. Si votre tendance a cette forme, vous avez une tendance de deuxième ordre. Au niveau de l’outil tendance de geostatistical analyst cela se traduit par un ajustement sous forme de droite et un autre sous forme de courbe avec une courbure.

Courbez maintenant à nouveau la feuille de manière à créer un creux et une bosse. Si votre tendance a cette forme, vous avez une tendance de troisième ordre. Au niveau de l’outil tendance de geostatistical analyst cela se traduit par un ajustement sous forme de deux courbes, chacune avec sa propre courbure.

Et ainsi de suite. Tout simplement, vous devez compter le nombre de courbures que vous trouvez et rajouter 1, pour avoir l’ordre du polynome représentatif.

Si cet article vous a intéressé et que vous pensez qu'il pourrait bénéficier à d'autres personnes, n'hésitez pas à le partager sur vos réseaux sociaux en utilisant les boutons ci-dessous. Votre partage est apprécié !