jeudi 13 septembre 2018

Analyse des Données Qualitatives (ADQ)

Analyse des Données Qualitatives (ADQ)

 Du point de vue économétrique :

Sur le plan économétrique, l’analyse de la variable qualitative (catégorielle ou nominale) s’opère de deux façons : soit il consiste de la considérée et de l’appréhendée comme étant une variable endogène, soit bien évidement de conserver comme une variable exogène et de l’étudiée dans un modèle de l’économétrie qualitative. A cela s’ajoute la possibilité d’analyser le lien entre deux variables qualitatives par le biais de test de Chi-deux d’indépendance (surtout à ne pas confondre avec le test de Chi-deux d’adéquation).

Autre par ailleurs, les modèles de l’économétrie qualitative sont divers et certains peuvent s’avérer très complexes qu’ils ne le sont d’ailleurs. Citons quelques-unes à titre illustrative du plus simples aux plus complexes : le modèle Probit binominal, Logit binominal, Gombit, Tobit simple, Tobit généralisé de type I,II,III,IV,V, Tobit à double censures, Tobit à censure multiples (tronqué ou limité), Heckit...etc. La structure de données, bien que dynamique sur la composante temporelle, peut varier selon chaque observation et prend dans ce cas la forme de données en panel. Nous allons expliciter dans la section précédente quelques principes de ces modèles.

Pour en savoir sur la nature du modèle que l’on a à faire, on peut facilement cerner selon le domaine de définition de la fonction mais aussi des modalités pourvues par la variable qualitative endogène. Ce sont des variables, qui très souvent dérivent des enquêtes portant sur un caractère d’appréciation, d’avis, de satisfaction. …etc. D’autres peuvent être calculées et non observées autant que telles. Leurs études sont aussi indispensables au même pied d’égalité que ceux quantitatives pour réaliser des efforts significatifs dans un sens précis.

La simultanéité d’une variable endogène qualitative expliquée par une autre variable exogène qualitative est certainement possible. Pour en étudier dans un cas pareil, il va falloir tenir compte d’une des modalités de la variable tout en réservant les autres pour en servir de références dans la signification des résultats obtenus autrement dit du coefficient estimé. Quant à la variable endogène qualitative, elle est présentée en termes de probabilité. Pour en parvenir, il suffit une variable continue dite latente qui aura pour objet de faciliter le calcul en termes de probabilité des
modalités de la variable endogène. Une probabilité positive est en effet synonyme d’un nombre croissant de chance. Il est éminent de constater d’autre part la convergence de la solution après itérations dans les cas aussi bien concave que convexe.

Au-delà de la significativité par variable prédicteur, la significativité globale ou encore l’adéquation du modèle est une notion d’appréciation sur la conception du modèle. Ainsi, l’indicateur de coefficient de détermination de Mc Fadden et Hekman dite aussi pseudo R-square porte un jugement sur la qualité de l’ajustement du modèle. Autrement-dit le pouvoir explicative ou la part de la fluctuation expliquée par les variables retenues dans le modèle. D’autre part, le pourcentage restant est généralement moins de 50% et correspond aux variables pertinentes non prise en compte. Le test de Hosmer Lemeshow également va dans le même sens sur la qualité de l’ajustement.

Effectivement, c’est par les effets marginaux que l’on connait plus sur l’impact de chaque variable introduite dans le modèle. Les estimateurs obtenus donnent une idée sur la nature de l’influence de la variable exogène sur l’endogène. En principe, on reconnait qu’il existe une difficulté au niveau de l’interprétation des modalités de la variable explicative. Il convient alors de mieux se fixer une modalité comme référence et d’interpréter en comparant avec celles qui servent de références dans l’analyse.
La plupart des cas, le choix de la modélisation entre Logit, Gombit (ou valeur extrême) et Probit se fait avec le pouvoir prédictive du modèle. Le meilleur d’entre eux sera retenu pour la modélisation finale.


 Du point de vue statistique :

En statistique, il existe une variété des procédées d’analyses univariés et multivariées parmi lesquelles la famille des méthodes factorielles : l’analyse factorielle des correspondances, l’analyse des correspondances multiples, l’analyse factorielle multiples, l’analyse factorielle des données mixtes. Dans certains de ces procédés, elle pourrait concerner aussi bien les variables qualitatives et quantitatives, on évoque alors une analyse mixte des variables.

Par ailleurs, d’autres techniques étudient le lien entre variables nominales et mixtes. Il s’agit en occurrence à titre d’exemple le test de Chi-deux, le coefficient de Cramer Rao, le rapport de corrélation, l’analyse de la variance (ANOVA)…etc.

Analyser statistiquement les variables qualitatives, c’est d’effectuer la même opération vue en économétrie. Autrement-dit faire en sorte que chaque modalité soit une nouvelle variable. C’est pourquoi on parle dans certains études l’existence d’un tableau disjonctif complet ou tableau de Burt. Par ailleurs, la dénomination correspondance fait référence à la liaison entre les variables nominales. La recherche des axes exprimant plus de sens aux données est le dénominateur commun de tous les méthodes factorielles. C’est plutôt en Analyse des Correspondances Multiples que l’on constate une perte massive d’information et donc la nécessité de prendre certains résultats avec précaution.

Les principes de l’analyse factorielle des correspondances, comme le nom l’indique permet de mettre évidence les correspondances entre deux variables qualitatives. En d’autres termes, la liaison dont les modalités qui interviennent et surtout d’identifier la nature de la liaison qui peut être attractive,

répulsive ou indépendant. En ce sens, c’est une méthode exploratoire, descriptive de données, établie par Benzecri dans les années 70. L’idée est de traduire la proximité des modalités comme une liaison entre les variables et surtout de saisir comme un profil identique pour les individus auxquelles elles décrivent.

A la différence, l’analyse multiples des correspondances est une généralisation de l’analyse factorielle des correspondances, qui lui-même est un double Analyse en Composantes Principales sur d’une part le profil ligne et d’autre le profil colonne dans un tableau de contingence. Autre aspect de distinction est qu’en analyse factorielle simple, le tableau de brut n’est pas étudié directement, cela risquerait de s’interpréter comme des écarts entre les lignes et les colonnes. Il est aussi important, lors de l’interprétation, d’éviter les modalités à faible effectifs marginaux de peur qu’il influence les contributions des autres.

En analyse discriminant, il requiert la présence d’une variable qualitative avec plusieurs variables quantitatives. Le principe est de mettre en place une combinaison linéaire des variables quantitatives séparant au mieux la population étudiée. La fonction discriminante peut s’obtenir à l’aide de la régression linéaire multiple. Selon un seuil et les modalités de la variable qualitative, on détermine les points individus mal placé. L’idéale est qu’il nécessite davantage d’un minimum de nombre individu mal placé. Pour cela, il faudrait penser à inclure d’autre variable dans la régression et de répéter à plusieurs itérative. La particularité résidant dans l’analyse discriminant est qu’elle est à part sa fonction exploratoire, une méthode décisionnelle.


 Du point de vue de la classification hiérarchique :

Sur le point de vue de la classification hiérarchique ascendante ou descendance, la mise en place est rendue possible par des multitudes algorithmes de calculs de distance métrique, parmi lesquelles la méthode de Manhattan, distance pondérée, Ward…etc. L’idée étant de réduire le nombre de classe par itération en regroupant celle qui se ressemblent ou celle dont la dissimilarité est minimale (selon l’indice d’agrégation). En d’autres termes, on cherche à minimiser la variance intra classe. Ce partitionnement dérive de la matrice de distance dans un espace de R puissance nombre de variable. Les profils identiques montrent les individus ayant la même préférence à l’égard d’un choix donné ou le même profil pour une caractéristique des individus recherchée.
Abdi-Basid ADAN

Aucun commentaire:

Enregistrer un commentaire

Access Various Climate Data, Manipulate Different File Formats, and Downscale GCM (CMIP5 and CMP6) and RCM (CORDEX and CORDEX CORE) Models Using a Stochastic Approach, ALL with the R programming Language

  Abdi-Basid ADAN "The purpose of this document is to consolidate and improve the various R scripts used to perform the cited analy...