Crémetz Olivier Lemrabet Youness. Projet de Statistiques : Sujet n 10 Étude des données conjoncturelles de la Belgique

Dimension: px
Commencer à balayer dès la page:

Download "Crémetz Olivier Lemrabet Youness. Projet de Statistiques : Sujet n 10 Étude des données conjoncturelles de la Belgique"

Transcription

1 Crémetz Olivier Lemrabet Youness GIS2 Projet de Statistiques : Sujet n 10 Étude des données conjoncturelles de la Belgique Polytech'Lille Département Génie Informatique et Statistiques Année

2 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 2 sur 42 SOMMAIRE I) Introduction... 3 II) PARTIE 1 : Statistiques Descriptives Paramètre de dispersion Paramètre de tendance centrale Autres Mesures : Graphiques - Histogrammes :... 6 III) PARTIE II : Corrélation et tests d hypothèse Matrice de corrélation Coefficient de PEARSON IV) PARTIE III : Analyse de données Analyse des composantes principales (ACP) a) Calcul des Valeurs propres et choix du nombre d axes b) Coordonnées des individus contributions et cosinus carrées c) Cercle de corrélation d) 1 er plan factoriel Classification ascendante hiérarchique (CAH) a) Choix du nombre d axes b) Dendogramme c) Plan factoriel avec les classes d) Etude des inerties V) Conclusion Annexe I Sources des programmes sous R avec les résultats Annexe II Sources des programmes sous SAS avec les résultats... 30

3 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 3 sur 42 I) Introduction Dans le cadre du projet de statistiques de 2 ème année, nous sommes amenés à effectué une étude sur la base de données conjoncturelles de la Belgique. Ce tableaux présente l évolution du taux de chômage (variable CHO), taux de croissance (variable CRO), taux d inflation (variable INF), le taux de consommation privée, rapport de la consommation privée au PIB) (variable CPR) et taux d investissement, rapport de la formation brute de capital fixe au PIB (INV). Pour étudier cette base de données, nous utiliserons les outils R, SAS et SPAD. Les codes seront placés en annexe. Nous étudierons dans un premier temps les statistiques descriptives pour chacune des variables afin de déterminer les tendances générales, puis nous réaliserons une analyse en composantes principales (ACP) et une classification ascendante hiérarchique (CAH). L ACP permettra d analyser les correspondances entre les variables et la CAH mettra en évidence les relations entre les individus. Nous regrouperons suite à cette analyse les individus en plusieurs classes et analyserons les tendances de celles-ci. Présentation de la base de données Nous étudierons sur cette base concernant les données conjoncturelles de la Belgique entre 1971 et Année CHO CRO INF CPR INV Nous pouvons dès lors remarquer que le tableaux de données ne contient aucune cases vides.

4 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 4 sur 42 Ce tableau se compose de 20 individus qui représentent les années étudiées (en ligne de 1971 à 1990) ainsi que les 5 variables suivantes (en colonne) : CHO : taux de chômage, CRO : taux de croissance du PIB, INF : taux d inflation, CPR : taux de consommation privée ( rapport de la consommation privée au PIB ), INV : taux d investissement ( rapport de la formation brute de capital fixe au PIB ). II) PARTIE 1 : Statistiques Descriptives Statistiques simple Variables CHO CRO INF CPR INV Moyenne Ecart-type Variance Minimum 1.70 (1971) (1975) (1988) (1974) (1985) Maximum (1983) (1973) (1974) (1982) (1974) Etendu 10,80 7,40 10,80 5,80 7,10 1 er Quartile Mediane ème Quartile Coeff de Variation Skewness Kurtosis Paramètre de dispersion Etendue: L étendue donne une première idée sur la série par contre, elle ignore ce qui se passe entre les valeurs externes. En 1971, le taux de chômage est le plus bas ; en 1973, le taux de croissance est le plus élevé. En 1974, le taux d inflation et le taux d investissement sont les plus forts, contrairement au taux de consommation privée qui connaît à cette date son minimum global. En 1975, le taux de croissance est à son minimum. Ce taux sera passé de son maximum à son minimum en seulement deux ans. Les variables les plus dispersées sont ici le taux de chômage, le taux d inflation. Coefficient de variation Les variables taux de chômage, taux de croissance du PIB et taux d inflation ont un coefficient de variation supérieur à 20% on peut conclure que leurs séries sont homogènes et leurs moyennes sont représentatives par contre les variables taux de consommation privée et taux d investissement ont un coefficient de variation faible donc leurs séries sont hétérogènes et leurs moyennes ne sont pas représentatives.

5 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 5 sur 42 Ecart-type L écart-type est la racine carrée de la variance. Il mesure la dispersion des observations autour de la moyenne. La moyenne la plus représentative de la série la plus homogène est celle de la série «taux de la croissance privée», son Ecart type est le plus petit. La série taux de chômage est la plus hétérogène donc elle a la moyenne la moins représentative de la série la plus hétérogène est celle de la série «taux de chômage», son Ecart-type est le plus grand 2. Paramètre de tendance centrale Moyenne La moyenne est la moyenne arithmétique des données. C est une mesure de tendance centrale. En moyenne le taux de chômage en Belgique est de % entre les années 1971 à En moyenne le taux de croissance du PIB en Belgique est de 2.59 % entre les années 1971 à En moyenne le taux d'inflation en Belgique est de 5.79 % entre les années 1971 à D après les données, on en déduit les coordonnées du centre de gravité du nuage des individus : G={7.625, 2.59, 5.79, 62.76, 19.46} Médiane La médiane est le second quartile. Elle partage la série en deux parties de l effectif Dans 50% des années entre 1971 à 1990 le taux de consommation privée (rapport de la consommation privée au PIB) en Belgique était de 62.6 %. Dans 50% des années entre 1971 à 1990 le taux d investissement était de %. 3. Autres Mesures : Coefficient d aplatissement ou kurtosis Ce coefficient permet d évaluer la forme de la distribution des valeurs d une variable rapport à une distribution théorique : Normale : = 0 Aplatie : < 0 Aiguë : > 0 Nous remarquons ici que les variables CHO, CRO, CPR, INV ont des distributions aplaties tandis que la variable INF a une distribution aiguë. Coefficient d asymétrie ou skewness Le skewness mesure le degré d asymétrie la distribution. Il peut avoir 3 valeurs Symétrique : = 0 Asymétrique à gauche : < 0 Asymétrique à droite : > 0 Ici, les variable CHO, CRO et INV sont asymétrique à gauche. La variable CPR est presque symétrique avec un skewness de La variable INF est asymétrique à droite. Les coefficients sont tout de même proche de 0, ce qui signifie que les variables sont assez symétrique par rapport à la distribution.

6 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 6 sur Graphiques - Histogrammes : Evolution du taux de chômage (CHO) : Evolution du taux de chômage de 1971 à 1990 Taux de chômage ANNEE Sur ce graphique représentant l évolution du taux de chômage entre 1971 et 1990, nous pouvons remarquer que le taux de chômage a particulièrement augmenté de 1.7% en 1971 à 12.5% en et a entamé une phase de diminution jusqu en 1990 (7.6% de chômage). Cet histogramme peut se décomposer en 4 phases distinctes : De 1971 à 1974, le niveau de chômage restent assez stable et bas. Il est en moyenne de 2.1% mais reste en augmentation. De 1975 à 1980, le taux de chômage a considérablement augmenté. Il passe de 4,2% en 1975 à près de 7,4% en Cette augmentation est principalement la conséquence du choc pétrolier du 17 octobre 1973 qui a déstabilisé l économie du pays. De 1981 à , on remarque de nouveau une nette évolution du taux de chômage qui passe de 9.5% à 12.5% en Ce taux sera constant jusqu en Ces deux années représentent le maximum de la valeur du taux de chômage observé dans l ensemble de nos données. De 1985 à 1990, on observe une nette diminution du taux de chômage qui passe de 11.8% à 7.6% en Cette descente est continue mais beaucoup plus visible en avec 1.6% de baisse.

7 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 7 sur 42 Evolution du taux de croissance (CRO) : Evolution du taux de croissance de 1971 à 1990 Taux de croissance en % ANNEE Ce graphique est assez complexe à expliciter. On voit des disparités importantes dans l évolution du taux de croissance. Nous pouvons néanmoins dégager 4 tendances principales : De 1971 à 1973, on remarque une croissance régulière du taux. On passe 3.7% à 5.9%. A partir de 1974 jusqu en 1984, on observe une évolution instable alternant une phase de croissance et de décroissance. Durant cette période on remarque les deux années où la croissance a été négative. Ces phases sont la conséquence des chocs pétroliers de 1973 et La mauvaise situation économique internationale influe sur l exportation des produits belges. De 1985 à 1988, on observe que la croissance est régulière pour atteindre 5 % en De 1989 à1990, la situation est revue à la baisse Evolution du taux d inflation (INF) : Evolution du taux d'inflation de 1971 à 1990 Taux d'inflation en % ANNEE Ce graphique présente l évolution du taux d inflation de 1971 à 1990.

8 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 8 sur 42 Cet histogramme peut se décomposer en 6 phases : De 1971 à 1973, le taux d inflation augmente de façon constante. (de 5.6 % à 7.2%) De 1974 à 1975, on remarque une brusque augmentation de 5.4% du taux d inflation qui atteint les 12.6 % en Ceci montre le conséquences du premier choc pétrolier sur la demande. De 1976 à 1980, le taux d inflation diminue tous les deux ans et atteint 3.8% en 1980 De 1981 à 1982, le taux remonte significativement et atteint 7.1 % en De 1983 à 1988 Le taux d inflation diminue ensuite jusqu en 1988 pour atteindre le minimum d inflation de 1.8% avec un léger accident en 1985 De 1989 à 1990 on observe une diminution de l inflation après la remontée de 2.8 % entre 1988 et Evolution du taux de consommation privée (CPR) : Evolution du taux de consommation privée de 1971 à 1990 Taux de consommation privee en % ANNEE Ce graphique peut se décomposer en trois grandes parties. De 1971 à 1980, le taux de consommation privée augmente de manière accidentée. Tous les deux ans on observe une montée de la consommation privée suivie d une légère baisse. De 1981 à 1985, le taux de consommation privée atteint ses plus grandes valeurs : Le taux se situe autour des 65 %, atteignant le maximum en 1982 avec un taux de 65.6 %. De 1985 à 1990, le taux de consommation privée diminue avec une légère remontée en Il tombe à 64.2 % en 1986, soit une différence de 1.3 % avec l année Il atteint une valeur de 62.4 % en Ce graphique représente à peu près la même évolution que l évolution du taux de chômage. L analyse de la corrélation montrera si on a une relation entre ces 2 variables.

9 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 9 sur 42 Evolution du taux d investissement (INV) : Evolution du taux d'investissement de 1971 à 1990 Taux d'investissement en % ANNEE Ce graphique présentant l évolution du taux d investissement peut se diviser en trois grandes parties : De 1971 à 1980, le taux d investissement évolue de manière instable mais en conservant une moyenne de %. De 1981 à 1985, on observe une diminution du taux d investissement. En 1981, le taux d investissement chute à 18 %. En 1985, le taux d investissement est à son minimum c est à dire : 15.6 %. De 1986 à 1990, on remarque une remontée progressive du taux d investissement pour atteindre 20.2 % en Ce graphique semble suivre une tendance inverse par rapport à l évolution du taux de chômage ainsi que celle du taux de consommation privée. Cette tendance sera montrée par une corrélation négative entre ces valeurs.

10 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 10 sur 42 III) PARTIE II : Corrélation et tests d hypothèse 1. Matrice de corrélation La matrice des corrélations permet d établir les différentes relations qui existent entre les variables. Si le coefficient pour deux variables différentes est proche de 1, alors on en déduit que ces variables sont fortement corrélées et sont très proches dans les projections. Cette matrice des corrélations nous permet de voir les différentes relations entre les variables CHO, CRO, INF, CPR et INV. Matrice de corrélation Variables CHO CRO INF CPR INV CHO CRO INF CPR INV On observe une très forte corrélation positive de entre les variables CHO (taux de chômage) et CPR (le taux de consommation privée) : Cela signifie que lorsque le taux de chômage augmente, plus le taux de consommation privée est élevé. Cela se voit surtout entre 1981 et 1987 : Le taux de chômage atteint un maximum de 12.5 % et le taux de consommation privée un maximum de 65.6 %. Il y a une très forte corrélation négative entre les variables INV (le taux d'investissement) et CHO (taux de chômage). En effet, leur coefficient de corrélation est de -0,9139. Cette corrélation négative démontre une opposition de ces deux variables durant les années 70 à 90. Lorsque le taux de chômage augmente, le taux d investissement diminue. Si le nombre de chômeurs augmente, la population investit moins. Il y a une très forte corrélation négative entre les variables INV (le taux d'investissement) et CPR (taux de consommation privée). Cette corrélation négative de montre l opposition entre ces deux variables. Plus la population belge consomme, moins elle investit. On peut supposer que les variables CPR et CHO seront très proches et opposées à la variable INV sur le cercle de corrélation.

11 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 11 sur Coefficient de PEARSON Coefficients de Corrélation de Pearson Prob > r sous H0: Rho=0 CHO CRO INF CPR INV CRO INF CPR < INV < <.0001 Formulation des hypothèses La première l'hypothèse nulle ou Ho - est, comme son nom l'indique, une hypothèse qui postule que la relation entre X et Y est due au hasard, autrement dit qu'il n'y a pas de relation entre X et Y (nulle = absence de relation). La seconde l'hypothèse alternative ou H1 - correspond habituellement à l'hypothèse de votre recherche. Contrairement à l'hypothèse nulle, cette hypothèse suggère que la relation entre X et Y ne puisse être attribuée au hasard; il existe donc un lien entre X et Y au sein de la population. On note RHo= Absence de corrélation linéaire RH1= Présence de corrélation linéaire On a n=20<30 donc T (statistique)suit une loi de Student de n-2 degré de liberté Règle On prend un risque de Règle de décision Si la p-value est supérieur à 0,05, on accepte l'hypothèse nulle et on peut conclure qu'il n y a pas de corrélation entre les deux variables observés est due au hasard. Si la p-value est inférieur à 0,05, on rejette l'hypothèse nulle et on peut conclure qu'il y a une corrélation entre les deux variables observés. Conclusion En prenant un risque de 0.05, on remarque qu il y a une corrélation linéaire entre toutes les variables. excepté les deux variables «taux d'inflation» et «taux de croissance du PIB»

12 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 12 sur 42 IV) PARTIE III : Analyse de données A partir de la base de données, nous allons réaliser une Analyse en Composantes Principales (ACP ) afin de déterminer les relations qui peuvent exister entre les différentes variables et les différents individus. Ensuite nous allons faire une Classification Ascendante Hiérarchique (CAH) qui nous permettra de montrer les relations existantes entre les différents individus. Nous pourrons ensuite regrouper ces individus en plusieurs classes et analyser chacune de ces classes. 1. Analyse des composantes principales (ACP) L'analyse en composantes principales (ACP) est une technique mathématique permettant de réduire un système complexe de corrélations en un plus petit nombre de dimensions. a) Calcul des Valeurs propres et choix du nombre d axes Les valeurs propres représentent l inertie projetée. Le pourcentage d inertie d une valeur propre représente la part d information de départ que l axe contient. Lamda Valeur propre Pourcentage Pourcentage cumulé Nous cherchons à déterminer combien d axes factoriels nous allons retenir pour l étude. Histogramme des Valeurs propres 4,0000 3,5000 3,0000 2,5000 2,0000 1,5000 1,0000 0,5000 0, Valeur propre Critère 1 «Inertie moyenne» L inertie totale du nuage des individus est de 5. C est la somme des valeurs propres, donc IM = 1 / 5 = 0.2 On retient les axes qui ont une inertie supérieure à 0.2. Dans notre cas, on garde les deux premiers axes.

13 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 13 sur 42 Critère2 «Coude» ε 1 = λ¹ - λ² = = 2.12 ε 2 = λ² - λ 3 = = 0.83 ε 3 = λ 3 - λ 4 = = 0.25 ε 4 = λ 4 - λ 5 = = 0.28 γ¹ = ε 1 - ε 2 = 1.29 γ² = ε 2 ε 3 = 0.58 γ 3 = ε 3 ε 4 = Selon ce critère on retient donc deux premiers axes principaux Critère 3 «Inertie cumulé» L inertie expliquée par les deux premiers axes représente 91% de l inertie total donc on retient les deux premiers axes factoriels Conclusion D'après les trois méthodes ci dessus, nous retenons donc deux axes factoriels. Ces 2 axes représentent 91% de l'information totale. b) Coordonnées des individus contributions et cosinus carrées Voici les coordonnées, les contributions et les cosinus carrés des individus pour les deux premiers axes factoriels. Individus Coordonnées Contributions Cosinus carrés Identificateurs Prin1 Prin2 cont1 cont2 cosca1 cosca Les coordonnées : indiquent si l individu est projeté positivement ou négativement sur l axe considéré. Les contributions : représentent la part d information apporter par l individu à la construction de l axe. Plus la contribution est élevée pour un axe, plus l individu contribue à cet axe.

14 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 14 sur 42 Les cosinus carrés : indiquent la qualité de l information. Plus cette valeur est proche de 1, plus l individu a une bonne qualité de représentation. L axe 1 : 1983 (CTR=8.39) 1985 (CTR=8.33) 1987(CTR=7.19) 1986 (CTR=6.78) 1984(CTR=6.75) Le coté négatif Le coté positive 1974 (CTR=15.61) 1972 (CTR=8.85) 1973 (CTR=8.58) 1971(CTR=7.32) L axe 1 oppose les années (1983, 1985, 1987, 1986, 1984) aux années (1974, 1973, 1972, 1971). On peut prévoir qu il y a un niveau de dépendance entre les années qui se trouve du même coté. L année 1974 contribue fortement à la construction de l axe 1. De plus la qualité de représentation de cette année sur le 1 er axe factoriel est très bonne ( cos²=0.8 ) Calcul de la quantité d information apporté par les individus retenus à la construction de l axe 1: Pourcentage d inertie = 15,61 + 8,85 + 8,58 +8,39+8,33+ 7,32 + 7, ,75 = 84,55 %. Ainsi, les individus sélectionnés ci-dessus contribuent fortement à la construction de l axe 1. Ils restituent 84,55 % de la quantité d information de départ. L axe 2 : Le coté négatif Le coté positive 1988 (CTR=15.33) 1975 (CTR=35.57) L axe 2 est principalement un axe constitué par l année 1975 mais dans une moindre mesure l année 1988 contribue à la construction de cet axe. Il y a une opposition entre ces deux années. On peut prévoir qu il y a un niveau de dépendance entre les années qui se trouve du même coté. Pourcentage d inertie = somme des contributions = 35, ,33 = 50,9 %. Les deux années 1975 et 1988 contribuent à eux seuls à plus de la moitié à l axe 2.

15 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 15 sur 42 c) Cercle de corrélation Sur le cercle de corrélation on peut observer deux choses : La proximité est l orthogonalité entres les variables. La proximité est l orthogonalité entre les variables initiales et les composantes principales. Voici le cercle de corrélation suivant les facteurs 1 et 2 correspondant aux données conjoncturelles de la Belgique. Ici, tous les points sont proches de la circonférence du cercle, ils sont donc bien représentés. L axe 1 représente 67,52 % de l information et l axe 2 en représente 23,29 %. La quantité d information totale contenue dans ce cercle des corrélations est de 90,81 %. Toutes les variables sont proches de la circonférence du cercle, elles sont donc bien représentées. Les variables INF et CRO sont difficiles à interpréter. Les variables CHO, CPR et INV sont fortement corrélées à l axe 1. La variable INV est, elle, projetée positivement sur le cercle de corrélation. Les deux variables CPR et CHO sont toutes deux projetées négativement sur l axe 1. On plus elles sont fortement corrélées entre elles car leur représentation sur le cercle est très proche. Dons la variable INV est fortement négativement corrélée avec les deux variables CPR et CHO.

16 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 16 sur 42 d) 1 er plan factoriel Le 1 er plan factoriel nous permet de visualiser la projection des individus suivant les premier et deuxième axes. La taille des cercles représente leur contribution aux différents axes. Le premier plan factoriel restitue 91% de l'information. Dans le premier plan factoriel les individus 1979,1980,1989 et 1990 ne sont pas bien représentés car ils sont proches du centre du plan factoriel. Dans le 1 er plan factoriel, on a d'une part une opposition entre les années (1983, 1985, 1987, 1986, 1984) et les années (1974, 1973, 1972, 1971) et d'autre part entre 1988 et 1975, On remarque que les années 1975 et 1988 contribuent fortement à la construction de l'axe 2. Les variables INV, CHO et CPR, les années 1971 à 1976 ainsi que les années allant de 1981 à 1987 contribuent fortement à l axe 1. Nous allons analyser le 1 er plan factoriel à l aide du cercle des corrélations. 1 er axe factoriel Sur l axe 1 nous observons une opposition entre les années 70 (qui sont projetées positivement) et les années 80. Le contexte économique de ces deux décennies est différent. Dans les années 70, la Belgique a un taux de chômage assez bas avec un taux d investissement élevé et un taux de consommation privé moyen. Dans les années 1980, la tendance s inverse pour ces trois variables : le taux de chômage augmente fortement ainsi que le taux de consommation privé, mais par contre le taux d investissement diminue.

17 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 17 sur 42 Les variables CHO et CPR et les années 1981 à 1987 sont projetées négativement sur l axe 1. Le taux de chômage et de consommation privée sont relativement élevés. Ils atteignent leur maximum en 1983 et en 1984 pour CHO et 1985 pour CPR. Ces années représentent donc bien les variables CHO et CPR. Les variables INF, INV, CRO et les années 1971 à 1976 sont projetées positivement sur l axe 1 on remarque que c est durant les années 1971 à 1976 que le taux d investissement est le plus élevé. Par exemple l année la plus à droite est l année 1974 où le taux d investissement a été le plus élevé : 22,7 %. 2 ème axe factoriel Sur le 1 er plan factoriel, nous observons que les années 1975 et 1988 contribuent fortement à la construction de l axe 2. L année 1975 est projetée positivement sur cet axe, comme la variable INF. L année 1988 est projetée négativement par rapport à cet axe, comme la variable CRO. En 1988, le taux de croissance CRO est élevé 5 %, contrairement à 1975 où le taux connaît son minimum avec 1,5 %. Par contre la Belgique connaît l un des plus haut taux d inflation : 12,1 %. Par opposition à l année 1988 où son taux est le plus faible : 1,8 % 2. Classification ascendante hiérarchique (CAH) L objectif de la classification est de construire des classes homogènes d individus décrit par un ensemble de variables quantitatives ou qualitatives. L analyse factorielle se révèle impuissante pour former de tels groupes lorsque le nombre d individus ou de variables et très élevés. Dans le cadre de notre projet nous avons une petite population donc la classification ascendante hiérarchique n est pas obligatoirement nécessaire, néanmoins nous allons l utiliser pour confirmer les résultats trouvés à l aide de l analyse en composante principale. Le but est de regrouper les individus dans des classes, de tel sorte que les entités d une classe soient les plus semblables possible et les classes soient les plus séparer possible. a) Choix du nombre d axes Indices de niveaux : Nous avons effectué une classification ascendante hiérarchique sous SPAD car ce logiciel permet de voir l histogramme des indices de niveaux suivant :

18 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 18 sur 42 D après la méthode du coude, on peut découper notre échantillon en 3 classes. b) Dendogramme Classification hiérarchique directe % % % En utilisant la distance de Ward, on construit à l aide de R ou SPAD le dendrogramme de la classification ascendante hiérarchique. On peut donc regrouper les individus en 3 classes :

19 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 19 sur 42 La première classe correspond aux années 1971 à Nous pouvons remarquer que les années 1971, 1972, 1973 et 1976 sont très proches. Ces années se rejoignent avec l année Les années 1977 et 1975 viennent rejoindre cette classe beaucoup plus loin. Cela correspond au premier plan factoriel de l analyse en composante principale. La deuxième classe correspond aux années 1978 à 1980 et 1988 à Ces années sont assez proches. On remarque que l année 1988 vient rejoindre cette classe beaucoup plus loin. Cela se voit sur le plan factoriel. La troisième classe correspond aux années 1981à Le regroupement de ces individus correspond au regroupement sur le plan 1x2. Cette classe correspond aux années les plus proches. La première et la deuxième classe semblent se ressembler. Ces années sont projetés positivement sur l axe 1 tandis que la troisième classe est projetée négativement. Cela est montré par l éloignement du nœud qui relie ces 2 types de classe. c) Plan factoriel avec les classes Dans ce plan les classes sont représentées par des points. Les années représentés dans le 1 er plan factoriel sont situées dans 3 zones distinctes du graphe Par rapport à l axe 1, nous observons que la classe 1 est projetée positivement alors que la classe 3 est projetée négativement. Par rapport à l axe 2, nous observons que Les classes 1 et 3 sont projetées positivement. Alors que la classe 2 est projetée négativement.

20 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 20 sur 42 On note que la classification ascendante hiérarchique confirme les interprétations qu on avait faites en Analyse en composante principale. Il y a 3 classes et chaque classe définit une tendance : Classe 1 : Cette classe regroupe les années 1971 à 1977 où le taux d investissement était élevé et les taux de consommation privée et de chômage étaient faibles. De plus, cette classe comprend les années où le taux d inflation a été le plus fort (1974 et 1975). Classe 3 Cette classe regroupe les années 1981 à 1987 où le taux d investissement était bas et les taux de chômage et de consommation privée étaient élevés Classe 2 Cette classe se situe entre les deux classes précédentes elle est constituée des années 78 à 80 et 88 à 90. De plus, cette classe comprend les années où le taux d inflation a été le plus faible1987 et Cette analyse plus fine permet de montrer l opposition entre la classe 1 et la classe 3. La classe 2 sert d état transitoire entre ces 2 classes. d) Etude des inerties L inertie intra-classe d une partition est la mesure globale de la compacité des différentes classes de cette partition. Plus la mesure de compacité d une classe est faible, plus les éléments de cette classe sont proches de leur centre de gravité et donc plus la classe est compacte. L inertie interclasse d une partition mesure la dispersion des classes de cette partition, représentée par leur centre de gravité, autour du centre de gravité général. L inertie interclasse est donc une mesure de séparabilité des classes. L inertie totale est la somme de l inertie interclasse et de l inertie intra-classe. Voici le tableau des inerties intra-classe et interclasse pour les 3 classes : Décomposition de l'inertie calculée Inerties Inerties Inter-classes 3,48878 Intra-classe Classe 1 / 3 1,00608 Classe 2 / 3 0,23754 Classe 3 / 3 0,26760 Totale 5,00000 Quotient (I. inter / I. totale) 0,69776

21 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 21 sur 42 Ici, on remarque que les classes 2 et 3 sont les classes les plus compactes. La classe 1 est moins compacte (inertie intra-classe supérieure à 1). Le quotient Inertie inter-classe sur Inertie totale montre que les classes sont assez bien séparées (~70%) V) Conclusion L étude des données conjoncturelles de la Belgique nous a permis de dégager les tendances générales sur 5 variables : CHO : taux de chômage, CRO : taux de croissance du PIB, INF : taux d inflation, CPR : taux de consommation privée ( rapport de la consommation privée au PIB ), INV : taux d investissement ( rapport de la formation brute de capital fixe au PIB ). Nous avons grâce aux logiciels SAS, R et SPAD pu mettre en œuvre les techniques de statistiques descriptives, tests d hypothèses et d analyse de données vue en cours. Nous avons remarqué que l étude se centrait plutôt sur les variables taux d investissement, de chômage et de consommation privée. Les variables taux d inflation et de croissance sont plus secondaires. L utilisation de ces logiciels nous a fortement aidé dans notre analyse. Ils nous ont permis de manipuler facilement les données et d en extraire les principales informations.

22 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 22 sur 42 Annexe I Sources des programmes sous R avec les résultats. > #PARTIE 1 STATISTIQUES DESCRIPTIVES > #importation des donnees > base = read.table("c:/basebelgique.txt",header = TRUE,row.name='annee') > #affichage de la base > base CHO CRO INF CPR INV > #statistiques descriptives > summary(base) CHO CRO INF CPR Min. : Min. :-1.50 Min. : Min. : st Qu.: st Qu.: st Qu.: st Qu.:61.13 Median : Median : 2.45 Median : Median :62.60 Mean : Mean : 2.59 Mean : Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:64.60 Max. : Max. : 5.90 Max. : Max. :65.60 INV Min. : st Qu.:17.02 Median :20.45 Mean : rd Qu.:21.63 Max. :22.70 > #ecart-type > sd(base) CHO CRO INF CPR INV

23 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 23 sur 42 > #coefficient de variation > sd(base)/mean(base) CHO CRO INF CPR INV > vari<-cov(base) > #affichage de la variance > for(i in 1:5){print(vari[i,i])} [1] [1] [1] [1] [1] > #affichage de la matrice variances covariances > vari CHO CRO INF CPR INV CHO CRO INF CPR INV > #matrice de correlation > cor(base) CHO CRO INF CPR INV CHO CRO INF CPR INV > #calcul de l'étendue > etendue<-function(){ + for (i in 1:ncol(base)){ + etend<-max(base[i])-min(base[i]) + print("etendue de la colonne") + print((colnames(base))[i]) + print(etend)} + } > etendue() [1] "Etendue de la colonne" [1] "CHO" [1] 10.8 [1] "Etendue de la colonne" [1] "CRO" [1] 7.4 [1] "Etendue de la colonne" [1] "INF" [1] 10.8 [1] "Etendue de la colonne" [1] "CPR" [1] 5.8 [1] "Etendue de la colonne" [1] "INV" [1] 7.1

24 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 24 sur 42 > #Calcul du coefficient d'aplatissement > mykurtosis <- function(x) { + m4 <- mean((x-mean(x))^4) + kurt <- m4/(sd(x)^4)-3 + kurt + } > for(k in 1:ncol(base)){print(mykurtosis(base[k]))} CHO CRO INF CPR INV > #Calcul du coefficient d'asymétrie > myskewness <- function(x) { + m3 <- mean((x-mean(x))^3) + skew <- m3/(sd(x)^3) + skew + } > for(k in 1:ncol(base)){print(myskewness(base[k]))} CHO CRO INF CPR INV > #tracage des boites à moustache Pour tracer les boites à moustaches variables par variables > for(j in 1:ncol(base)){boxplot(base[,j])} On trace les boites à moustaches sur le même graphique > boxplot(base) > #tracage des courbes. Evolution sur les 20 ans. > plot(base[,1],xlab="annee",ylab="cho",type='l') > #histogrammes > barplot(base$cho,names.arg=rownames(base[1]),xlab="annee",ylab="taux de chômage",main="evolution du taux de chômage de 1971 à 1990") > barplot(base$cro,names.arg=rownames(base[1]),xlab="annee",ylab="taux de croissance en %",main="evolution du taux de croissance de 1971 à 1990") > barplot(base$inf,names.arg=rownames(base[1]),xlab="annee",ylab="taux d'inflation en %",main="evolution du taux d'inflation de 1971 à 1990")

25 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 25 sur 42 > barplot(base$cpr-55,names.arg=rownames(base[1]),xlab="annee",ylab="taux de consommation privee en %",main="evolution du taux de consommation privée de 1971 à 1990",offset=55) > barplot(base$inv-12,names.arg=rownames(base[1]),xlab="annee",ylab="taux d'investissement en %",main="evolution du taux d'investissement de 1971 à 1990",offset=12) > #PARTIE 2 CORRELATION ET TESTS D HYPOTHESE > # test de Pearson entre la variable CHO et CRO > cor.test(base$cho,base$cro,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cho and base$cro t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CHO et INF > cor.test(base$cho,base$inf,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cho and base$inf t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CHO et CPR > cor.test(base$cho,base$cpr,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cho and base$cpr t = , df = 18, p-value = 2.939e-10 alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor

26 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 26 sur 42 > # test de Pearson entre la variable CHO et INV > cor.test(base$cho,base$inv,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cho and base$inv t = , df = 18, p-value = 1 alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CRO et INF > cor.test(base$cro,base$inf,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cro and base$inf t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CRO et CPR > cor.test(base$cro,base$cpr,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cro and base$cpr t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CRO et INV > cor.test(base$cro,base$inv,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cro and base$inv t = 1.653, df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor

27 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 27 sur 42 > # test de Pearson entre la variable INF et CPR > cor.test(base$inf,base$cpr,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$inf and base$cpr t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable INF et INV > cor.test(base$inf,base$inv,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$inf and base$inv t = , df = 18, p-value = alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > # test de Pearson entre la variable CPR et INV > cor.test(base$cpr,base$inv,alternative='greater',conf.level=0.95) Pearson's product-moment correlation data: base$cpr and base$inv t = , df = 18, p-value = 1 alternative hypothesis: true correlation is greater than 0 95 percent confidence interval: sample estimates: cor > #PARTIE 3 ANALYSE DE DONNEES > #Analyse en Composantes Principales > summary(acp<- princomp(base[1:5],cor=true)) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation Proportion of Variance Cumulative Proportion

28 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 28 sur 42 > loadings(acp) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 CHO CRO INF CPR INV Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 SS loadings Proportion Var Cumulative Var > # AFC > factanal(base[1:5],factors=2) Call: factanal(x = base[1:5], factors = 2) Uniquenesses: CHO CRO INF CPR INV Loadings: Factor1 Factor2 CHO CRO INF CPR INV Factor1 Factor2 SS loadings Proportion Var Cumulative Var Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.28 on 1 degree of freedom. The p-value is > prcomp(base[1:5]) Standard deviations: [1] Rotation: PC1 PC2 PC3 PC4 PC5 CHO CRO INF CPR INV > # Classification ascendante hierarchique > cah <- hclust(dist(base[1:5]),"ward") > plot(cah,hang=-1,main="cah")

29 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 29 sur 42 > #autre méthode Classification ascendante hierarchique. Dendogramme en mode texte > CAH<- hclust(dist(base[1:5]),"ave") > > (dend1<-as.dendrogram(cah)) `dendrogram' with 2 branches and 20 members total, at height > > str(dend1) --[dendrogram w/ 2 branches and 20 members at h = 11.2] --[dendrogram w/ 2 branches and 2 members at h = 6.1] --leaf "74" `--leaf "75" `--[dendrogram w/ 2 branches and 18 members at h = 9.06] --[dendrogram w/ 2 branches and 7 members at h = 4.27] --leaf "81" `--[dendrogram w/ 2 branches and 6 members at h = 3.40] --[dendrogram w/ 2 branches and 2 members at h = 1.81] --leaf "86" `--leaf "87" `--[dendrogram w/ 2 branches and 4 members at h = 2.52] --leaf "82" `--[dendrogram w/ 2 branches and 3 members at h = 1.91] --leaf "84" `--[dendrogram w/ 2 branches and 2 members at h = 1.16] --leaf "83" `--leaf "85" `--[dendrogram w/ 2 branches and 11 members at h = 6.96] --[dendrogram w/ 2 branches and 4 members at h = 3.97] --leaf "76" `--[dendrogram w/ 2 branches and 3 members at h = 2.41] --leaf "71" `--[dendrogram w/ 2 branches and 2 members at h = 1.24] --leaf "72" `--leaf "73" `--[dendrogram w/ 2 branches and 7 members at h = 5.78] --leaf "88" `--[dendrogram w/ 2 branches and 6 members at h = 4.81] --leaf "77" `--[dendrogram w/ 2 branches and 5 members at h = 2.62] --leaf "89" `--[dendrogram w/ 2 branches and 4 members at h = 2.29] --[dendrogram w/ 2 branches and 2 members at h = 1.69] --leaf "78" `--leaf "79" `--[dendrogram w/ 2 branches and 2 members at h = 1.72] --leaf "80" `--leaf "90" > > plot(dend1,nodepar=list(pch=2:1,cex=.4*2:1,col=2:3),horiz=true) >

30 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 30 sur 42 Annexe II Sources des programmes sous SAS avec les résultats. 1. Création de la librairie ts et de la table youna Il faut créer une librairie «ts» après il faut aussi créer la table youna en ouvrant le fichier youna.sas7bdat. 2. Exécution des macros SAS On appelle les macros en indiquant le chemin physique du fichier SAS. Le code suivant doit être mis dans la log et l utilisateur doit l exécuter en utilisant la commande run. Analyse en Composantes Principales (ACP) On indique le nombre d axe sur lesquels L ACP sera faite. %inc '/home/gis2/ylemrabe/and/macro/acp.sas';*/ %acp (ts.youna,annee, CHO CRO INF CPR INV,2); On garde axe1 et axe2. Graphique des variables avec cercle des correlations %inc '/home/gis2/ylemrabe/and/macro/gacpvx.sas'; %gacpvx(1,2); Graphique des individus. On garde les axe1 et axe2. %inc '/home/gis2/ylemrabe/and/macro/gacpix.sas'; %gacpix(1,2); Classification Ascendante Hiérarchique (CAH) %inc '/home/gis2/ylemrabe/and/macro/choixnc.sas'; %choixnc(annee,cho CRO INF CPR INV,10) ; %inc '/home/gis2/ylemrabe/and/macro/critere.sas'; %critere(10) ;

31 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 31 sur Code des macros acp.sas %macro acp(dataset, ident, listev,q, red=,poids=); %* Acp de dataset ; %* ident : variable contenant les identificateurs; %* des individus; %* listev : liste des variables (numeriques); %* par defaut : reduites sinon red=cov; %* q : nombre de composantes retenues; %* poids : variable de ponderation; %* pvar : nombre de variables ; %* options edition; %global pvar; options linesize=80 pagesize=66 nonumber nodate; title "A.c.p. des donnees de &dataset"; footnote; data donnees (keep=ident poids &listev); set &dataset nobs=nn; retain spoids 0; %if %length(&poids) ne 0 %then %str(poids = &poids;); %else %str(poids=1;); spoids=spoids+poids; ident=&ident; if _n_=nn then call symput('spoids',spoids); proc princomp data=donnees outstat=eltpr out=compr vardef=weight &red; weight poids; var &listev; %* nettoyage des resultats; data tlambda (drop=_type_) tvectp (drop=_type_) sigma (drop=_type_) statel; set eltpr; select (_type_); when ('EIGENVAL') do; _name_ = 'lambda'; output tlambda; end; when ('CORR','COV') output sigma; when ('SCORE') output tvectp; otherwise output statel; end; proc print data=statel noobs round; title3 'Statistiques elementaires'; title; proc print data=sigma noobs round; title2 'Matrice des covariances ou des correlations';

32 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 32 sur 42 data lambda (keep=k lambda pctvar cumpct); set tlambda (drop= _name_) ; array l{*} _numeric_; tr=sum(of l{*}); cumpct=0; do k=1 to dim(l); lambda=l{k}; pctvar=l{k}/tr; cumpct=pctvar + cumpct; output; end; data lambda ; set lambda nobs=pvar; call symput('pvar',compress(pvar)); proc print noobs round; title2 'Valeurs propres, variances expliquees'; var k lambda pctvar cumpct; %* matrice des vecteurs propres; proc transpose data=tvectp out=vectp prefix=v; %* vecteur contenant les ecarts types; data sigma (keep=sig); set sigma; array covcor{*} _numeric_; sig=sqrt(covcor{_n_}); %* Calculs concernant les individus; %* ================================; %* Calculs des contributions et cos carres; data coorindq; if _n_ = 1 then set tlambda; set compr (drop= &listev) nobs=nind; array c{*} prin1-prin&pvar; array cosca{&q}; array cont{&q}; array l{*} &listev; poids=poids/&spoids; disto=uss(of c{*}); do j = 1 to &q; cosca{j}=c{j}*c{j}/disto; cont{j}=100*poids*c{j}*c{j}/l{j}; end; contg=100*poids*disto/(sum(of l{*})); keep ident poids prin1-prin&q contg cont1-cont&q cosca1-cosca&q ; proc print noobs round; title2 'Coordonnees des individus contributions et cosinus carres'; var ident poids prin1-prin&q contg cont1-cont&q cosca1-cosca&q ;

33 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 33 sur 42 %* calcul des coordonnees des variables; %* ====================================; proc print data=vectp noobs round; title2 'Vecteurs propres'; data coordvar (drop=i lambda); set tvectp; set lambda (keep=lambda); array coord{*} &listev; do i = 1 to dim(coord); coord{i}=coord{i}*sqrt(lambda); end; proc transpose out=coordvar prefix=v; var _numeric_; proc print noobs round; title2 'Coordonnees des variables (isométrique colonnes)'; %* calcul des correlations variables x facteurs; data covarfac (drop=i sig); set coordvar; set sigma; array coord{*} _numeric_; do i = 1 to dim(coord); coord{i}=coord{i}/sig; end; proc print noobs round; title2 'Correlations variables x facteurs'; var _name numeric_; %mend; gacpvx.sas %macro gacpvx(x,y,nc=4,coeff=1); %* Graphique des variables avec cercle des correlations; %* x : numero axe horizontal; %* y : numero axe vertical; %* nc : nombre max de caracteres; data anno; retain xsys ysys '2'; set covarfac nobs=p; y= v&y; x= v&x; style='swiss'; text=substr(_name_,1,&nc); size=&coeff*(1-max(0,p/10)+1.3*sqrt(x*x+y*y)); label y = "Axe &y" x = "Axe &x"; output;

34 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 34 sur 42 function='pie'; x=0;text=''; y=0;style='e'; hsys='8';size=1; rotate=360;output; proc gplot data=anno; symbol1 v='none' i=join; title; axis1 order = (-1 to 1 by 0.5) length=15cm; /* attention taille */ plot y*x=1/ annotate=anno haxis=axis1 vaxis=axis1; goptions reset=all; quit; %mend; gacpix.sas %macro gacpix(x,y,nc=4,coeff=1); %* Graphique des individus; %* x : numero axe horizontal; %* y : numero axe vertical; %* nc : nombre max de caracteres; data anno; set coorindq nobs=nind; retain xsys ysys '2'; style='swiss'; y= prin&y; x= prin&x; text=substr(left(ident),1,&nc); * size=&coeff*(1.6-max(0,nind/100)+(cosca&x+cosca&y)/1.8); label y = "Axe &y" x = "Axe &x"; proc gplot data=anno; title; symbol1 v='none'; plot y*x=1 / annotate=anno frame href=0 vref=0; goptions reset=all; quit; %mend; choixnc.sas %macro choixnc(dataset, listvar, nc, methode=ward); %* Classification de grands tableaux, aide au choix du nb de classes; %* dataset : tableau contenant les donnees; %* listvar : liste des variables numeriques; %* methode : methode de classification hierarchique utilisee;; %* nc : nombre grand de classe (10% de n); %* options edition;

35 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 35 sur 42 options linesize=132 pagesize=66 number; data donnees; set &dataset (keep=&listvar); proc fastclus data=donnees maxclusters=&nc out=sortie1 cluster=classe mean=stat; var &listvar; proc cluster data=stat method=&methode outtree=tree; id classe; var &listvar; freq _freq_; proc sort data=tree; by _ncl_; proc tree data=tree out=table nclusters=&nc graphics horizontal; copy &listvar; id classe; proc sort data=table; by cluster; %mend; critere.sas %macro critere(nc); %* Criteres de choix du nombre de classes; %* nc : nombre max de classes; proc sort data=tree; by _ncl_; data sprsq (keep= _ncl sprsq_) ccc (keep= _ncl ccc_) FT2 (keep= _ncl psf pst2_); set tree; by _ncl_; if first._ncl_; output sprsq; if _ccc_ ne. then output ccc; if _psf_ ne. and _pst2_ ne. then output FT2; proc gplot data=sprsq; where _ncl_< &nc and _ncl_ ne 1; plot _sprsq_*_ncl_; symbol1 i=join; quit; proc gplot data=ccc; where _ncl_ < &nc and _ncl_ ne 1; plot _ccc_*_ncl_; symbol1 i=join; quit; legend1 across=2

36 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 36 sur 42 position=(top right inside) mode=protect label=none value=(h=0.5 tick=1 "F" tick=2 "T2"); axis1 label=none; symbol1 i=join l=1; symbol2 i=join l=2; proc gplot data=ft2; where _ncl_ < &nc and _ncl_ ne 1; plot (_psf pst2_)*_ncl_/overlay legend=legend1 vaxis=axis1; goptions reset=all; quit; %mend; 4. Résultats de l'acp A.c.p. des donnees de ts.youna The PRINCOMP Procedure Observations 20 Variables 5 Simple Statistics CHO CRO INF CPR INV Mean StD Correlation Matrix CHO CRO INF CPR INV CHO CRO INF CPR INV Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 CHO CRO INF CPR INV

37 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 37 sur 42 A.c.p. des donnees de ts.youna Statistiques elementaires _TYPE NAME_ CHO CRO INF CPR INV MEAN STD N Matrice des covariances ou des correlations _NAME_ CHO CRO INF CPR INV CHO CRO INF CPR INV Valeurs propres, variances expliquees k lambda pctvar cumpct Coordonnees des individus contributions et cosinus carres ident poids Prin1 Prin2 contg cont1 cont2 cosca1 cosca Vecteurs propres _NAME_ v1 v2 v3 v4 v5 CHO CRO INF CPR INV Coordonnees des variables (isométrique colonnes) _NAME_ v1 v2 v3 v4 v5 CHO CRO INF CPR INV

38 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 38 sur 42 Correlations variables x facteurs _NAME_ v1 v2 v3 v4 v5 CHO CRO INF CPR INV Cercle de corrélation. 6. Le 1er plan factoriel

39 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 39 sur Classification. The FASTCLUS Procedure Replace=FULL Radius=0 Maxclusters=10 Maxiter=1 Initial Seeds Cluster CHO CRO INF CPR INV Criterion Based on Final Seeds = Maximum Distance RMS Std from Seed Nearest Distance Between Cluster Frequency Deviation to Observation Cluster Cluster Centroids Statistics for Variables Variable Total STD Within STD R-Square RSQ/(1-RSQ) CHO CRO INF CPR INV OVER-ALL Pseudo F Statistic = 30.88

40 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 40 sur 42 The FASTCLUS Procedure Replace=FULL Radius=0 Maxclusters=10 Maxiter=1 Cluster Means Cluster CHO CRO INF CPR INV Cluster Standard Deviations Cluster CHO CRO INF CPR INV The CLUSTER Procedure Ward's Minimum Variance Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative Root-Mean-Square Total-Sample Standard Deviation = Root-Mean-Square Distance Between Observations = Cluster History NCL Clusters Joined FREQ SPRSQ RSQ CL CL8 CL CL9 CL CL CL2 CL

41 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 41 sur Dendogramme. 9. Les courbes d évolution des variables en fonction du temps

42 Projet Satistiques Analyse des Données Conjoncturelles de la Belgique entre 1971 et 1990 Page 42 sur 42

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses. On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Cours 7 : Utilisation de modules sous python

Cours 7 : Utilisation de modules sous python Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

L export de SAS vers Excel expliqué à ma fille

L export de SAS vers Excel expliqué à ma fille L export de SAS vers Excel expliqué à ma fille SAS est un logiciel merveilleux, mais tous n y ont pas accès. Pour contenter la soif de données de vos collègues qui n auraient pas d autre outil à disposition,

Plus en détail

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 10 avril 2014 à 9 h 30 «Carrières salariales et retraites dans les secteurs et public» Document N 9 Document de travail, n engage pas le Conseil Simulation

Plus en détail

Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.

Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document. Web Mining YOUSSOUF Kamal LACHAAL Rafik [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.] M1 - M A S S D é p a r t e m e n t d e Mat h é m a t i q u e s 2012-2

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Les critères d identification des pays les moins avancés

Les critères d identification des pays les moins avancés Les critères d identification des pays les moins avancés Vue d ensemble Ce document reprend les éléments présentés sur le site du Comité des politiques de développement http://www.un.org/en/development/desa/policy/cdp/ldc/ldc_criteria.shtml

Plus en détail

Une étude de différentes analyses réalisées par le BIT

Une étude de différentes analyses réalisées par le BIT Association internationale de la sécurité sociale Quinzième Conférence internationale des actuaires et statisticiens de la sécurité sociale Helsinki, Finlande, 23-25 mai 2007 Comparaison des hypothèses

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012. FOAD COURS D ECONOMETRIE CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 202. Christine Maurel Maître de conférences en Sciences Economiques Université de Toulouse - Capitole Toulouse School of Economics-ARQADE

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Cahier méthodologique, tableau récapitulatif 2009-2013 et Matrices importance/performance Mars 2014 Service Études et Statistiques Table

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie? Nom : Groupe : Date : Verdict Chapitre 11 1 La communication graphique Pages 336 et 337 1. Quels sont les deux types de dessins les plus utilisés en technologie? Les dessins de fabrication. Les schémas.

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des 2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des marques déposées de Minitab, Inc. aux Etats-Unis et

Plus en détail

Data mining 1. Exploration Statistique

Data mining 1. Exploration Statistique PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire

Plus en détail

LES LOIS PHYSIQUES APPLIQUÉES AUX DEUX-ROUES : 1. LA FORCE DE GUIDAGE

LES LOIS PHYSIQUES APPLIQUÉES AUX DEUX-ROUES : 1. LA FORCE DE GUIDAGE LES LOIS PHYSIQUES APPLIQUÉES AUX DEUX-ROUES : 1. LA FORCE DE GUIDAGE 2. L EFFET GYROSCOPIQUE Les lois physiques qui régissent le mouvement des véhicules terrestres sont des lois universelles qui s appliquent

Plus en détail

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2/ La fonction de consommation et la fonction d épargne hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Package TestsFaciles

Package TestsFaciles Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

KU Leuven. Étude sur l importance du crédit à la consommation et du crédit hypothécaire dans l économie belge

KU Leuven. Étude sur l importance du crédit à la consommation et du crédit hypothécaire dans l économie belge Étude sur l importance du crédit à la consommation et du crédit hypothécaire dans l économie belge Prof. Dr Nancy Huyghebaert Professeur Corporate Finance Département «Accountancy, Finance & Insurance

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Formation au logiciel SAS Statistical Analysis System

Formation au logiciel SAS Statistical Analysis System Formation au logiciel SAS Statistical Analysis System Odile Wolber (CNAM) Objectif du cours : acquérir les principes du langage de programmation SAS Etape DATA - import des données - saisie des données

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail