Data Mining : la classification non supervisée

Dimension: px

Commencer à balayer dès la page:

Download "Data Mining : la classification non supervisée"

Heloïse Ménard
il y a 8 ans
Total affichages :

1 Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC et Y = AGGCGTAA. Dans quel espace «vivent» les points X et Y? A quelle dimension? Dans {A,C,G,T} 8 Si on code A=0, G=, C=2 et T=, quelle est la distance euclidienne d(x,y)? d 2 (X,Y)=(2-) 2 +(-) 2 +(-) 2 +(-0)2+(2-0) 2 =4 Cela a-t-il un sens en terme de similitude entre les séquences ADN X et Y? Absolument pas, ce n est pas une distance qui convient à un tel espace discret Expliquez notamment en comparant d(a,g) et d(a,t)? d(a,g)= et d(a,t)= et pourtant a priori A est aussi différent de G que de T 2. Calculer la matrice de contingence associée A(x,y). En considérant X selon les lignes et Y selon les colonnes dans l ordre A, C, G A C G T A et T, A = C G 2 T En déduire la distance de Hamming associée. d Hamming (X,Y)=5 A quoi la valeur trouvée correspond-elle pratiquement? Au nombre de coordonnées différentes entre les deux vecteurs. En bioinformatique, la comparaison de séquences ADN deux à deux doit permettre de trouver des homologies c est-à-dire comment les séquences ont muté à travers les espèces durant l évolution. Pour cela, on a regroupé les séquences ADN par famille (clustering). A l intérieur de ces familles, on a réalisé des mesures statistiques. On s est aperçu que les mutations trans-nucléotides sont déséquilibrées à l intérieur de famille de séquences appariées. Des matrices de substitution sont utilisées en guise d heuristiques à la recherche de séquences homologues. Soit par exemple, la matrice de pondération suivante (s inspirant des matrices de substitution type BLOSUM62 utilisées en bioinformatique) : A C G T A S = C G T

Dans {A,C,G,T} 8 Si on code A=0, G=, C=2 et T=, quelle est la distance euclidienne d(x,y)?

2 Le coefficient 0.0 à la croisée de la ligne G et de la colonne A traduit la très grande fréquence observée de ce type de substitution dans les séquences déjà appariées. A l inverse, un coefficient indique une très grande rareté observée. Proposez une nouvelle mesure de proximité entre deux séquences ADN et l appliquer aux deux séquences proposées. Soit d i 0 Ham min gpondérée = = = s = *+ * 0.0+ *+ * 0.0+ * =, 02 j 0, j i ijaij 4. En quoi tout cela aide-t-il à la découverte de séquences semblables? On prend plus en compte la nature physico-chimique des similarités entre les nucléotides 5. Que se passe-t-il si les séquences sont de longueurs différentes? Cette solution ne fonctionne pas. On utilisera des techniques d alignement dynamique de type programmation structurelle dynamique Google, indexation, analyse de documents et «text mining» Essayez : loovres puis kouvres, puis souvres Cet exercice donne des résultats différents au niveau du mot proposé par Google pour corriger les fautes de frappes ou d'orthographes chaque année cela signifie que les algorithmes de Google évoluent encore souvent. On vous demande ici de faire du reverse engineering, c'est-à-dire de comprendre à partir du comportement d'un logiciel comment il pourrait fonctionner. Il n'y a pas de réponse correcte puisque je ne connais pas les secrets de fabrication mais il y a des réponse intelligentes et sensées. Quelle est la connaissance capturée par le coefficient de substitution k<->l ou s<->d? Place sur le clavier azery ou qwerty : faute de frappe rapide : connaissance ou métier insufflés de type ergonomique. Essayez : tartable puis tirtable puis tistable. Concluez. Pensez au web sémantique. Soient deux documents V=(4,2,) et V2=(,2). A quoi pourrait correspondre cette description-représentation de documents selon vous en terme de mots représentatifs d'un document? Terme : Sport, Terme 2 = Musique. Ces vecteurs représentent le nombre d'occurences de ces termes dans les Documents et 2. On suppose par défaut que la collection de documents se réduit à ces deux documents. Calculer la distance euclidienne puis du chi-2 entre ces deux vecteurs. d euclid (V,V2) = sqrt(9 +0) = On a f. = 6 et f 2. =, donc les vecteurs normalisés sont V' = (4/6, 2/6) et V'2= (/, 2/) ce qui correspond à probabiliser les occurences de chaque mot dans les documents. D'où la d euclid (V',V'2) = sqrt((/)*(/)+0) = / = 0. Or, f=6+=9 et f.= 5 et f.2 = 4, d'où d chi2 (V',V'2) = sqrt(9/5(/*/)+9/4*0)=sqrt(5)/5 = 0.44 Calculer la distance entropique entre ces deux vecteurs. Pas vu en cours : pas à faire 2

Soit d i 0 Ham min gpondérée = = = s = *+ * 0.0+ *+ * 0.0+ * =, 02 j 0, j i ijaij 4. En quoi tout cela aide-t-il à la découverte de séquences semblables?

3 Valeurs floues. On travaille dans le cadre de la théorie du flou (théorie des possibilités et des croyances). A présent, les composantes des vecteurs prennent leurs valeurs dans l intervalle [0,]. Une valeur de 0.5 indique une forte croyance dans l observation correspondante. A l inverse, une valeur nulle indique une totale ignorance. On travaille donc dans un hypercube de R n. Ainsi, donc, x[0.8, 0.4] indique que l individu x aime le sport avec un degré de possibilité de 0.8 et aime l art avec un degré de possibilité de 0.4. On considère également les individus y[,], z[0.25,0.25], w[0.75,0.75], t[0,0] et u[0.5,0.5]. 6. Calculer les similitudes floues inter individus suivantes : sim (t,t)? sim( u,u)? sim (y,y)? sim(w,y)? sim(z,u)? s f (t,t)=sim(t,t)=sim(0,0)+sim(0,0)=2*sim(0,0)=2 s f (u,u)= s f (y,y)=2 s f (w,y)=.5 s f (z,u)= 7. Concluez visuellement avec un raisonnement graphique. L espace est déformé en son centre. Les points centraux étant de plus en plus floues sont de moins en moins similaires même si euclidiennement, donc visuellement, ils sont à la même distance. Valeurs mixtes : réelles et discrètes. Soit le tableau suivant résumant les données caractérisant des entreprises. Entreprise er budget 2 ème budget ème budget Activité à Nombre l étranger d employés (x) (x2) (x) (x4) Les trois premières caractéristiques correspondent à leur budget annuel en millions d euros, la quatrième indique si elles ont une activité à l internationale, et la dernière estime la taille de l entreprise : 0 pour un petit nombre d employés, pour un nombre moyen et 2 pour un très grand nombre.. Proposez une mesure de similarité pour comparer ces entreprises. d(xi,xj) = w*d euclid (X i,x j )+w2*d act (x i4,x j4 )+w*d nb (x i5,x j5 ) avec correspondant aux vecteurs normalisées types z-scoring correspondants aux trois premières coordonnées des vecteurs xi et xj. Dact et dnb sont des mesures de proximité propres aux 4ème et 5ème coordonnées adaptées aux données binaires asymétriques si possible ou nominale ordinale si possible et peuvent être assez heuristiques dans un premier temps. Donc pas de solution unique (c'est la valeur ajoutée de votre algorithme) mais une formulation type.

Ainsi, donc, x[0.8, 0.4] indique que l individu x aime le sport avec un degré de possibilité de 0.8 et aime l art avec un degré de possibilité de 0.4. On considère également les individus y[,], z[0.

4 Cas 2 : algorithme hiérarchique Considérez la matrice de dissimilarité suivante P : 2. Sur combien de points travaille-t-on? Dans quel espace? On ne sait pas.. On modifie un peu la matrice de dissimilarité initiale : P(,4) = 4 et P(,2) = 0. On appelle P la nouvelle matrice de dissimilarité. Appliquer l algorithme hiérarchique avec les valeurs suivantes pour la mise à jour de la matrice de proximité : b=c = 0 et a i = n i /(n i +n j ) et a j = n j / (n i +n j ). 4

. On modifie un peu la matrice de dissimilarité initiale : P(,4) = 4 et P(,2) = 0.

5 5

Documents pareils

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55