Initiation à l informatique TP3 : traitement de données David Gall laboratoire de Neurophysiologie dgall@ulb.ac.be
Analyse de données statistique descriptive et inférence statistique but : extraire des données brutes les données pertinentes du point de vue biologique. analyse de données but : présenter des données mesurées sous une forme telle que l on puisse aisément en prendre connaissance et mettre en évidence des propriétés remarquables. statistique descriptive Linear slope factor (Hz/pA) 0.4 0.3 0.2 0.1 0.0 (n=9) (n=9) WT TG but : obtenir de l information sur une population à partir d un échantillon, typiquement estimer des paramètres et/ou vérifier une hypothèse. inférence statistique Linear slope factor (Hz/pA) 0.4 0.3 0.2 0.1 0.0 * (n=9) (n=9) WT TG
Informatique scientifique Exemple : mesures électrophysiologiques Activité électrique d un neurone
Analyse de données caractérisation de l excitabilité neuronale current clamp protocol : current-frequency plot
Analyse de données ajustement de courbe sur des point expérimentaux Les méthodes numériques d ajustement de courbe permettent de trouver les valeurs de paramètres d un modèle de courbe théorique qui minimisent l écart avec les données expérimentales. ajustement linéaire ajustement non linéaire
Analyse de données régression linéaire Soit un ensemble de points Mi(xi,yi), avec i = 1...n, représentant des mesures d'une grandeur y en fonction d'une autre x. Une.régression linéaire, consiste à chercher la droite D dont l'équation est y = ax + b qui passe au plus près des points Mi. Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des distances des points expérimentaux originaux à la droite. n (y i ax i b) 2 k=1 ce qui revient donc à déterminer les valeurs des paramètres a et b qui minimisent la somme ci-dessus. La qualité de l ajustement est évaluée en calculant r, le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1. Plus la valeur absolue de r est proche de 1, plus l ajustement est bon.
Exercice 3.1 régression linéaire données : à réaliser : le modèle de fichier Excel TP3_1.xls à utiliser est à télécharger de http://164.15.167.7/~dgall/index.html faire le graphe des données dans les trois cas effectuer une régression linéaire à l aide de l utilitaire d analyse (menu outils/utilitaires d analyse) calculer les points ajustés à partir des paramètres ajouter les points sur les graphiques comparer et commenter la qualité des différents ajustements. sauvez votre fichier sous le nom TP3_1_nom_prénom.xls
Statistique descriptive paramètre de position et de dispersion on peut caractériser la distribution des mesures par des paramètres : paramètres de position qui caractérisent l ordre de grandeur des observations paramètres de dispersion qui caractérisent la variabilité des observations Soit n le nombre de valeurs observées d une variable numérique discrètes dont les valeurs sont x1, x2,...xn. Le paramètre de position le plus fréquemment utilisé est la moyenne : Le paramètre de dispersion le plus fréquemment utilisé est la variance :
Inférence Statistique notion d estimateur On considère une population dont on voudrait estimer un paramètre h à partir d un échantillon x1, x2,...xn prélevé dans cette population. L estimation calculée est une fonction qui dépend de l échantillon appelée estimateur de h et notée H. L estimateur est d autant meilleur qu il donnera le plus souvent des estimation proche de la valeur du paramètre h de la population. L estimateur de la moyenne est la moyenne de l échantillon: L estimateur de la variance n est pas la variance de l échantillon mais : Un paramètre souvent utilisé pour quantifier la qualité de la mesure est S 2 SEM = n qui est un estimateur de la dispersion de la distribution de X
Inférence Statistique test t de student Le test t de student sert à décider si les moyennes de deux populations, distribuées normalement, sont différentes. On teste si les moyennes des deux populations sont égales (hypothèse nulle). Si la probabilité que ces deux moyennes sont égales est inférieures à 5%, on considère que les moyennes sont différentes. Cette probabilité peut être évaluée à partir des paramètres estimés pour les deux distributions.
Exercice 3.2 caractérisation de l excitabilité neuronale de souris normales et transgéniques but : évaluer si la pente des courbes courant-fréquence différent entre deux groupes de cinq souris sauvages et cinq souris transgéniques. données : à réaliser : le modèle de fichier Excel TP3_2.xls à utiliser est à télécharger de http://164.15.167.7/~dgall/index.html et contient les deux groupes de cinq mesures de fréquence en fonction de l intensité de courant injecté l unité d intensité utilisée et le pa, l unité de fréquence est le Hz évaluer la pente sur les six premiers points pour chaque animal évaluer la qualité de l ajustement dans chaque cas (valeur de r) calculer les moyennes et les SEM des pentes dans chaque groupe effectuer un test t bilatéral, non pairé et à variances inégales sur les pentes (en utilisant la fonction TEST.STUDENT) realiser un histogramme donnant les valeurs moyennes et les SEM (barres d erreur) pour les deux groupes. sauvez votre fichier sous le nom TP3_2_nom_prénom.xls