LEHALLIER Benoît YGUEL Benjamin. Tutorial : Utilisation de R pour une modélisation optimale de phénomènes expérimentaux.



Documents pareils
Complexité et auto-organisation chez les insectes sociaux. Complexité et auto-organisation chez les insectes sociaux

La classification automatique de données quantitatives

L intelligence collective des fourmis

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Correction du baccalauréat STMG Polynésie 17 juin 2014

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

TRANSPORT ET LOGISTIQUE :

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Introduction à l approche bootstrap

Optimisation des ressources des produits automobile première

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Mesure de la dépense énergétique

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Jean-Philippe Préaux

Infolettre #18 : Les graphiques avec Excel 2010

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Traitement des données avec Microsoft EXCEL 2010

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

OPTIMISATION À UNE VARIABLE

Introduction aux Statistiques et à l utilisation du logiciel R

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Transmission d informations sur le réseau électrique

Pôle de Dakar S IMUL ATIONS. 1 Utiliser un taux d accroissement pour une simulation

et les Systèmes Multidimensionnels

LA PUISSANCE DES MOTEURS. Avez-vous déjà feuilleté le catalogue d un grand constructeur automobile?

Compte rendu de l examen par le BSIF des coefficients du risque d assurance

Pierre Marchand Consultant

Projet de Traitement du Signal Segmentation d images SAR

SOMMAIRE. Présentation Générale p. 3. Saisie d une pièce comptable p. 4. Consultation d un compte p. 5. Modules de règlement p. 6

Annexe commune aux séries ES, L et S : boîtes et quantiles

DISCOUNTED CASH-FLOW

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Applicable à partir de l année d assurance 2014 Assurance récolte Apiculture Section 13,2 - Admissibilité

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Aide-mémoire de statistique appliquée à la biologie

Programmation linéaire

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Les métiers porteurs Perspectives 2015

FORMULAIRE DE STATISTIQUES

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Les objets très lointains

Un climat des affaires incertain

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Intelligence des essaims (Swarm Intelligence)

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Correction du bac blanc CFE Mercatique

Capteur mécanique universel HF 32/2/B

Décompresser, créer une archive au format «ZIP»

Enregistrement automatique. des données

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Logistique, Transports

INTRODUCTION AU DATA MINING

TP 7 : oscillateur de torsion

Complément d information concernant la fiche de concordance

document proposé sur le site «Sciences Physiques en BTS» : BTS AVA 2015

Manuel d'utilisation de la maquette

LES CLES D UNE BONNE STRATEGIE A L EXPORT

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Séance 0 : Linux + Octave : le compromis idéal

Extraction d informations stratégiques par Analyse en Composantes Principales

Quantification Scalaire et Prédictive

Mesures et incertitudes

Chapitre 3. Les distributions à deux variables

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Introduction à MATLAB R

Équations non linéaires

Modélisation multi-agents - Agents réactifs

Localisation des points d accès sans fil non autorisés

INF6304 Interfaces Intelligentes

Statistiques à une variable

LES CHIFFRES CLÉS DE L ARTISANAT. Bilan des immatriculations / radiations d entreprises artisanales. Solde net entreprises 74%

Audit financier & budgétaire de la Ville de Clamart

Analyse en Composantes Principales

Chapitre 2/ La fonction de consommation et la fonction d épargne

Optimisation, traitement d image et éclipse de Soleil

RESSOURCES HUMAINES. Yourcegid Ressources Humaines, des solutions pour les entreprises qui s investissent dans leur capital humain.

FINANCEMENT OPTIMAL DE LA SOLVABILITE D UN ASSUREUR

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

La publication, au second

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

assurance collective Assurance médicaments Des solutions intégrées pour une gestion efficace

Dossiers méthodologiques DURANTON Consultants. Maîtriser la gestion du parc automobile

I- Définitions des signaux.

LE MARKETING DIRECT, SUPPORT DU MARKETING CLIENT

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Transcription:

LEHALLIER Benoît YGUEL Benjamin Tutorial : Utilisation de R pour une modélisation optimale de phénomènes expérimentaux. ECIM Comportement et socialisation Mars 2006

La modélisation est utilisée pour comprendre le lien qui existe entre les capacités individuelles et les performances collectives d une colonie ainsi que pour prédire les comportements des espèces que l on étudie. La modélisation de phénomènes collectifs peut aussi avoir des applications utiles à l Homme. A partir d un jeu de données sur la fourmi linepithema (Fig1), nous nous proposons de modéliser la probabilité de choix de fourmis pour un itinéraire lors d un recrutement de masse. Ce jeu de donnée a été obtenu par expérimentation. Une colonie de fourmi est reliée à une source de nourriture par un pont en losange. Les relevés sont le nombre d aller et retour sur chacune des branches du pont pendant 40 minutes. La modélisation est toujours déduite d observations que nous analyserons et commenterons en premier lieu. Certains paramètres non mesurable par l expérimentation et nécessaire à une bonne modélisation pourront être obtenue grâce à une méthode statistique que nous décrirons par la suite. Fig 1 :Graphiques représentant le pourcentage de fourmis ayant choisie la branche A en fonction du temps, pour chacun des réplicats, tirés de l expérimentation : Description et analyse des graphiques des pourcentages de fourmis ayant choisie A : Réplicat 1 : On observe un choix collectif peu marqué pour l une ou l autre branche, mais qui se dirigerait un peu plus pour la branche B. Un prop.test sur la dernière minute de l expérimentation montre néanmoins un choix significatif pour un seuil α de 5% (X-squared = 5.29, df = 1, p-value = 0.02145) Réplicat 2, 5 et 6: Pour ces réplicats, le choix collectif est clairement défini. Il est dirigé vers la branche A pour les réplicats 2 et 5 ; vers B pour le réplicat 6. En effet les fourmis Linepithema ou Tapinoma pratiquent un recrutement de masse, c'est-à-dire qu elles marquent la piste à suivre avec des phéromones. La fréquence de marquage est le moyen utilisé par les fourmis pour faire varier l intensité du recrutement, ainsi plus le nombre de fourmis empruntant une branche est important plus la fréquence de marquage de la piste phéromonale est importante et par conséquent le nombre de fourmis recrutées sera plus 2

important. Par la suite, elles se retrouvent prisonnières de leur piste marquée de manière plus intense et empruntent prioritairement la branche la plus fréquentée. Ce comportement se traduit sur la courbe par une stabilisation à un pourcentage nettement supérieur à 50%. Le nombre de fourmis recrutées se stabilise ensuite à un seuil qui correspond au nombre de fourmis recrutables. Le prop.test sur la dernière minute montre un choix significatif d une branche pour un seuil α de 5% pour ces 3 réplicats ( rep3 X-squared = 12.25, df = 1, p-value = 0.0004653, rep5 X-squared = 16.81, df = 1, p-value = 4.132e-05 et rep6 X-squared = 13.69, df = 1, p-value = 0.0002156) Réplicat 3 et 4 : Pour ces réplicats le choix collectif n est pas nettement marqué, les fourmis empruntent donc autant une branche que l autre. Le prop.test confirme le choix aléatoire des fourmis pour les réplicats 3 et 4 (respectivement X- squared = 1.21, df = 1, p-value = 0.2713 et X-squared = 1.69, df = 1, p-value = 0.1936 pour un α de 5%) Un modèle théorique peut être créer à partir de ces données brutes sous l hypothèse que la probabilité du choix vers une des 2 branches est fonction des quantités de phéromones déposées sur cette branche. Il modélise la probabilité de choix d une fourmi pour une des 2 branches du pont. Description de l équation de la probabilité du choix d une fourmi pour une branche : P A = ( k+a i ) n. = 1-P B ( k+a i ) n + ( k+b i ) n Avec : P A : probabilité de choisir la branche A A i : nombre de fourmis ayant emprunté la branche A B i : nombre de fourmis ayant emprunté la branche B n : niveau d amplification du choix k : attractivité d une branche Cette équation exprime une dynamique de recrutement de type logistique. Elle exprime une probabilité et varie donc de 0 à 1 Comme cité précédemment le recrutement qu utilisent les fourmis pour ce type de ressource est le recrutement de masse, c est pourquoi l équation prend en compte la fréquence de fourmis passées sur les branches A et B pour calculer la probabilité que la prochaine fourmi choisisse la branche A. n et k correspondent à l intervalle de fourmis ayant marquées la piste de phéromones et qui peuvent faire pencher le choix des fourmis pour une branche en particulier. Plus n est grand et k petit, plus le nombre de fourmis nécessaire pour faire basculer le choix d une branche, est faible. n correspond plus précisément au degré de non linéarité d une branche. k correspond à l attractivité d une branche marquée. n et k sont des paramètres non mesurables, nécessaire lors de la modélisation du phénomène, que l on peut estimer à l aide de fonction crée à cet effet. L ajustement des paramètres n et k permet à notre modèle d être le plus fidèle possible à la réalité. A l aide de cette équation nous avons effectué une régression non linéaire sur les graphiques représentant le pourcentage de fourmis ayant choisie la branche A en fonction du temps : Estimation et optimisation des paramètres n et k : Tout comme il existe des droites de régression des moindres carrés ajustant un nuage de N points (X ;Y) dans le cas de deux dimensions, il existe également des méthodes de régression des moindres carrés, ajustant un plan de N points (X1 ; X2 ; X3) d un espace à trois dimensions. Lorsque le nuage de points formé par les données ne peut être correctement représenté dans un plan, il est possible d utiliser des algorithmes de régression non linéaire. 3

Dans R, il existe différentes fonctions pouvant effectuer optimiser une régression non linéaire comme par exemple nls(), optim(). Les différentes fonctions ont chacune leurs avantages et leurs inconvénients, optim permet par exemple d appliquer des pénalités. Ces pénalités empêchent d obtenir des valeurs optimisées négative qui n ont pas toujours de sens d un point de vue biologique. Dans le cas d une régression linéaire, il est inutile d avoir une idée relativement précise de la grandeur des paramètres utilisés. En régression non linéaire, il est indispensable de connaître l ordre de grandeur de ces paramètres. Cette particularité est la conséquence du mode de fonctionnement de l algorithme de régression. Si l on regarde pour 1 variable, la somme des moindres carrés peut présenter différents minimums locaux mais un seul minimum global (Fig 2). L algorithme utilisé cherche à minimiser la SCE en faisant varier les valeurs du paramètre A. Lorsque 1 valeur du paramètre A est entourée de 2 valeurs avec des SCE plus grand que la sienne, il se trouve au niveau d un minimum (global ou local). Arrivé à ce minimum l algorithme s arrête, sans forcément être au minimum global. Par conséquent, la recherche du minimum global de la somme des carrés des écarts pour une ou plusieurs variables nécessite de connaître une estimation de la valeur approchée des différents paramètres. Somme des moindres carrés Minimums locaux Minimum global Paramètre A Fig 2 :SCE d un paramètre A Un ordre de grandeur supérieur à 2 (100x plus que la vraie valeur) entraîne forcément des résultats erronés. Le calcul de la somme du carré des écarts des paramètres n et k peut s effectuer facilement dans R par l intermédiaire d une fonction : sce=function(x){ # x est un vecteur de longueur égale # au nombre de paramètres n=x[1] # n est à la 1 ère position de ce # vecteur, k est à la 2 nde. k=max(x[2],0) # si X[2] est négatif,la valeur de # k est fixée à 0 proba.a=k+a.tot.cum^n/ ((k+a.tot.cum)^n+(k+b.tot.cum)^n) sum(((prop.aller.a-proba.a)^2) +(x[2]-k)^2) # modèle simulant la probabilité # d aller vers A # calcul de la SCE # Σ(valeur obs - valeur théo) 2 # +pénalité : si x[2] est négatif, # la fonction soustrait la valeur # de k et le résultat est mis au # carré. Cette opération empêche # d obtenir des valeurs optimisées # de k négatives. } Attention, avant d utiliser cette fonction il faut créer les objet n et k dans R. De plus il est nécessaire de calculer la proportion observée de fourmis qui sont allée vers A 4

(prop.aller.a=aller.a/(aller.a+aller.b)) pour pouvoir calculer une somme des moindres carrés. Sans cela la fonction ne marchera pas. La fonction optim peut être utilisée pour minimiser la SCE des paramètres n et k. La modélisation tendra par conséquent à être la plus fidèle possible. optim(par, fn) cette fonction prend en compte 2 arguments : les paramètres estimés et la fonction à appliquer. Ainsi par exemple, si l on souhaite optimiser la somme du carré des écarts pour des valeurs de n et k respectivement de 1 et 10: resultat=optim(c(1,10),sce) L objet «resultat» contient différentes informations sur l optimisation. Les 2 les plus importantes sont données par $par et $convergence $par permet d accéder aux valeurs optimisées des différents paramètres. Il est possible, d extraire ces valeurs et de représenter graphiquement le modèle théorique. Exemple pour le réplicat 1 : n=resultat$par[1];k=resultat$par[2] plot(a.tot.cum[1:40]/(a.tot.cum[1:40]+ B.tot.cum[1:40]),type='l',main="replicat1", ylab="pourcentage fourmis ayant choisies A", ylim=c(0,1),xlab="temps écoulés en min") proba.a=k+a.tot.cum^n/((k+a.tot.cum)^n +(k+b.tot.cum)^n) lines(temps.min[1:40],proba.a[1:40],col="red") # extraction des valeurs optimisées. # réalisation du plot des données # observées pour le premier réplicat. #modèle théorique. # ajout du modèle théorique sur le plot. Voici la représentation du modèle théorique pour les 6 réplicats (Fig3): Fig 3 :Résultats expérimentaux et résultats prédits par la simulation : 5

$convergence a aussi son importance. Il renseigne sur la fiabilité de l optimisation. Si sa valeur est égale à 0, un optimum local a été trouvé. Par contre si sa valeur est différente de 0, le résultat est biaisé par une erreur lors de l optimisation. Il ne faut pas tenir en compte de ces résultats et recommencer l optimisation avec d autres estimations de paramètres de n et k. Un plot des valeurs observées en fonction des valeurs théoriques nous montre que les prédictions du modèle sont bonnes. (Fig 4) Des informations complémentaires à propos de la fonction optim() sont accessible dans R en tapant «help(optim)» ou «?optim». Dans notre exemple nous trouvons des valeurs de n=1.0822911970 et k=0.0006347671 La valeur du n théorique est de 2 pour les fourmis, pour ce paramètre le modèle se rapproche plus des valeurs que l on observe chez les abeilles. Une valeur de n élevée entraîne un basculement rapide du choix pour l une des branches. Un plus grand nombre de réplicats permettrait d obtenir une valeur plus proche de 2. Pour k, la valeur peut dépendre de l espèce. En d autre terme, la qualité de phéromone ainsi que la quantité sont spécifique à chaque espèce. Ici il est très faible donc le choix d une branche est rapide. Les 2 facteurs théoriques tendent à ce que les fourmis se retrouvent enfermées dans leur marquage lorsqu elles ont choisi une branche, fait que nous retrouvons dans les résultats observées. 6

References : Jost, 2006, Le traitement des données comportementales un tour d horizon avec des exemples traités par R Lebart, Morineau, Pignon, 2004, Statisque exploratoire multidimensionnelle, Dunod Murray R. Spiegel, 2004, Statistique, Schaum 7