Dossier suivi par : Laurent DI CARLO / Salima EL KOLEI Tel. : +33 (0)2 99 05 32 09 / 32 39 Fax : +33 (0)2 99 05 32 05 laurent.di-carlo@ensai.fr / salima.el-kolei@ensai.fr Objet Encadrer des projets statistiques de 1 re ou 2 e année à l Ensai Rennes, le 8 octobre 2014 L Ensai fait appel à des praticiens de la statistique pour encadrer des projets statistiques de 1 re ou 2 e année. Cette activité pédagogique a pour objectif l application, voire l approfondissement des connaissances statistiques acquises. Travail des élèves Les élèves travaillent par groupes de 4 (voire 3) sur le sujet qu ils ont choisi, sous la direction du praticien qui l a proposé. Ils ont à circonscrire le problème soumis et à le traiter durant le temps imparti (de fin janvier à fin avril), en utilisant les concepts, méthodes et outils appropriés. Chaque groupe rend compte de son travail sous forme d un rapport écrit et d une soutenance. La quantité de travail que l on peut attendre des élèves est de l ordre de quatre heures hebdomadaires par élève, compte tenu de leur charge de travail extérieure au projet (ils continuent parallèlement à suivre les cours de l école). Contenu statistique du projet Le niveau des méthodes statistiques requises pour répondre à la problématique est très différent entre la 1 re et la 2 e année. - projet statistique de 1 re année. Pour répondre à la problématique posée, les élèves doivent utiliser leurs connaissances acquises en statistique exploratoire univariée et bivariée, tests, intervalles de confiance... - projet statistique de 2 e année. Pour répondre à la problématique, les élèves doivent utiliser leurs connaissances en séries temporelles, théorie des sondages, analyse de données, régression linéaire, régression sur variables catégorielles, économétrie. D autres outils peuvent être utilisés. Le tuteur s engage alors à les présenter aux étudiants. Rôle de l encadrant Le tuteur amène un sujet qui se compose en 1 re ou en 2 e année de : - une problématique - un ou plusieurs jeu(x) de données qui doit être structuré, de volume raisonnable et documenté si besoin. - des éléments de bibliographie nécessaires aux étudiants pour contextualiser l'analyse et discuter les résultats obtenus lors de la rédaction du rapport final. L encadrement d une telle activité nécessite de la part de l encadrant une bonne connaissance des données qu il fournit aux élèves et une bonne maîtrise des techniques statistiques de base utilisées pour leur traitement. Pour des raisons d organisation, chaque tuteur est incité à proposer plusieurs problématiques différentes, donc à encadrer les travaux de plusieurs groupes d élèves. Les problématiques peuvent s appuyer sur le même jeu de données. Campus de Ker Lann rue Blaise Pascal BP37203 35172 BRUZ CEDEX Tél : 33 (0)2 99 05 32 32 Fax : 33 (0)2 99 05 32 05 communication@ensai.fr 1 www.ensai.fr
Calendrier - D octobre 2014 à fin novembre 2014, les futurs animateurs proposent des sujets complets (avec les jeux de données). L Ensai valide les sujets. - En janvier, le recueil des sujets proposés est diffusé par l Ensai aux élèves, qui forment librement leur groupe. Ils émettent une liste de choix mi-janvier. - Lors de la première séance de suivi, le tuteur rencontre les groupes qu il encadrera au cours d une réunion de présentation. - Pour la suite du projet, chaque groupe d élèves rencontre le tuteur de son projet quatre fois, dans le cadre de séances de «suivi de projet». Deux fois au plus, ces suivis peuvent être organisés en visioconférence. - Début mai, les élèves remettent leur rapport. - Les soutenances des projets statistiques ont lieu en seconde quinzaine de mai. Chaque groupe présente son rapport devant un jury composé d'un président (permanent de l Ensai), d un expert en communication et du tuteur. - Si vous souhaitez encadrer un ou plusieurs projets Pour chaque proposition de sujet, vous devez présenter, en une page, le thème de l étude, la problématique, le type de données, ainsi que quelques éléments de bibliographie. Un exemple de proposition est joint en annexe pour la 1 re et la 2 e année. Si vous pensez que votre sujet a un contenu statistique de niveau Projet 1 re année, envoyez votre proposition à : Laurent DI CARLO, Directeur des études courriel : laurent.di-carlo@ensai.fr tél : 02 99 05 32 09 - fax : 02 99 05 32 05 Si vous pensez que votre sujet a un contenu statistique de niveau Projet 2 e année, envoyez votre proposition à : Salima EL KOLEI, Enseignante en statistique courriel : salima.el-kolei@ensai.fr tél : 02 99 05 32 39 - fax : 02 99 05 32 05 Aspects informatiques (données et logiciels) La totalité des données à traiter doit être disponible avant le début du projet. La taille des bases de données est limitée à 100 Mo. Si vous jugez cette taille insuffisante pour votre projet, vous devez le signaler afin que l on adapte le dispositif. Les fichiers de données devront parvenir à l Ensai sur support informatique avant la fin de l année 2014. Pour éviter tout problème de confidentialité, les données seront stockées dans un répertoire dont l accès est limité aux seuls élèves du groupe concerné et le responsable des projets de 1 re ou 2 e année. A ce propos, tous les élèves signeront une charte de confidentialité avant le démarrage des projets. Pour le traitement informatique des données, l'utilisation de Sas ou R est obligatoire. Rémunération des intervenants Les projets sont rémunérés au forfait. Les éventuels frais de déplacement sont pris en charge par l Ensai. 2
Exemple de projet de 1 re année proposé Sujet Loyer et précarité dans le parc locatif social Nom du tuteur : Entreprise ou organisme : SOeS (Ministère de l Écologie, du Développement Durable et de l Énergie et Ministère de l Égalité des Territoires et du Logement) Courriel et/ou téléphone : Contexte Le logement social : le répertoire du parc locatif des bailleurs sociaux constitue la source d information privilégiée pour l étude du parc locatif social français. Mis en place en 2011, il recense chaque année l ensemble des logements sociaux de France métropolitaine et des DOM. Les informations transmises par les bailleurs sociaux permettent de connaître la structure du parc locatif social en stock, ainsi que les modifications intervenues au cours de l année écoulée : nouvelles constructions, réhabilitation, démolition, ventes... Toutes les données du répertoire sont disponibles au logement : âge du logement, surface habitable, loyer, nombre de pièces, financement initial, identité du bailleur, adresse du logement, logement collectif ou individuel, situation en ZUS ou non, etc. Objectif L objectif du parc locatif social est de pouvoir proposer aux ménages les plus défavorisés des logements à des loyers qui leur sont abordables ; ces ménages n ayant pas les moyens de se loger décemment dans le parc privé. Méthodologie envisagée Traitement statistique de type : statistique exploratoire univariée et bivariée, tests. Résultats attendus Le parc locatif social a-t-il réellement la capacité à loger des ménages à faibles revenus? A partir du barème des aides personnelles accordées aux ménages (APL), peut-on apprécier la réalité des loyers du parc social? Peut-on identifier puis caractériser les logements dont le loyer est excessif par rapport aux revenus des ménages qu ils ont vocation d accueillir? Documentation Site internet du répertoire RPLS : http://www.statistiques.developpementdurable.gouv.fr/logement-construction/i/logement-social.html Pour plus d information sur la Loi SRU, http://www.developpement-durable.gouv.fr/article-55- de-la-loi-sru.html 3
Exemple de projet de 2 e année proposé Sujet Prévision de la délivrance d un brevet Nom du tuteur : Bastien Riera Entreprise ou organisme : Bluestone Courriel et/ou téléphone : bastien.riera@bluestone.fr Contexte 1 La protection d une invention par brevet en Europe doit faire l objet d une demande auprès de l Office Européen des Brevets (OEB ou European Patent Office EPO, créé en 1973 et comptant désormais 38 Etats membres). A ce titre, un déposant doit constituer un dossier de demande de brevet justifiant de l inventivité de son procédé, produit ou dispositif, par le biais de plusieurs parties telles que : - Une description de l invention, - Des revendications, - Etc. Une fois la demande de brevet déposée auprès de l EPO, débute alors plusieurs phases visant à déterminer par l EPO, via des échanges entre le déposant et l examinateur et des recherches d art antérieur, si le brevet doit être délivré ou non : - La première phase est celle d examination quant à la forme (qui vise à définir si la demande est complète et attribue une date de dépôt le cas échéant) et de recherche (qui vise à recenser les documents dont l EPO dispose «pour apprécier la nouveauté et l activité inventive» 2 ), - Suite à cette première phase, un premier avis de l EPO est rendu au demandeur qui décide du maintien ou non de sa demande de brevet ; le cas échéant, la demande de brevet est publiée, - La seconde et dernière phase avant la délivrance est la phase d examination quant au fond qui vise à définir par un comité d examinateur, si le brevet doit être délivré ou non. Sujet proposé Bluestone dispose des bases décrivant tous les dépôts de demande de brevets depuis 1988 auprès de l EPO, que les brevets aient été délivrés ou non par l EPO. Dans ce contexte, on cherche à prédire la décision de délivrance ou non d un brevet par l EPO, en fonction des caractéristiques descriptives du brevet - à son dépôt, tels que la langue, des informations sur l inventeur de l innovation, sur le mandataire de la demande de brevet, etc., - à sa publication, tels que le nombre de revendications, le champ technologique auquel est rattaché le brevet, les citations associées au brevet, etc., ainsi que des événements (courriers envoyés, délais de réponse du déposant à une demande de l examinateur, etc.) qui se produisent durant la phase d examination et de recherche. 1 Voir le site de l EPO : www.epo.org/applying/basics_fr.html pour la définition de ce qui peut être protégé par un brevet et de la procédure complète de délivrance d un brevet européen 2 Voir le site de l EPO : www.epo.org/applying/basics_fr.html paragraphe 4 4
Méthodologie envisagée Différents modèles statistiques ou de type machine learning seront estimés, testés et comparés en terme de pouvoir prédictif et explicatif (régression logistique, SVM, réseau bayésien, règles d association, etc.). Alternativement, des modèles de durée permettront de tenir compte de covariables évoluant au cours du temps. Résultats attendus Une analyse comparative de différents modèles est attendue, avec des performances calculées sur un échantillon de validation. Bibliographie - Le guide Le brevet européen et la procédure de délivrance publié par l EPO et disponible sur son site internet www.epo.org/applying/basics_fr.html - Le rapport Compendium of Patent Statistics publié conjointement par l OECD et l EPO en 2008, disponible sur le site http://www.oecd.org/sti/inno/37569377.pdf - Schmoch, U. (2008), Concept of a Technology Classification for Country Comparisons, Final Report to the World Intellectual Property Organisation (WIPO), revised August 2011, WIPO, www.wipo.int/export/sites/www/ipstats/en/statistics/patents/pdf/wipo_ipc_technology.pdf - OECD (2009), OECD Patent Statistics Manual, OECD Publishing, Paris. Doi : http://dx.doi.org/10/1787/9789264056442-en - Squicciarini, M., H. Dernis and C. Criscuolo (2013), Measuring Patent Quality: Indicators of Technological and Economic Value, OECD Science, Technology and Industry Working Papers, 2013/03, OECD Publishing. Doi : http://dx.doi.org/10.1787/5k4522wkw1r8-en 5