Analyse d'opinions et de sentiments Joséphine Anstett IFT6010 Intelligence artificielle
Plan Introduction Contexte Complexité des textes Méthode symbolique Méthode statistique Conclusion Comparaison des méthodes
Introduction Extraction de données de blogs, forums etc... Avis sur un produit, films, jeux vidéo Intéret : entreprise : avoir l'avis du consommateur client : s'informer avant d'acheter un produit Présentation basée sur : MAUREL S., CURTONI P. & DINI L. (2007). Classification d opinions par méthodes symbolique, statistique et hybride. Sigrid Maurel et Luca Dini (2009) Exploration de corpus pour l analyse de sentiments, «DÉfi Fouille de Textes», Atelier de clôture, Paris
Complexité «It s A Wonderful Life. I ve only met 2 people in real life and 1 person on the IMDB who hates this one. My favorite film ever!» Dépendant du contexte : «Dans Ghost, les habitants du village sont vraiment effrayants!» «C est effrayant de voir comment la côte est de plus en plus bétonnée.»
Méthode symbolique L analyse se fait au niveau des phrases découpage du texte en phrases analyse des phrases, extraction d information (sous forme de relations) Grammaire générale + grammaire spécifique Lexique varie en fonction du contexte
Méthode symbolique Grammaire : «J aime beaucoup Grenoble.» SENTIMENT_POSITIF(aimer,Grenoble) aimer expression linguistique qui véhicule le sentiment Grenoble cause ou objet du sentiment «Je déteste!!!!!» SENTIMENT_NEGATIF(détester) Polarité inversée si négation dans la phrase
Méthode symbolique Lexique des sentiments : agréable = {sents=1, positif=1, à l aise=1} sympathique = {sents=1, positif=1, détendu=1} aimer = {sents=1, positif=1, enchanté=1} conseiller = {sents=1, positif=1, conseil=1} plaisir = {sents=1, positif=1, enchanté=1} décevant = {sents=1, negatif=1, triste=1} cher = {sents=1, negatif=1, cher=1} regretter = {sents=1, negatif=1, triste=1} malheureusement = {sents=1, negatif=1, triste=1} appétit = {no sents=1} vacance = {no sents=1} chercher = {no sents=1} aventure = {genre=1} PC = {plateforme=1}
Méthode statistique Suppression des phrases subjectives Basé sur des n-grams n=12 Entraînement avec support vector machines (SVM) et de naive bayes (NB)
Conclusion Polarité du texte se fait en fonction du nombre de positif ou négatif Ne fonctionnera pas si critique positive se terminant par une conclusion négative. Meilleurs acteurs, meilleurs metteurs en scène... Malgré tout ça je suis sortie du cinéma avant la fin. L'intensité d'une phrase positive ou négative est difficile à évaluer.
Conclusion Méthode statistique : S'applique à tous les domaines. Analyse l'opinion du texte en général Demande un grand corpus d'entrainement Méthode symbolique : Configuration necessaire en fonction des domaines Analyse par phrase
Conclusion hypothèse : le résumé du film/livre se trouve au milieu du texte, le jugement au début ou à la fin entraînement du modèle uniquement sur les premières et/ou dernières phrases du texte meilleurs résultats sur certains corpus Ne s'applique pas à tous les corpus
Conclusion Combinaison des méthodes symbolique et statistique donne des résultats plus précis que chacune des méthodes employée séparément
Références MAUREL S., CURTONI P. & DINI L. (2007). Classification d opinions par méthodes symbolique, statistique et hybride. Sigrid Maurel et Luca Dini (2009) Exploration de corpus pour l analyse de sentiments, «DÉfi Fouille de Textes», Atelier de clôture, Paris Grzegorz DZICZKOWSKI (2008) système autonome d exploration des opinions (Ch. 3) Olena Zubaryeva, Jacques Savoy (2009) Evaluation de modèles de classification appliqués à la détection d'opinions Kavi Goel, Anthony Hui (2004) Sentiment Extraction and Classification of Movie Reviews Rémi Lavalley, Chloé Clavel, Patrice Bellot (2010) Extraction probabiliste de chaînes de mots relatives à une opinion (TAL Volume 51 2010)