Améliorer la précision des modèles avec des données non structurées

IBM SPSS Modeler Premium Améliorer la précision des modèles avec des données non structurées Points clés Consultez, préparez et intégrez facilement des données structurées ainsi que des données tirées de textes, de sites Web et d enquêtes Prenez en charge tout le processus de data mining grâce à une large gamme d outils basés sur la méthodologie CRISP-DM Identifiez et extrayez rapidement des sentiments à partir de texte dans plus de 30 langues et servez-vous de ces informations pour créer des modèles prédictifs plus précis Déployez des informations textuelles, afin que toute votre organisation ait une vision panoramique complète des personnes que vous servez IBM SPSS Modeler vous aide à obtenir de meilleurs résultats en basant vos décisions commerciales sur des associations et des patrons découverts dans vos données. Avec Modeler, vous pouvez résoudre plus rapidement n importe quel problème commercial en utilisant de puissantes techniques d analyse éprouvées qui vous fournissent des informations plus détaillées sur vos clients ou employés. Toutefois, la majorité des données se cachant sous une forme non structurée ou textuelle (dans des commentaires, des fichiers ou sur le Web), la modélisation uniquement basée sur des données structurées risque de fournir un aperçu incomplet de vos processus commerciaux et de vos résultats. transforme l utilitaire Modeler complet en solution de data mining et de text mining entièrement intégrée. Avec Modeler Premium, vous pouvez combiner toutes vos données structurées (ainsi que du texte libre issu de documents, e-mails, notes de centre d appels, blogs, flux RSS et autres sources Web 2.0) et appliquer la large gamme de techniques de data mining avancées disponibles dans Modeler Professional. En intégrant des sources textuelles dans vos efforts de modélisation, vous pouvez extraire et découvrir des relations entre des concepts et des sentiments, et augmenter l exactitude globale de vos modèles, ou lift. Améliorer la productivité, la qualité et l exactitude Avec Modeler Premium, vous pouvez effectuer à la fois l analyse de texte et le data mining dans un environnement de visualisation interactif. L interface graphique intuitive permet de voir facilement chaque étape du processus de data mining dans le cadre d un «flux». L analyse de texte est directe et efficace, avec des graphiques interactifs qui vous aident à explorer et à afficher les données textuelles et les patrons pour une analyse instantanée, ainsi que de puissantes techniques de classification et de catégorisation qui transforment le texte en ressource d analyse.

À partir de cette interface visuelle, vous pouvez facilement consulter et intégrer des données issues de nombreuses sources, y compris des données de pratiquement n importe quel type de base de données, tableur ou fichier plat comme des fichiers IBM SPSS Statistics, SAS et Microsoft Excel ainsi que des données textuelles et des données de sources Web 2.0, comme les flux RSS, et les produits IBM SPSS Data Collection. Aucune autre solution de data mining n offre une telle polyvalence. Grâce aux puissants outils d automatisation de Modeler Premium, notamment la préparation automatisée des données et la modélisation automatique, il est facile de préparer les données pour l analyse, de trouver le meilleur modèle d après des patrons cachés dans les données et de produire rapidement des résultats cohérents et exacts. Les modèles et les packages d analyse de texte propres à chaque secteur accélèrent le processus d analyse et garantissent les résultats les plus précis. Les puissantes fonctions de traitement du langage naturel aident à structurer le texte en catégories hiérarchiques pouvant être intégrées automatiquement dans des modèles prédictifs. La solution prend en charge le CRoss-Industry Standard Process for Data Mining (CRISP-DM), qui permet aux analystes de se concentrer sur la résolution des problèmes d entreprise plutôt que sur la programmation. Les projets individuels peuvent être efficacement organisés à l aide du gestionnaire de projet CRISP-DM. Explorer une plus large gamme de données Seul Modeler Premium vous permet d accéder directement à des données tirées de textes, de sites Web et d enquêtes et d intégrer ces types supplémentaires de données dans vos modèles prédictifs pour des recommandations plus utiles et de meilleurs résultats. L utilitaire de text mining interactif vous fera économiser du temps et des efforts tout en vous aidant à obtenir un avantage concurrentiel. Contrairement aux autres outils d analyse de texte, vous n avez pas besoin d une formation linguistique pour l utiliser. Vous pouvez facilement personnaliser les dictionnaires de concepts pour un domaine particulier à l aide de l Éditeur de ressources, une ressource intégrée pour la gestion du processus d extraction de texte. Ceci vous permet de trouver plus rapidement les concepts et les associations pertinents. Vous pouvez également créer des modèles et des bibliothèques personnalisés pour des applications métier spécifiques directement depuis la barre d outils principale de Modeler, et réutiliser ces précieuses ressources avec d autres produits et applications, notamment avec IBM SPSS Text Analytics for Surveys. Les ressources linguistiques de Modeler Premium prennent en charge une grande variété de secteurs et d applications, y compris l analyse des sentiments, la CRM, la sécurité et le renseignement, la veille économique, les sciences de la vie (génomique et MESH) et l informatique. 2

Choisir parmi un éventail inégalé de techniques Modeler offre un ensemble de techniques de data mining avancées conçues pour répondre aux besoins de chaque application de data mining, y compris les algorithmes de data mining suivants. Algorithmes de classification : faites des prédictions ou des prévisions basées sur des données historiques en utilisant des techniques comme l arbre de décision, les réseaux de neurones, la régression logistique, les séries temporelles, les machines à vecteurs de support, la régression de Cox et plus encore. Exploitez la modélisation de classification automatique pour les résultats aussi bien binaires que numériques afin de rationaliser la création de modèles. Algorithmes de segmentation : groupez des personnes ou détectez des patrons inhabituels avec les techniques de classification automatique, de détection des anomalies et de réseau de neurones. Utilisez la classification automatique pour appliquer plusieurs algorithmes en une seule étape et évitez les conjectures pour choisir la bonne technique. Algorithmes d association : découvrez des associations, des liens ou des séquences en utilisant les associations Apriori, CARMA et l association séquentielle. Grâce à un processus d extraction linguistique éprouvé de traitement du langage naturel (NLP), Modeler Premium extrait des concepts clés de nombreux types de données non structurées et les groupe en catégories. Les concepts, opinions et catégories extraits sont ensuite combinés à des données structurées et appliqués à des modèles prédictifs afin de fournir de précieuses informations sur les actions, les comportements, les patrons et les associations. La technologie d analyse des liens du texte (TLA) vous aide à identifier et à extraire des sentiments et des opinions en plusieurs langues, notamment en néerlandais, anglais, français, allemand, italien, japonais, portugais et espagnol. La prise en charge du logiciel Language Weaver, qui automatise la traduction du langage humain, permet de traduire en anglais plus de 30 langues, parmi lesquelles l arabe, le chinois et le russe. Optimiser vos technologies informatiques actuelles L architecture ouverte et évolutive de Modeler Premium tire le meilleur parti de votre infrastructure informatique existante. Elle s intègre à vos systèmes existants, à la fois lors de l accès aux données et du déploiement des résultats, vous évitant d avoir à convertir les données dans un format propriétaire. Et des techniques comme la modélisation de base de données, le multi-thread, la classification et les algorithmes incorporés, vous aident à conserver vos ressources, à fournir des résultats plus rapidement et à réduire vos coûts informatiques généraux. 3

Prendre en charge le data mining dans l ensemble de l entreprise Modeler Premium peut analyser efficacement les quantités de données habituellement générées par les petites et moyennes entreprises. Les organisations ayant des besoins de data mining à gros volume ou complexes peuvent utiliser Server. Grâce à l architecture client/serveur, Modeler Server permet à de nombreux analystes de travailler simultanément sans mettre à rude épreuve les ressources informatiques. La version entreprise prend en charge l exploration de bases de données sur les plateformes informatiques leaders du marché et traite efficacement de grandes quantités de données. Modeler Server offre aussi des options de déploiement supplémentaires pour vous aider à étendre les bénéfices du data mining et du text mining à tous les axes géographiques ou fonctionnels et à fournir rapidement les résultats aux décideurs. Les informations textuelles déployées à travers les modèles prédictifs du logiciel aux bases de données opérationnelles donnent de la valeur aux services de votre organisation. Pour faciliter la gestion de vos ressources analytiques et automatiser les processus analytiques, utilisez Modeler Premium avec IBM SPSS Collaboration and Deployment Services. Vous pouvez également utiliser les informations tirées des données textuelles pour obtenir des résultats plus précis avec d autres applications prédictives IBM SPSS (par exemple, vous pouvez améliorer l affectation des documents dans les catégories en temps réel et par lots, offrir des recommandations en temps réel aux appelants ou accélérer le traitement des déclarations de sinistre.) Nouveautés de Modeler Premium 14 Cette version inclut de nouvelles fonctions et des améliorations qui vous permettront de créer et d interpréter des modèles facilement à l aide de techniques de pointe, qui s intègreront en toute transparence à d autres logiciels et technologies IBM SPSS et qui incorporeront la modélisation prédictive dans les processus commerciaux de votre organisation. Améliorations des performances Améliorez la stabilité et la précision de vos modèles en utilisant les techniques d optimisation des grands ensembles de données, notamment le boosting and bagging, pour les algorithmes Réseau de neurones, Linéaire et Arbre de décision. Exécutez de nombreux modèles à la fois et interagissez avec eux en utilisant un nouvel outil de visualisation qui vous permet de mieux comprendre les résultats des modèles d ensemble et de les partager avec d autres membres de votre organisation. Améliorez l évolutivité et la performance lorsque vous utilisez Modeler Premium Server en exploitant la nouvelle fonction d optimisation du traitement des grands ensembles de données pour les algorithmes clés. Créez et actualisez des modèles sur des bases de données de taille illimitée pour les processus à l échelle de l entreprise. 4

Algorithmes actualisés Le nouvel algorithme Réseau de neurones prend en charge de nouvelles méthodes d analyse et inclut les fonctions de perceptron multicouches et de base radiale. Il inclut une visualisation interactive novatrice qui facilite la compréhension et la communication des résultats. Créez de meilleurs modèles linéaires à l aide d une nouvelle méthode de régression linéaire qui utilise le traitement de grands ensembles de données, possède des options intégrées de préparation automatique des données et produit de riches visualisations grâce auxquelles il est facile d interpréter les résultats des modèles de manière interactive. Améliorations d analyse de texte Recevez des résultats plus rapides et plus précis lorsque vous analysez du texte relatif au secteur de la banque, de l assurance ou de la publicité, des émoticônes et de l argot grâce aux nouveaux modèles et packages d analyse de texte propres à chaque secteur. Créez des structures de catégorisation hiérarchiques pour organiser les concepts de manière plus logique et plus détaillée. Importez des catégories prédéfinies, notamment des catégories hiérarchiques, des annotations et des descripteurs de mots clés, et exportez-les vers Excel. Enregistrez des catégories hiérarchiques en vue de les réutiliser à l aide d une technique améliorée de groupement de réseau sémantique pour la création de catégories. Extrayez du texte avec plus de rapidité et de précision, en particulier lorsque vous travaillez avec de grands ensembles de données, en utilisant les nouveaux réseaux sémantiques sensibles à chaque secteur. Définissez et testez des règles sur un texte modèle avant de les appliquer à vos données, grâce à l éditeur avancé de règles de liens textuels. Améliorations des données Étendez la prise en charge des sources de données d entreprise avec la possibilité de lire et d écrire des données en XML. Faites un meilleur usage de la force de vos bases de données opérationnelles grâce à des options supplémentaires d exploration de bases de données et renvoyez les résultats de Modeler vers des tables de bases de données opérationnelles depuis l interface. Simplifiez la réutilisation des flux de modélisation parmi les utilisateurs et assurez des paramétrages corrects grâce aux invites de paramétrage d exécution. Augmentez votre capacité de contrôle lorsque vous exportez des résultats vers Excel en les ajoutant à un classeur existant ou en précisant où placer les résultats à l intérieur d un tableur. Prise en charge et déploiement améliorés des plateformes Améliorez le déploiement et l évaluation à l aide d une définition de déploiement visuel qui inclut des fonctions automatiques de recréation de modèle, de ramification et d actualisation de modèle. Gérez les normes de connexion de l entreprise grâce à la nouvelle prise en charge de la technologie standard de l authentification unique (SSO). 5

Fonctions Compréhension des données Créez une large gamme de graphiques interactifs avec une assistance automatique Utilisez l analyse visuelle des liens pour révéler les associations dans vos données Interagissez avec les données en sélectionnant des régions ou des éléments d un graphique et en visualisant les informations sélectionnées ; ou sélectionnez des données clés à utiliser dans l analyse Accédez aux graphiques et outils de rapport d IBM SPSS Statistics directement depuis l interface Modeler Préparation des données Accédez aux données opérationnelles issues de diverses sources telles qu IBM DB2, Oracle, Microsoft SQL Server, Informix, Neoview, Netezza, mysql (Sun) et Teradata. Importez fichiers texte délimités et à largeur fixe, fichiers Statistics, SAS, sources de données Data Collection ou XML Choisissez parmi les nombreuses options de nettoyage de données de Modeler qui éliminent ou remplacent les données non valides, imputent automatiquement les valeurs manquantes et limitent les aberrations et les extrêmes Appliquez la préparation automatique des données pour interroger et conditionner les données pour l analyse en une seule étape Exportez les données vers des fichiers texte délimités, des fichiers Excel, Statistics, SAS et des bases de données opérationnelles Utilisez le filtrage des champs, le nommage, la dérivation, le regroupement, la re-catégorisation, le remplacement des valeurs et la réorganisation des champs Appliquez la sélection, l échantillonnage (notamment l échantillonnage classifié et stratifié), la fusion (notamment les jointures internes, les jointures externes totales, les jointures externes partielles et les anti-jointures) et la concaténation des enregistrements ; le tri, l agrégation et l équilibrage Choisissez parmi les options de restructuration, de partitionnement et de transposition de données Sélectionnez l une des nombreuses fonctions de chaîne : création de chaîne, substitution, recherche et mise en correspondance de chaîne, suppression des blancs et troncature Accédez à la gestion et aux transformations des données effectuées dans Statistics directement depuis Modeler Appliquez l évaluation RFM : agrégez les transactions des clients pour obtenir des scores de Récence, Fréquence et Monétaire et combinezles pour produire une analyse RFM complète Fonctions de préparation et de compréhension spécifiques au texte Extrayez des données textuelles à partir de fichiers, de bases de données opérationnelles et de flux RSS (c.-à-d. blogs, fils de nouvelles) Sélectionnez une option du programme d extraction du langage natif (néerlandais, anglais, français, allemand, italien, portugais, espagnol ou japonais) ou traduisez pratiquement n importe quelle langue via Language Weaver Extrayez des concepts spécifiques à un domaine tels que les unitermes, les expressions, les abréviations, les acronymes et autres Calculez les synonymes à l aide d algorithmes linguistiques sophistiqués et de ressources linguistiques intégrées ou propres à l utilisateur Nommez les concepts par personne, organisation, terme, produit, emplacement et autres types définis par l utilisateur Extrayez des entités non linguistiques comme des adresses, devises, heures, numéros de téléphone et numéros de sécurité sociale Utilisez et prenez en charge des bibliothèques et des modèles prédéfinis pour l analyse des sentiments, la CRM, le renseignement et la sécurité, la veille économique, les sciences de la vie et l informatique Exploitez les packages d analyse de texte (TAP) prédéfinis pour les applications métier les plus courantes, ou créez les vôtres Créez des classes basées sur la cooccurrence des termes à l aide d algorithmes de classification de concepts, fournissant un aperçu immédiat des rubriques principales et des liens qui les lient Groupez intelligemment les documents texte et les enregistrements en fonction du contenu à l aide des algorithmes de classification textuelle Activez la sélection et la désélection de concept avancée pour une utilisation en modélisation prédictive Utilisez des rapports textuels et visuels pour interroger la relation, l occurrence, la fréquence et le type de concept Analyse des liens du texte Identifiez et extrayez des sentiments (par exemple les goûts et aversions) de textes en néerlandais, anglais, français, allemand et espagnol Identifiez les liens et associations entre, par exemple, les personnes et les événements ou les maladies et les gènes Identifiez et extrayez le contenu d URL dans les blogs 6

Incluez des opinions, relations sémantiques et événements liés dans les modèles prédictifs à deployer Révélez des relations complexes à travers des graphiques interactifs montrant plusieurs liens sémantiques entre deux concepts Modélisation et évaluation Employez une large gamme d algorithmes de data mining avec de nombreuses fonctions avancées pour obtenir les meilleurs résultats possibles de vos données. Utilisez des navigateurs de modèle et d équation interactifs et visualisez des résultats statistiques avancés Montrez l impact relatif des attributs des données sur les résultats prédits avec des graphiques d importance des variables Combinez plusieurs modèles (modélisation d ensemble) ou utilisez un premier modèle pour en analyser un second Utilisez la classification automatique (binaire et numérique) au lieu de sélectionner des algorithmes individuels Utilisez Component-Level Extension Framework (CLEF) de Modeler pour intégrer des algorithmes personnalisés À travers l intégration de Statistics, utilisez R pour étendre les options d analyse Algorithmes de modélisation inclus C&RT, C5.0, CHAID & QUEST : algorithmes d arbre de décision incluant la construction d arbres interactifs Liste de décision : algorithme interactif basé sur des règles K-Means, Kohonen, Two Step, Discriminant, Machines à vecteurs de support (SVM) : algorithmes de classification et de segmentation Factor/PCA, Sélection de fonction : algorithmes de réduction de données Régression, Linéaire, GenLin (GLM) : modélisation d équation linéaire Modèle de réponse en autoapprentissage (SLRM) : modèle bayésien avec apprentissage incrémental Séries temporelles : génération et sélection automatique de modèles de prévision de séries temporelles Réseau neuronaux : perceptrons multicouche avec apprentissage par rétropropagation, et réseaux avec fonction à base radiale Machines à vecteurs de support : algorithme avancé de haute précision pour les grands ensembles de données Réseaux bayésiens : modèles probabilistes graphiques Régression de Cox : calcul du délai probable d un événement Détection des anomalies : détection des enregistrements inhabituels à l aide d un algorithme basé sur la classification KNN : algorithme de modélisation et d évaluation du plus proche voisin Apriori : algorithme populaire de découverte d associations avec fonctions d évaluation avancées CARMA : algorithme d association prenant en charge de multiples conséquences Séquence : algorithme d association séquentielle pour les analyses sensibles à l ordre Deployment Exportez des modèles en utilisant SQL ou PMML (le format standard basé sur le XML pour les modèles prédictifs) Exploitez les fonctions novatrices de gestion d analyse, d automatisation des processus et de déploiement de Collaboration and Deployment Services Modeler server (optionnel) Utilisez l exploration de bases de données pour créer des modèles dans la base de données à l aide de technologies de base de données leaders du marché et exploitez les implémentations de base de données haute performance Exploitez le matériel haute performance, trouvez des solutions plus rapidement et obtenez un meilleur RSI grâce à l exécution parallèle de flux et modèles multiples Transmettez des données sensibles en toute sécurité entre Modeler Client et Modeler Server grâce au codage SSL 7

À propos de SPSS, an IBM Company SPSS, an IBM Company, est un leader mondial de logiciels et solutions d analyse prédictive. Le portefeuille complet de produits de l entreprise (collecte de données, statistiques, modélisation et déploiement) capture les attitudes et opinions des gens, prédit les résultats des futures interactions clients puis exploite ces informations en intégrant l analyse aux processus métier. Les solutions IBM SPSS répondent aux objectifs commerciaux interconnectés de l ensemble d une organisation en se concentrant sur la convergence de l analyse, de l architecture informatique et du processus commercial. Des clients des secteurs commerciaux, gouvernementaux et universitaires du monde entier utilisent la technologie IBM SPSS comme un avantage concurrentiel pour attirer, fidéliser et développer la clientèle, tout en réduisant la fraude et en limitant les risques. SPSS a été rachetée par IBM en octobre 2009. Pour plus d informations, ou pour contacter un représentant, visitez www.spss.com. Copyright IBM Corporation 2010 SPSS Inc., an IBM Company Headquarters, 233 S. Wacker Drive, 11th floor Chicago, Illinois 60606 SPSS est une marque déposée et les noms des autres produits SPSS sont des marques commerciales de SPSS Inc., an IBM company. 2010 SPSS Inc., an IBM Company. Tous droits réservés. IBM et le logo IBM sont des marques commerciales d'international Business Machines Corporation aux États-Unis, dans d'autres pays ou les deux. Pour une liste complète des marques commerciales d'ibm, voir www.ibm.com/legal/copytrade. shtml. Les autres noms d'entreprises, de produits et de services peuvent être des marques commerciales ou des marques de service d'autres organisations. Les références aux produits ou services IBM dans cette publication n'impliquent pas qu'ibm a l'intention de les rendre disponibles dans tous les pays où IBM a des activités. Toute référence à des sites Web non-ibm dans ces informations est fournie à titre indicatif seulement et ne constitue en aucune manière une approbation desdits sites Web Les documents présentés sur ces sites Web ne font pas partie des documents concernant ce produit IBM et l'utilisation de ces sites Web est à vos risques et périls. Veuillez recycler IMD14302FRFR-00