CONCEPTION ET TEST DE

Transcription

1 CONCEPTION ET TEST DE CIRCUITS, SYSTEM-ON-CHIP BELUCH Thomas (LAAS, Toulouse) : Architecture et modélisation de réseaux de capteurs sans fils synchronisés et localisés à faible consommation (Poster) BEN ABDALLAH Feriel (TELECOM, Nice) : Partitionnement d un système de puce: une étude de cas basée sur DIPLODOCUS (Poster) BICHLER Olivier (CEA LIST, Paris) : Apprentissage neuro-inspiré avec des nano-dispositifs memristifs (Oral) BONET ZORDAN Leonardo (LIRMM, Montpellier) : Optimized March Test Flow for Detecting Memory Faults in SRAM Devices Under Bit Line Coupling (Oral) BRUGUIER Florent (LIRMM, Montpellier) : Capteurs Numériques pour la Gestion de Variations sur Circuits Logiques Programmables (Poster) FENG Zhenfu (INL, Lyon) : CMOS image sensor high level simulation (Poster) FIEDOROW Pawel (INL, Lyon) : Théorie et application de la compensation fréquentielle «multipath» aux amplificateurs opérationnels (Poster) GASIA Victor (IES, Montpellier) : Communication entre un satellite de type CubeSat et sa station sol en Ultra Large Bande (Poster) JABEUR Kotb (INL, Lyon) : Logic cells and interconnect strategies for nanoscale reconfigurable computing fabrics (Poster) JOUBERT Antoine (CEA LETI, Grenoble) : Conception d un neurone analogique Leaky Integrate-and-Fire robuste et compact en technologie 65 nm (Poster) KILLIAN Cedric (LICM, Metz) : Conception d'un NoC adaptatif et sûr de fonctionnement pour système sur puce reconfigurable (Poster) LARABA Asma (INP TIMA, Grenoble) : Evaluation de la technique de test basée sur la mesure d un nombre réduit de codes pour les convertisseurs analogique-numérique de type pipeline (Poster) MONNEREAU Nicolas (LAAS, Toulouse) : Méthodes d analyse de l impact d une décharge électrostatique survenant sur un système électronique sur puce (Oral) ROSSINI MATTOS Diego (IMS, Bordeaux) : Conception d un Convertisseur Analogique- Numérique pour des Applications en Radioastronomie et Cosmologie (Poster) RUIZ AMADOR Natalia (TIMA, Grenoble) : Characterization of Flip-Flops for ageing phenomena: NBTI and HCI (Poster) ZHU Nanhao (INL, Lyon) : Research on High Data Rate Wireless Sensor Networks (Oral)

2 Architecture et modélisation de réseaux de capteurs sans fils synchronisés et localisés à faible consommation Thomas BELUCH CNRS ; LAAS ; 7 avenue du colonel Roche, F Toulouse Cedex 4, France Les réseaux de capteurs, rendus possibles dans ces dernières années, représentent actuellement un intérêt croissant de par les évolutions restant a découvrir. Cette thèse a consisté à concevoir des interfaces de télécommunication adaptées à des réseaux de capteurs ne pouvant se contenter des interfaces actuellement disponibles sur le marché. Des besoins spécifiques en terme de haut débit, de synchronisation très précise, ainsi que de calcul du temps de trajet entre deux nœuds ont été intégrés lors de la conception d une couche MAC novatrice, ainsi que d un assemblage sur système sur puce complet quasi autonome. I. INTRODUCTION Les réseaux de capteurs ont connu un engouement croissant ces dernières années, avec la réduction des couts de fabrication, ainsi que de la consommation électrique des circuits microélectroniques. Il devient ainsi possible d intégrer dans une puce la totalité des éléments nécessaires au fonctionnement d un nœud de réseau sans fil, ainsi qu un microprocesseur et des capteurs divers. Les contraintes techniques initiales ne permettant alors que de faibles performances, en terme de débit notamment, les applications ont alors tenté de s adapter à la technologie disponible. Cependant, un pan entier des applications pouvant bénéficier de tels réseaux reste inaccessible à cause de limitations principalement dans les interfaces de transmission des données. Ce travail de thèse a consisté à travailler au niveau de la couche de contrôle de l accès au médium (MAC) sur trois limitations exprimées par l industrie aéronautique et spatiale toulousaine, ainsi que par la Délégation Générale à l Armement. Ces limitations sont donc : le débit disponible, la précision de synchronisation, et la précision de localisation des nœuds. Par la suite, un travail d intégration d un nœud de réseau sans fil en système sur puce (SoC) ASIC à faible consommation est en cours. Les applications ayant mené à ce travail de thèse seront présentées dans une première partie. Nous proposerons par la suite un système complet de nœud de capteur répondant à ces demandes. Une troisième partie traitera de la couche MAC, et détaillera les réponses apportées aux limitations exprimées. Une dernière partie décrira le travail en cours d assemblage du SoC. II. APPLICATIONS A. Contrôle de la santé des structures FIG. 1 Exemple d utilisation d un réseau de WSN Ces applications de Structure Health Monitoring (SHM), souhaitées principalement par le monde de l aéronautique et de l espace sont actuellement tournées autour d un objectif principal : le contrôle en temps réel de la santé d un élément critique pour e fonctionnement du système. Par exemple, dans le cadre d un avion, un tel contrôle impliquerait des centaines de nœuds placés à des points critiques de la structure (FIG. 1). Les contraintes en terme de

3 FIG. 2 Délais imputables aux différentes couches d un réseau sans fil quantité de prises de mesures, donc de débit, et de précision de synchronisation des mesures n ont pour le moment aucune solution dans le monde des réseaux de capteurs. B. Fonctionnement collaboratif d équipes en environnement hostile Les équipes d intervention en milieu hostile peuvent intervenir dans de nombreux contextes dans lesquels la topologie du terrain d action n est pas connue à l avance, et encore moins pourvue de stations relais fixes permettant la localisation absolue de façon garantie. De telles applications incluent les opérations de sauvetage ou d extinction de feux dans des bâtiments clos et inconnus, ainsi que des opérations militaires en zone ennemie. Le point commun à ces applications est l utilité pour chacune des personnes impliquées de connaître la position relative des coéquipiers ainsi que leurs données vitales (pouls, sat. O2 ). Un canal de communication audio sera également souhaitable pour la transmission d ordres. III. WiDeSys, une MAC adaptée A. Description générale de la solution à apporter La solution proposée : nommée WiDeSys pour Wireless Deterministic System comprend l utilisation de couches physiques (PHY) pouvant fonctionner à des débits entre 1Mb/s et 1Gb/s selon les environnements. Nous effectuerons nos essais tant avec une modulation OFDM ultralarge bande UWB que Impulsionnelle UWB. Ces interfaces PHY seront ensuite modifiées afin de pousser au maximum le déterminisme des différents délais intervenant dans la transmission des données (FIG. 2). Cette réduction des délais variables inconnus permet de réduire l inconnue dans le temps de transit des données aux conversion analogique / numérique, à la tête RF, ainsi que le temps de propagation. Les deux premiers éléments ne possédant par essence qu un délai fixe à la gigue d horloge près, il est ainsi possible de mesurer précisément le temps de propagation dans l air au décalage d horloge près. Cette mesure appliquée sur les canaux montant et descendant permet de calculer l une et l autre des inconnues. Chaque nœud sera donc constitué d une interface PHY adaptée aux contraintes spécifiques à chaque application, de la couche MAC proposée, d un microprocesseur ARM Cortex M0, ainsi que d interfaces standard de type SPI pour l interfaçage avec les capteurs (FIG. 5). B. Couche MAC spécifique FIG. 3 Réseau interne à une escouade Les applications citées précédemment nécessitant toutes un déterminisme maximum dans la transmission de données, le protocole d accès au médium le plus adapté à de telles

4 FIG. 4 Schéma blocs d un nœud de réseau de capteurs WiDeSys demandés est le TDMA. Les slots d émissions sont connus à l avance, et les délais liés au protocole sont prévisibles. La couche MAC proposée se base donc sur le TDMA, et ajoute ou non selon les cas un protocole de négociation des slots. La synchronisation étant nécessaire au bon fonctionnement du protocole TDMA, le système WiDeCS [1] dédié a été conçu à l intérieur même de la couche MAC. Il utilise la notion de maitre / esclave est ici utilisée pour la gestion du cycle TDMA, ainsi que pour la synchronisation. Le maitre est alors considéré comme la référence en terme d horloge. Les moments d émission et de réception de paquets entre les esclaves et le maitre sont échangés, puis les calculs de la synchronisation et du temps de propagation sont effectués au niveau de l esclave (FIG. 4). La correction appliquée au niveau de l esclave est donc de (1) et le temps de trajet son exprimés en (3): (1) (2) (3) III. Assemblage en système sur puce Le système sur puce proposé utilise un cœur microprocesseur ARM Cortex M0 pour le traitement des données, la configuration de l interface réseau, et la gestion des modes d économie d énergie. L interface réseau a été adaptée au bus système AMBA AHB-Lite, et possède des sorties analogiques en bande de base, ou en RF (selon l intégration ou non de la tête RF au design). Les technologies de réduction de la consommation électrique ont été utilisées dans le design principalement afin de couper l alimentation des sous ensembles en dehors de leur utilisation. La tête RF est FIG. 5 Capture des moments d émission et de réception

5 allumée seulement pendant les slots d émission et de réception. La couche MAC réveille le processeur lors de la réception d un paquet, ou lors d évènements récurrents comme la prise de mesure. Le système fini ainsi assemblé est en cous de finition et sera envoyé en fabrication en technologie CMOS 65nm de ST- Microélectronics au deuxième semestre. La dernière étape intermédiaire consistera a envoyer le démodulateur de réception au mois de mars. V. CONCLUSION Le travail présenté ici a consisté à développer la partie MAC d une interface réseau novatrice à destination des réseaux de capteurs haut débit, faible consommation, synchronisés et/ou positionnés. Le système proposé, appelé WiDeSys, dépasse l état de l art sur le critère de précision de synchronisation, tout en assurant une consommation inférieure à 20 mw (bande de base numérique). Ce travail est également intégré dans un projet de plus grande ampleur visant à proposer un nœud de réseau de capteur sans fil complet. L auteur souhaite remercier la DGA pour le financement de ses études doctorales. [1] Beluch, T.; Dragomirescu, D.; Perget, F.; Plana, R.;, "Cross-Layered Synchronization Protocol for Wireless Sensor Networks," Networks (ICN), 2010 Ninth International Conference on, vol., no., pp , April 2010

6 Partitionnement d un système de puce: une étude de cas basée sur DIPLODOCUS Feriel Ben Abdallah, Gabriel Pedroza, Ludovic Apvrille Institut Telecom, Telecom ParisTech, LTCI CNRS 2229, routes des Crêtes BP 193 F Sophia-Antipolis Cedex first_name.last_name@telecom-paristech.fr Résumé DIPLODOCUS est un profil UML dedié à l exploration d architecture à haut niveau d abstraction. Dans un premier temps, cet article presente les principales caracteristiques de DIPLODOCUS, et notamment la methodologie en Y associee au profil : modélisation de l application, de l architecture et du mapping, puis simulation et verification formelle des modèles. Par la suite, le papier illustre les capacités de DIPLODOCUS avec un cas d utilisation issu du projet européen EVITA (E-safety vehicle intrusion protected applications)[1] 1 Introduction La grande complexité des systèmes sur puces ainsi que le coût élevé de re-engineering si une erreur est découverte pendant le cycle développement incite à l utilisation de techniques de modélisation et de vérification ausitôt que possible. L exploration d architecture (DSE : Design Space Exploration) est le processus d analyse des possibilités de répartition des fonctions entre des composants logiciels et matériel, et ce afin de sélectionner une solution optimale au regard de métriques telles que la performance, le coût, la consommation, la fiabilité et la flexibilité. Ce processus consiste généralement à développer un modèle abstrait du système à concevoir et à effectuer des simulations et analyses formelles sur ce modèle afin de pouvoir tester la faisabilité des exigences fonctionnelles et non fonctionnelles du système. DIPLODOCUS [DIPLODOCUS] est un profil UML [7] ciblant la conception des systèmes sur puces à très haut niveau d abstraction. Il se base sur une séparation entre l application et l architecture et sur l abstraction des données, notamment. L objectif de DIPLODOCUS est d aider le concepteur à trouver une architecture matérielle qui satisfasse les exigences fonctionnelles et non fonctionnelles. Pour atteindre cet objectif, il repose sur des techniques de simulation rapide [4] et de vérification formelle [3]. La méthodologie de DIPLODOCUS se base sur trois étapes, reprises du modèle en Y [2] Modélisation de l application : L application est modélisée sous la forme de tâches communicantes, en utilisant des diagrammes UML de classes et d activités. Les tâches modélisées sont des classes UML communicant avec des canaux (channels), événements (events), et requêtes d exécution (requests). Les données transférées dans les canaux sont abstraites c est à dire que les canaux ne transportent pas des valeurs de données mais plutôt la quantité de données des échantillons. Les événements sont utilisés pour des synchronisations alors que les requêtes servent à l exécution des tâches. Modélisation de l architecture : Les architectures sont modélisées indépendamment des applications comme un ensemble de noeuds matériels abstraits et inter connectés ensemble (CPUs, bus, mémoires, accélérateur matériels, etc.). Mapping : il s agit du processus qui définit comment les tâches peuvent être attribuées aux entités d exécution et aussi comment les communications sont allouées aux communications physiques (bus) et aux entités de stockage (mémoires). Dans ce papier on se propose de montrer comment on peut utiliser efficacement le profil DIPLODOCUS et son outil open-source support TTool [5] avec un cas d étude de taille industrielle. Dans un premier temps, la section 2 du papier présente les approches existantes pour l exploration d architecture. La section 3 se focalise sur une étude de cas issu du projet EVITA [1] : la spécification, le modèle, et les résultats de simulation et de vérification. 2 État de l art Cette section décrit d autres approches existantes pour l exploration d architecture. SPADE[6] est une méthodologie pour l exploration architecturale des systèmes de traitement de signal hétérogènes. Elle se base sur la séparation entre application, architecture et mapping comme dans le profil UML DIPLODOCUS. Ces modèles sont abstraits et paramétrisés. SPADE repose sur les réseaux de processus de Khan (Khan Process Network) dont la sémantique est orientée flot de données est est basée sur des FIFOs de taille infinie pour la communication entre modules. DIPLODOCUS supporte cette sémantique, mais permet en outre un contrôle de l échange des données entre tâches par des événements, mais aussi par des sémantiques de canaux plus riches (FIFO finie, etc.).

7 IMEC[9] repose sur une librairie c++ OCAPI-xl ciblant la conception de systèmes hétérogènes (HW/SW). Comme DIPLODOCUS, OCAPI-xl est basé sur la séparation entre architecture et application, bien que dans notre approche nous n avons pas inclus de fonctionnalité dans la modélisation de l application ou dans la modélisation de l architecture. Cette approche se focalise sur le partitionnement Hw/Sw et son implémentation, alors que DIPLODOCUS se focalise plutôt sur la modélisation et la simulation / vérification formelle. SESAME[8] est une extension de SPADE qui vise à faire de l exploration architecturale à des différents niveaux d abstraction, avec un processus de raffinement entre modèles. DIPLODOCUS se focalise plutôt à un niveau d abstraction plus élevé. 3 Etude de cas : HSM 3.1 Le projet EVITA EVITA (E-safety vehicle intrusion protected applications) est un projet européen s intéressant à la sécurisation des systèmes embarqués véhiculaires. Plus précisément, il vise la spécification, la validation et le prototypage d une architecture pour les réseaux embarqués véhiculaires permettant de protéger les données et les communications contre les attaques externes. Un des buts de ce projet est d étudier le partitionnement des différents fonctions de sécurité du système. Dans le projet EVITA, l unité de base embarqué est appelée Electronic Control Unit (ECU) : l architecture d EVITA repose sur le fait d ajouter un systèmesur-puce dans ces ECUs, de telle sorte à regrouper le CPU principal de l ECU, sa mémoire, et un module de sécurité dans la même puce. Ce module matériel est appellé HSM (Hardware Security Module). Il est particulièrement complexe car il est capable de gérer plusieurs sessions en même temps, c est à dire que plusieurs tâches du systèmes peuvent demander des calculs cryptographiques en même temps sur ce module. L étude de case se focalise plus particulièrement sur ce module. 3.2 Spécification du HSM Le HSM implémente les différents algorithmes cryptographiques de base nécessaires aux protocoles cryptographiques spécifiés dans le projet EVITA. Par exemple, le HSM peut effectuer des opérations d encryptage / décryptage (ECC, AES), des calculs de MAC, des calculs de signature (ECC). Un des algorithmes fréquemment utilisé est le MAC (Message Authentication Code) : il permet au récepteur d un message de vérifier l intégrité des données reçues dans ce message, c est à dire que les données sont identiques à celles émises par l émetteur. La tâche MAC, telle que spécifiée dans EVITA, possède deux modes de fontionnement : un premier mode permet de calculer le MAC d un message, le deuxième mode permet de vérifier le MAC d un message. Dans EVITA, le calcul du MAC se fait en trois étapes. Une première étape appelée MAC_INIT permet de spécifier les paramètres du MAC, le mode, l algorithme à utiliser, et la référence vers la clé à utiliser (key handle) pré-chargée dans la mémoire du HSM. Une deuxième étape nommée MAC_UPDATE réalise l étape principale du MAC, donc soit un calcul de MAC, soit une vérification de MAC. Cette étape retourne une valeur intermédiaire. La troisième étape (MAC_FINISH) ferme la session MAC initialisée (enlever le clé de la RAM du HSM, etc.). En mode calcul de MAC, MAC_FINISH retourne directement le code MAC, et dans le mode vérification, il retourne le résultat de comparaison. Les autres blocs de calcul cryptographique du HSM fonctionne sur le même principe : initialisation, calcul(s) intermédiaire(s), fermeture de la session avec retour du résultat. 3.3 Modélisation Abstractions Les hypothèses et abstractions employées pour la modélisation du HSM en DIPLODOCUS sont les suivantes. Une tâche DIPLODOCUS est utilisée pour chaque fonctionnalité du HSM. Cette approche nous permet d avoir une vue simple du système qu on raffinera à fur et à mesure pour avoir des résultats de plus en plus précis. Nous avons associé aussi à chaque paramètre de la spécification, qu on a estimé utile à notre niveau d abstraction, un port sur lequel on envoie ou on reçoit des données. Si le paramètre est utile pour une synchronisation entre tâche, il est associé à un port de type événement (event). Au contraire, si le paramètre sert pour le déclenchement d une tâche, il est associé à un port de type requête (request). Enfin, si le paramètre envoyé est nécessaire pour réaliser un traitement, il est associé à un port de type canal (channel). Certaines tâches de de notre modèle ne représentent pas des fonctions décrites dans la spécification (par exemple, les tâches Key_Manager et Session_Handle). Ces taches sont importantes pour la simulation et l évaluation du modèle. On a aussi employé les structures de données DIPLODOCUS (record) pour envoyer et recevoir des données complexes et donc simplifier les communications dans le modèle Modélisation de l application La spécification du HSM met en évidence une grande similarité dans le fonctionnement des blocs cryptographiques : initialisation (x_init), mise à jour (x_update), et terminaison (x_finish) : cette symétrie se retrouve au niveau de notre modèle. En conséquence, par la suite, nous présentons un modèle abstrait du HSM, avec un seul bloc de sécurité : le bloc MAC. Ce modèle est formé par sept tâches comme indiqué sur la Figure 1. Ces tâches communiquent ensemble à travers les ports et échangent des données complexes (record). Une tâche nommée HSM_Interface assure le contrôle du système global. Cette tâche reçoit les vecteurs de données depuis la tâche nommée Application_TestBench. Dès que HSM_Interface reçoit un vecteur de données, elle demande à Key_Manager de charger la clé specifiée. HSM_Interface

8 FIG. 1 Le modèle de HSM permet aussi de découper les messages dont la taille dépasse la taille maximale d un échantillon, avant d être traité par les tâches suivantes du bloc MAC. La tâche SESSION_Handle_Manager permet de recevoir les demandes d ouverture et fermeture de session et répondre s il y a des sessions disponibles ou pas. MAC_Init reçoit de HSM_Interface un paquet de données, puis envoie une requête au SESSION_Handle_Manager pour demander l ouverture d une nouvelle session. S il y a une session disponible, MAC_Init vérifie si la clé a été bien chargée comme indiqué dans la spécification. Ensuite, MAC_Init envoie un paquet de données à la tâche MAC_Update. Cette dernière ne peut commencer son traitement qu après avoir reçu de l interface le numéro de session, la taille de la donnée d entrée et la donnée d entrée. Si la taille de la donnée d entrée dépasse la taille maximale d un échantillon que peut traiter le bloc MAC, les données sont découpées par HSM_Interface en morceaux de taille maximale. Ensuite, les morceaux sont envoyés à MAC_Update qui sera exécutée n fois (n = nombre de morceaux). Chaque morceau est traité par MAC_Update et le code MAC généré est envoyé à MAC_Finish, qui MAC_Finish se charge de fermer la session en cours, et de fournir le résultat final. Si le bloc MAC est dans le mode génération, MAC_Finish retourne le code MAC qui vient d être généré. Sinon, dans le mode vérification, une sortie booléenne indique si la valeur calculée correspond ou pas à la valeur MAC de référence. Le modèle que nous considérons permet de supporter plusieurs sessions en parallèle Modèles d architectures Nous avons expérimenté deux architectures. Une architecture avec un seul CPU. Une architecture avec deux CPUs : un CPU exécute les tâches de contrôle, l autre exécute les tâches liées au calcul de MAC (voir Figure 2). Un résultat de simulation est donné sur la figure 3. Il correspond à l exécution d un modèle avec une seule session sur l architecture mono-processeur. Ce diagramme est généré automatiquement par TTool. Ce diagramme d ordonnancement permet de valider rapidement les propriétés tem- FIG. 2 Architecture à deux processeurs FIG. 3 Diagramme d ordonnancement des tâches avec une architecture monoprocesseur porelles et fonctionnelles de notre modèle. L on constate ainsi par exemple que les étapes INIT, UPDATE,et FINISH s exécutent d une manière séquentielle. Aussi, le temps de simulation pour cette architecture est de 191 cycles d horloge (avec une fréquence de 200 MHz). Le simulateur fournit aussi des informations sur le temps d exécution de chaque tâche comme indiqué sur la Figure 4 ; cette capture d écran montre que la tâche MAC_UPDATE consomme plus de temps d exécution que les autres tâches (96 cycles). Dans le cas de l architecture à 2 CPUS, le temps d exécution est de 205 cycles d horloge. Par utilisation des techniques de vérification formelle de TTool, il serait aussi possible de calculer les chemins d exécution les plus longs pour les trois différentes architectures [3]. Il s agit d un diagramme d ordonnancement des tâches qui est généré automatiquement avec l outil TTool. Ce diagramme présente un cas d exécution de notre modèle illustré par le diagramme d activités de la tâche TEST_BENCH5.

9 FIG. 5 Diagramme d activités de la tâche Testbench FIG. 4 Capture écran des résultats de simulation montrant le nombre de cycles consommés par chaque tâche du modèle de HSM avec un seul CPU Cet article étudie plus particulièrement une puce d un système embarqué véhiculaire. Les résultats de simulation et de vérification formelle permette de guider le concepteur vers des architectures différents, et en particulier, le fait que plusieurs CPUs peuvent améliorer le global temps de calcul dans le cas d un système multi-sessions, et que les accélérateurs peuvent grandement améliorer le temps de calcul pour les fonctions cryptographiques. Nos travaux futurs s interesseront à l étude du partitionnement de tel systèmes qui prenne en compte la consommation d énergie. Références [1] EVITA project. In http : FIG. 6 Diagramme d ordonnancement des tâches avec une architecture à deux processeurs Dans le modèle a deux processeurs nous avons choisi de mapper les trois étages de la MAC sur le même CPU. Les autres tâches sur un autre CPU, comme indiqué sur la Figure 6. Le temps de simulation pour cette architecture est de 205 cycles d horloge. 4 Conclusions Le profil DIPLODOCUS permet de très rapidement modéliser un système-sur-puce à un haut niveau d abstraction. La simulation et la vérification peuvent être démarrées directement depuis les diagrammes UML avec une approche de type press-bouton implémentée dans l outil TTool. [2] L. Apvrille et al. A UML-based environment for system design space exploration. In 13th IEEE International Conference on Electronics, Circuits and Systems (ICECS 2006), Nice, France, Dec [3] D. Knorreck, L. Apvrille, and R. Pacalet. Formal system-level design space exploration. In The 10th annual international conference on New Technologies of Distributed Systems (NOTERE 2010),, Tozeur, Tunisie, June IEEE. [4] Daniel Knorreck, Ludovic Apvrille, and Renaud Pacalet. Fast simulation techniques for design space exploration. In Objects, Components, Models and Patterns, volume 33 of Lecture Notes in Business Information Processing, pages Springer Berlin Heidelberg, [5] LabSoc. The TURTLE Toolkit. In http ://labsoc.comelec.enst.fr/ttool/. [6] P. Lieverse, P.van der Wolf, E. Deprettere, and K. Vissers. A Methodology for Architecture Exploration of Heterogeneous Signal Processing Systems

10 [7] OMG. UML 2.0 Superstructure Specification. In http :// Geneva, [8] A.D. Pimentel and J.E. Coffland. A Software Framework for Efficient System-level Performance Evaluation of Embedded Systems. In Proc. of the ACM Symposium on Applied Computing, March [9] G. Vanmeerbeeck, P. Schaumont, S. Vernalde, M. Engels,, and I. Bolsens. Hardware/Software Partitioning of Embedded System in OCAPI-xl. In Proc. of the ACM Hardware Software Codesign Conference, 2001.

11 Apprentissage neuro-inspiré avec des nano-dispositifs memristifs Olivier BICHLER CEA, LIST Laboratoire Calcul Embarqué Gif-sur-Yvette Cedex olivier.bichler@cea.fr Résumé Dans cet article nous explorons l une des voies actuellement envisagées pour exploiter les nano-dispositifs de type memristif qui constituent la cellule élémentaire d un certain nombre de technologies mémoire émergentes. Les caractéristiques principales de ces dispositifs sont résumées et une architecture de type réseau de neurones impulsionnels permettant de faire de l apprentissage non supervisé par Spike-Timing-Dependent Plasticity est décrite. Un exemple original d application de ce type de réseau est introduit et démontre le potentiel et la puissance de cette approche. Nous décrivons également les méthodologies et outils développés pour mener à bien cette étude. 1. Introduction L industrie et le monde de la recherche mettent aujourd hui en œuvre des efforts considérables pour poursuivre l augmentation exponentielle de la densité d intégration. Celle-ci se heurte cependant de plus en plus aux limites physiques et des procédés de fabrication. Ainsi, la taille des transistors ne pourra vraisemblablement plus diminuer significativement en dessous de la dizaine de nanomètres. Pourtant, malgré l augmentation exponentielle des capacités de calcul ces dernières décennies, les applications envisageables notamment dans les systèmes embarqués restent extrêmement éloignées des capacités cognitives humaines. Dans ce contexte, l émergence des nanotechnologies a vu avec elle l arrivée de nouveaux «nano-composants», visant à remplacer ou complémenter le transistor dans certaines applications, en implémentant avec un seul dispositif de taille nanométrique des fonctionnalités qui nécessiteraient autrement une dizaine de transistors ou plus. Cela est particulièrement vrai dans le domaine des mémoires, traditionnellement coûteuses en surface silicium, où de nombreuses alternatives basées sur des nano-dispositifs sont aujourd hui expérimentés : Phase- Change Memory (PCM), Conductive-Bridging RAM (CBRAM), Resistive RAM (RRAM), Magnetic RAM (MRAM)... etc. Le point commun de ces nouveaux nano-composants est qu ils appartiennent pratiquement tous à une même classe de dispositifs : les dispositifs memristifs, dont fait partie le memristor [1]. En plus d offrir potentiellement un facteur 10 sur la densité d intégration, les propriétés de ces dispositifs pourraient être exploitées pour faire du calcul directement dans la mémoire, ce qui éliminerait de fait le bottleneck dû au temps d accès à la mémoire des architectures de type Von Neumann. Ces mêmes propriétés rendent ces composants très intéressants pour implémenter des synapses (des éléments clé des circuits neuronaux), dont la densité d intégration possible avec des transistors a jusqu à présent constituée une limitation forte aux implémentations matérielles de réseaux de neurones, tant en termes de surface silicium que d efficacité énergétique. Malgré le fait que les réseaux de neurones n ont pas eu un succès à la hauteur des espoirs qu ils avaient initialement suscités et restent encore aujourd hui marginaux dans l industrie, plusieurs facteurs clé poussent à se tourner vers ce type d architecture pour ces nouveaux dispositifs memristifs. Tout d abord, les réseaux de neurones sont naturellement tolérants aux défauts et aux dispersions entre composants [2] [3], qui sont des caractéristiques intrinsèques des composants nanométriques [4], là où un circuit logique nécessite de la correction d erreur et de la redondance (qui devient insoutenable passé un faible taux de défaut). Ensuite, les progrès en neurosciences ont conduit à ce qui est parfois appelé la troisième génération de réseaux de neurones [5] : il s agit de réseaux de neurones impulsionnels (spiking neural network) dont l information est codée dans le temps relatif entre des impulsions (ou potentiels d action) plutôt que dans leur fréquence et qui combinés à des algorithmes d apprentissage adaptés ont déjà montrés des capacités computationnelles remarquables pour le traitement de l information [6]. Après avoir introduit les caractéristiques de base des dispositifs memristifs dans une première partie, nous présenterons le type d architecture envisagé pour ces dispositifs dans une deuxième partie. Enfin, la méthodologie et les outils développés pour mener à bien ces études sont décrits dans une troisième partie. 2. Dispositifs memristifs Un dispositif memristif est un composant électronique à deux terminaux qui se comporte comme une résistance (ou conductance), dont la valeur change dynamiquement avec l application d un courant ou d une tension à ses bornes. Par rapport au modèle mathématique général d un système memristif [7], on ne considère ici que des

12 G V -V th dispositifs à deux terminaux, invariants dans le temps. Un dispositif de ce type obéit aux équations : i G. v dg dt dg dt = f(v,g) V th Figure 1. Type de caractéristique recherché : dispositif memristif bipolaire et non linéaire. Sous le seuil, la conductance ne change pas ou pratiquement pas, tandis qu au dessus du seuil, il est possible d augmenter ou de diminuer la conductance selon le signe de la tension. f ( v, G) On s intéresse plus particulièrement aux dispositifs dont la caractéristique f(v, G) est bipolaire et non linéaire, comme illustré Figure 1. A noter qu un tel dispositif est purement résistif, sa caractéristique i v passe toujours par l origine et son état de conductance est maintenu en l absence de tension ou de courant. Il se comporte donc comme une mémoire non volatile, multi-niveaux ou binaire selon les dispositifs. Electrode inerte (W, Pt, Au, ) Formation d un filament métallique Electrode inerte (W, Pt, Au, ) Rupture du filament par effet Joule V Reformation du filament Figure 2. Principe de fonctionnement de la RRAM : formation et destruction partielle d un filament conducteur par claquage diélectrique partiel et effet Joule respectivement. Si l invention du concept du memristor remonte à 1971, un modèle physique se comportant comme un memristor (cas particulier de système memristif mais communément utilisé par extension pour n importe quel composant memristif) n a été proposé qu assez récemment [1]. Cependant, de nombreux composants ont potentiellement des caractéristiques dynamiques qui seraient modélisables par un modèle memristif. On citera principalement les structures de type Metal-Insulator- Metal (MIM), qui constituent la cellule de base de plusieurs technologies de mémoire non volatile en cours de développement, parmi lesquelles la RRAM et la CBRAM dont les principes de fonctionnement sont décrits Figure 2 et Figure 3 respectivement [8] [9]. Si la recherche sur de telles structures a connu un fort essor ces dernières années, les premières caractérisations datent des années 1950 [10]. 3. Architectures envisagées L un des grands avantages des structures MIM est qu il est possible de les intégrer dans un crossbar, comme cela est montré Figure 4. Ceci laisse entrevoir une très grande densité d intégration, avec des dimensions qui pourraient être inférieures à 10x10 nm par cellule élémentaire. En outre, la possibilité d intégrer ces structures entre deux couches de métal permettrait de fabriquer ces dispositifs sur plusieurs niveaux au-dessus d une couche CMOS, augmentant encore la densité d intégration et facilitant la connectivité avec le circuit de contrôle CMOS. Un crossbar de 32x32 lignes, soit 1024 cellules avec une structure Ag/a-Si/p-Si a été démontré avec une proportion de dispositifs fonctionnels (yield) de 92% [11]. Plusieurs exemples d architectures hybrides nano/cmos ont déjà été proposées pour faire principalement de la logique reconfigurable [12]. Toutefois, il est probable qu en dessous d une certaine échelle, un yield de 100% ne soit jamais atteignable pour une telle structure. Cela est particulièrement pénalisant pour réaliser une mémoire logique, car la circuiterie supplémentaire (overhead) nécessaire pour identifier les cellules défectueuses et corriger les erreurs augmente exponentiellement avec le taux de défaut. En outre, l adressage individuel des cellules pose notamment le problème des chemins parasites (sneak paths), c'est-à-dire des courants de fuite dans le crossbar qui réduisent considérablement la marge de bruit lors de la lecture de + Anode Electrode soluble (Ag, Cu) Métal (couche M x+1 ) - Migration des ions (Ag +, Cu 2+ ) Cathode Electrode inerte (W, Pt, Au, ) Réduction des ions à la cathode Ag + (Ag 2 S) + e - Ag Formation d un pont conducteur MIM Métal (couche M x ) Electrodes Isolant Oxyde Electrolyte solide Matériau organique Figure 3. Principe de fonctionnement de la CBRAM : formation et destruction d un pont conducteur par dissolution d une électrode soluble. Figure 4. Intégration de structures memristives de type MIM dans un crossbar entre deux couches de métal, rendant possible une densité d intégration extrêmement importante.

13 Modification du poids synaptique par STDP Impulsion postsynaptique (feedback) Neurones connectés au crossbar Impulsion pré-synaptique V pre V post V pre t pre < t post t pre t post t t V post t pre > t post t pre t post t t Figure 5. Principe d implémentation d un réseau de neurones impulsionnels dans un crossbar de dispositifs memristifs de type Métal-Isolant-Métal (MIM). l état d une cellule. Ces difficultés pénalisent de manière importante les mémoires basées sur ces technologies, qui ont pour cette raison encore du mal à émerger, car il s agit problèmes intrinsèques à la technologie qui sont contournés au prix de circuits complexes et couteux en surface silicium. C est aussi la raison pour laquelle des architectures «neuro-morphiques» (imitant le fonctionnement du cerveau) sont envisagées, car elles éliminent naturellement ces difficultés : elles s adaptent aux défauts lors de l apprentissage et l adressage des cellules (synapses) se fait par ligne ou par colonne, comme illustré Figure 5. Les impulsions pré-synaptiques sont intégrées dans l ensemble des neurones de sortie (connexions en colonnes) et les impulsions postsynaptiques sont rétro-propagées vers l ensemble des neurones d entrées (connexions en lignes), ce qui rend inexistant les notions de courant de fuite ou de marge de bruit, les synapses n étant jamais adressées individuellement. 3.1 Apprentissage non supervisé par Spike- Timing-Dependent Plasticity Spike-Timing-Dependent Plasticity (STDP) est un algorithme d apprentissage non supervisé mis en évidence dans les réseaux de neurones biologiques dans les années 1990 et qui peut être vu comme un raffinement de la règle de Hebb [13]. Il est aujourd hui considéré comme étant un mécanisme fondamental de l apprentissage dans le cerveau. Le principe de STDP est de faire évoluer le poids d une synapse selon la distance temporelle entre l impulsion en entrée de la synapse (impulsion pré-synaptique) et celle issue du neurone de sortie de la synapse (impulsion post-synaptique). Ainsi, une impulsion pré-synaptique immédiatement suivie d une impulsion post-synaptique a pour effet de renforcer le poids de la synapse (l impulsion pré-synaptique a contribué à l activation du neurone, la synapse est donc récompensée), tandis qu une impulsion pré-synaptique qui succède à une impulsion post-synaptique diminue le poids synaptique (l impulsion pré-synaptique n est dans ce cas pas pertinente). Une implémentation possible avec des dispositifs memristifs bipolaires est présentée Figure 6. La nonlinéarité des dispositifs est exploitée pour augmenter ou diminuer leur conductivité selon les instants relatifs des impulsions pré- et post-synaptiques [14] [15]. L intégration de ce principe dans le crossbar illustré V pre -V post G augmente t -V th G diminue Figure 6. Principe d apprentissage par STDP via l interaction d impulsions de tension appliquées sur chaque terminal d un dispositif memristif. Figure 4 permet ainsi de faire évoluer simultanément la conductivité de l ensemble des synapses selon l activité des neurones d entrée et de sortie sans nécessiter de circuit de contrôle supplémentaire. L apprentissage se fait uniquement via l interaction des impulsions arrivant sur les deux terminaux de la synapse, il est donc complètement local à la synapse. La conséquence de cette règle d apprentissage très simple qu est STDP est de renforcer le poids des synapses qui contribuent de manière répétée à activer le neurone, le rendant ainsi sensible à un motif répétitif dans les stimuli d entrée. Par «motif», on entend ici un paquet d impulsions fortement corrélées temporellement. Les applications potentielles tirant profit de ce principe sont nombreuses, tels que l apprentissage non supervisé de caractéristiques visuelles [16] ou la détection de motifs répétitifs dans des séquences aléatoires [17]. Une application originale et illustrant toute la puissance de cette approche est présenté dans la section suivante. 3.2 Application à la vision avec une rétine CMOS asynchrone Cette partie présente une simulation au niveau fonctionnel d un réseau de neurones impulsionnels implémentant STDP, réalisant l apprentissage non supervisé de trajectoires de véhicules sur une autoroute, à partir de données réelles, filmées avec une rétine CMOS asynchrone. Au lieu d envoyer des images à une fréquence fixée (typiquement 24 images/s), une rétine Figure 7. Images extraites de la séquence AER utilisée pour l apprentissage. Ces images sont construites en accumulant les impulsions provenant de la rétine pendant une certaine durée, le concept de frames étant absent. V th t

14 Inhibition latérale Inhibition latérale AER Sensor 16,384 spiking pixels 128 Figure 8. Structure de réseau de neurones pour l extraction non supervisé des trajectoires des véhicules. CMOS utilise le principe de l Address-Event Representation (AER) pour émettre de manière asynchrone des impulsions associées à chaque pixel de la rétine en réponse à des changements de contraste locaux temporels et/ou spatiaux. La séquence utilisée pour cet apprentissage a été filmée avec la rétine DVS128 de l équipe de Tobi Delbrück [18] [19]. Il s agit de véhicules passant sous un pont sur l autoroute 210 à Pasadena en Californie (voir Figure 7). La structure du réseau utilisé pour l apprentissage est décrite Figure 8. Celui contient environ 2 millions de synapses et son implémentation nécessiterait donc autant de dispositifs memristifs. Le principe de l apprentissage non supervisé est assez simple : chaque neurone est en concurrence avec les autres pour apprendre un bout de séquence répétitif. Lorsqu un neurone se déclenche, il inhibe momentanément les autres neurones, les forçant à apprendre d autres séquences. La conséquence de ce mécanisme est que l on va extraire les différentes voies de circulation de l autoroute de manière totalement non supervisée. La Figure 9 compare l activité en sortie du réseau après apprentissage aux instants de passage des véhicules dans la séquence. Sans avoir à aucun moment programmé le réseau et uniquement en utilisant un apprentissage local STDP, celui-ci se met 2 nde couche 10 neurones 1 ère couche 60 neurones 128 automatiquement à détecter les véhicules sur chaque voie de circulation avec un taux de détection impressionnant de 98% [20]. 4. Méthodologie et outils La méthodologie développée pour la conception de nouvelles architectures basées sur les nanocomposants tient en trois composantes essentielles : l exploration architectural de haut niveau, grâce au simulateur évènementiel Xnet, la modélisation et la simulation au niveau circuit, réalisée en VHDL-AMS et enfin la caractérisation individuelle des dispositifs et la démonstration des concepts architecturaux élémentaires. 4.1 Simulateur évènementiel Xnet Xnet est un simulateur évènementiel (event-driven) développé en C++ pour la simulation de réseaux de neurones impulsionnels. Ce type de simulateur est particulièrement bien adapté pour traiter des flots de donnée AER, contrairement aux simulateurs traditionnels par pas de temps (clock-driven), qui sont généralement plus orientés vers la modélisation biologique plutôt que l implémentation matérielle. Xnet est ainsi capable de réaliser un apprentissage sur une rétine AER 128x128 pixels en quasi temps réel sur un ordinateur de bureau standard. L application de détection de véhicules sur une autoroute a été réalisée avec ce simulateur, qui constitue un outil précieux pour évaluer des concepts d architectures au niveau fonctionnel avec de bonnes performances, avant d envisager une modélisation électronique plus fine en VHDL-AMS. 4.2 Modélisation VHDL-AMS Le langage de description matériel VHDL-AMS est utilisé pour la modélisation des dispositifs memristifs et leur intégration dans un crossbar. Associé à un Design Kit CMOS, il permet de simuler un système complet constitué de synapses nano et de neurones CMOS en vue de leur intégration dans un circuit intégré. 4.3 Plateforme de démonstration Une plateforme électronique de caractérisation et de démonstration des principes élémentaires d apprentissage sur des dispositifs memristifs a été réalisée (Figure 10). Capable d appliquer des séquences d impulsions sur deux dispositifs simultanément et d émuler un neurone, il a permis de démontrer la faisabilité de STDP et d une mémoire associative élémentaire sur des transistors Nanoparticle Organic Memory FET (NOMFET) [21], qui possèdent essentiellement une caractéristique de type memristive. Il s agit d un premier pas vers un démonstrateur plus ambitieux qui pourra réaliser un apprentissage sur un crossbar de plusieurs dizaines de dispositifs, avant d envisager la réalisation d un circuit intégré hybride nano/cmos. Figure 9. Détection des véhicules sur chaque voie de circulation après un apprentissage totalement non supervisé. En rouge, la sortie du réseau de neurones et en bleu, les instants de passage des véhicules, marqués à la main.

15 Figure 10. Démonstrateur pour un apprentissage de type STDP sur des nano-composants (ici le NOMFET). 5. Conclusions Nous avons montré dans cet article comment il peut être possible d exploiter un certain nombre de nouveaux nano-composants appartenant à la classe des dispositifs memristifs dans une architecture de type réseau de neurones impulsionnels. Ce type d architecture est particulièrement adapté aux caractéristiques intrinsèques de ces dispositifs et à des applications de traitement de l information «naturelle», comme la vision ou la parole. Ces travaux constituent une première étape vers la réalisation d un circuit intégré hybride nano/cmos d ici 3 à 4 ans. Remerciements Le NOMFET et le démonstrateur sont financés par le projet FP7 européen «Nanocomputing Building Blocks with Acquired Behaviour (NABAB)» (contrat FP ) et réalisés en collaboration avec l équipe de Dominique Vuillaume (IEMN). Les travaux sur Xnet font l objet d une collaboration avec Damien Querlioz (IEF) et Simon J. Thorpe (CerCo), co-directeur de thèse avec Jean-Philippe Bourgoin. La thèse est encadrée par Christian Gamrat. Références [1] D. B. Strukov et al., "The missing memristor found", Nature, 453, 7191 (2008), pp [2] J. H. Lee et K. K. Likharev, "The Defect-tolerant nanoelectronic pattern classifiers", Int. Journal of Circuit Theory and Applications, 35, 3 (2007), [3] D. Querlioz, O. Bichler et C. Gamrat, "A memristor-based spiking neural network immune to device variations", International Joint Conference on Neural Networks (IJCNN) 2011 (submitted). [4] D. Niu et al., "Impact of process variations on emerging memristor", Design Automation Conference (DAC), th ACM/IEEE (2010), pp [5] W. Maass, "Networks of spiking neurons: The third generation of neural network models", Neural Networks, 10, 9 (1997), pp [6] R. Guyonneau, R. Vanrullen et S. J. Thorpe, Temporal codes and sparse representations: A key to understanding rapid processing in the visual system, J Physiol Paris, 98, 4-6 (2004), pp [7] L. O. Chua et S. M. Kang, Memristive devices and systems", Proceedings of the IEEE, 64, 2 (1976), pp [8] C.-Y. Lin, C.-Y. Liu, C.-C. Lin et T. Y. Tseng, Current status of resistive nonvolatile memories, Journal of Electroceramics, 21, 1-4 (2007), pp [9] M. Kund et al., Conductive Bridging RAM (CBRAM): an emerging non-volatile memory technology scalable to sub 20nm, In Electron Devices Meeting, IEDM Technical Digest. IEEE International, pp [10] T. W. Hickmott, Low-frequency negative resistance in thin anodic oxide films, Journal of Applied Physics, 33, 9 (1962), pp [11] S. H. Jo, K.-H. Kim et W. Lu, High-density crossbar arrays based on a Si, Nano Letters, 9, 2 (2009), pp [12] G. S. Snider and R. S. Williams, Nano/CMOS architectures using a field programmable nanowire interconnect, Nanotechnology, 18, 3, (2007). [13] G.-Q. Bi et M.-M. Poo, Synaptic modification by correlated activity: Hebb s postulate revisited, Annual Review of Neuroscience, 24 (2001), pp [14] G. S. Snider, Spike-timing-dependent learning in memristive nanodevices, In Nanoscale Architectures, NANOARCH IEEE International Symposium on, pp [15] B. Linares-Barranco et T. Serrano-Gotarredona. Memristance can explain spike-time-dependentplasticity in neural synapses, Nature Precedings (2009). [16] T. Masquelier et S. J. Thorpe, Unsupervised learning of visual features through spike timing dependent plasticity, PLoS Comput Biol, 3, 2 (2007), pp. e31. [17] T. Masquelier, R. Guyonneau et S. J. Thorpe, Spike timing dependent plasticity finds the start of repeating patterns in continuous spike trains, PLoS ONE, 3, 1 (2008), pp. e1377. [18] P. Lichtsteiner, C. Posch et T. Delbruck, A 128x db 15 s latency asynchronous temporal contrast vision sensor, IEEE J. Solid-State Circuits, 43, 2 (2008), pp [19] DVS128 Dynamic Vision Sensor Silicon Retina data. [20] O. Bichler, D. Querlioz, S. J. Thorpe, J.-P. Bourgoin et C. Gamrat, "Unsupervised Features Extraction from Asynchronous Silicon Retina through Spike-Timing- Dependent Plasticity", International Joint Conference on Neural Networks (IJCNN) 2011 (submitted). [21] O. Bichler, W. Zhao, F. Alibart, S. Pleutin, D. Vuillaume et C. Gamrat, "Functional Model of a Nanoparticle- Organic Memory Transistor for Use as a Spiking Synapse", Electron Devices, IEEE Transactions on, 57, 11 (2010), pp

16 Optimized March Test Flow for Detecting Memory Faults in SRAM Devices Under Bit Line Coupling L. B. Zordan 1 A. Bosio 1 L. Dilillo 1 P. Girard 1 S. Pravossoudovitch 1 A. Virazel 1 N. Badereddine 2 1 Laboratoire d Informatique, de Robotique et de Microélectronique de Montpellier - LIRMM Université de Montpellier II / CNRS 161, rue Ada Montpellier Cedex 5, France <lastname>@lirmm.fr 2 Infineon Technologies France 2600, route des Crêtes Sophia-Antipolis, France nabil.badereddine@infineon.com URL: Abstract A comprehensive SRAM test must guarantee the correct functioning of each cell of the memory (ability to store and to maintain data), and the corresponding addressing, write and read operations. SRAM testing is mainly based on the concept of fault model used to mimic faulty behaviors. Traditionally, the effects of bit line coupling capacitances have not been considered during the fault analysis. However, recent works show the increasing impact of bit line coupling capacitances on the SRAM behavior. This paper reviews and discusses preview works addressing the issues coming from bit line parasitic capacitances and data contents on SRAM testing, pointing out the impacts of these effects on the existing test solutions. Then, we introduce two optimizations of the state-of-the-art test solution able to take into account the influence of bit line coupling capacitances while reducing the test length of about 60% and 80%, respectively. 1. Introduction Memories are one of the most important components in digital systems, and semiconductor memories are nowadays one of the fastest growing technologies. Actually the major trend of System-On-a-Chip (SOC) allows to embed in a single chip all the components and functions that historically were placed on a hardware board. Within SOCs, embedded memories are the densest components, accounting for up to 90% of chips area [1]. It is thus common to find, on a single chip, tens of memories of different types, sizes, access protocols and timing. Moreover they can recursively be embedded in embedded cores. The high density of their cell array makes memories extremely vulnerable to physical defects. Due to the complex nature of the internal behavior of memory chips, defining fault models and, providing test solutions is nontrivial. Faults in SRAM memories are usually modeled as functional faults such that functional tests can be used to detect those faults [7]. Functional fault modeling consists in mapping physical defects into electrical and, therefore, into functional faults, defined as the deviation of the observed behavior of the memory from the expected one, under a set of performed operations. Many fault models for SRAMs have been introduced, as well as many types of test have been created on the base of fault models. Among all families of memory test, March tests have proven to be superior due to their low test time and simplicity. Then, they have become the most widely used type of memory tests [2] [11] [12]. The effect of bit line coupling capacitances (CC BL ) has been neglected in the past. Recently it has been proven that CC BL develop undesired voltage coupling on adjacent memory cells (i.e., cells belonging to the same word line), which can have an impact on the sense amplifier operation when reading data from SRAMs. This effect depends on the content of the victim cell and also on the contents of the neighboring cells [4]. Therefore, classic approaches applied for memory testing, which do not take into account parasitic effects like CC BL, are no longer effective and tend to become deprecated. A complete study on the influence of CC BL and neighborhood data on the read operation, for any possible spot defect, has been presented in [5]. Owning to electrical simulations authors show that CC BL can induce extra stress when reading from memory cells in presence of spot defects. Furthermore, it shows that, due to CC BL, the proper functioning of the read operation is detected by a specific initialization of the neighboring cells: in the left and in the right cells, connected to the same word line (WL) than that the faulty cell. In order to ensure the detection of a faulty read operation in a given cell, a memory test must ensure the initialization of the neighboring cells with specific contents, which introduces the most stressful condition for executing the read operation. The specific contents of the neighborhood are called worst case coupling backgrounds (WCB). Some industrial tests cannot apply the proper WCB in order to maximizing the stress when reading from a given faulty cell. Therefore, the fault coverage of such tests is strongly reduced in presence of CC BL. Several test solution have been proposed so far to guarantee the detection of the CC BL induced faults. In [4], authors present a test algorithm, March SSSc, with a 12N complexity, where N is the number of memory cells in the

17 memory. It guarantees the detection of all single-cell static faults both in presence and in absence of CC BL for any possible open defect. In [5], a March test m-mss of a 108N complexity is presented. The March m-mss is able to detect all single-cell and two-cell static faults, with and without CC BL for any possible spot defect. Despite of the effectiveness of March m-mss, the time complexity is still high, making it not suitable for industrial application. This paper focus on the influence of CC BL during read operation, since it has been shown that read operation is the most sensitive operation to the effect of CC BL. We model the CC BL effects by means of the well-known fault primitives (FPs) formalism [7]. Then, for each FP a set of detection conditions that must be satisfied to ensure the detection of the fault have been proposed. Finally, we present two optimized March test flows w.r.t. to the stateof-the-art, able to detect all proposed FPs as well as all single-cell and two-cell static faults. Proposed test solutions allow a reduction of test time application of about 60% and 80% respectively. The rest of the paper is organized as follows. Section 2 reviews previous works addressing CC BL. The new set of FPs for modeling the effect of BL coupling on the read operation is presented in Section 3, whereas Section 4 describes the fault coverage conditions required for FPs detection and presents an optimal test that covers all of them. Section 5 presents the targeted functional fault models (FFMs), analyzes several well-known March tests with respect to these FFMs and presents optimized March test solutions for handling the targeted FFMs. Section 6 concludes the paper. 2. Modeling of coupling capacitance bit line An analytical evaluation of the CC BL effect is presented in [1][4][5]. The analysis is based on a 3x3 memory cell array which was designed using the transistor models of the 65nm BSIM4 spice model. A simplified schematic of the SRAM used for simulation is depicted in Figure 1. In the array the cells are connected to three pairs of bit lines (BLs): the pair of BLs on the left (BTl and BCl), the pair of BLs in the middle (BTm and BCm) and the pair of BLs on the right (BTr and BCr). The total capacitance associated with a BL has three components: internal coupling to complementary BL (Cbi), external coupling to an adjacent BL (Cbx) and an inherent capacitance to ground (Cg). Each WL is connected to three cells: left (l), middle (m) and right (r). In order to evaluate the coupling effects of the neighborhood, the cell under evaluation is always the cell in the middle of the array, as it has neighboring cells in all directions. Considering the read operation, in [1][4][5] it has been shown that the coupling capacitance C b causes neighboring BLs to have an influence on the voltage development only when reading from a cell. 2.1 Effects of neighboring backgrounds When a specific cell is accessed for reading, the WL connects all cells of the same row to the precharged BLs. In case the cell in the center of the 3x3 cell array is accessed, the cells belonging to the same row in the left and in the right are the only potential cells to induce a negative impact on the performed operation. Therefore, the contents of the neighboring cells, in presence of CCBL, may introduce an extra stress when accessing a cell for a read operation. In [1][4][5] it has been shown that when accessing an SRAM cell containing a logic 1, the most stressful background is 11 in the neighboring cells connected to the same WL. It means that both left and right neighboring cells have to be set to logic 1 to maximize the effect of CC BL when reading the content of the middle cell. This background is referred to as CB11. When accessing a cell containing logic 0, the most stressful background is CB00. These are referred to as worst case coupling backgrounds (WCB). 2.2 Spot defects Spot defects are manufacturing defects that, depending on their conductivity, can cause undesired connections or disconnections in the memory subcircuits [8]. These defects can be divided in three groups: 1. Open defects: the particle contamination increases the resistivity of the line. Opens are classified as open within a cell and opens at BLs and WLs. 2. Short defects: undesired resistive paths between a node and VDD or GND. The shorts are classified as short within a cell and shorts at BLs and WLs. 3. Bridge defects: undesired resistive path between two arbitrary nodes. Bridges are classified as bridge within a cell or between cells. Figure 1. SRAM electrical Spice model [4][5] 2.3 Analysis of defects in presence of CC BL In [5], it has been demonstrated through circuit simulation that the read 0 and read 1 operations can fail to work properly in the presence of spot defects and CC BL. For each defect, and for both read 0 and read 1 operations,

18 an evaluation of the neighboring contents has been made in order to determine the WCB suitable for each case. Spot Defects Worst Coupling Backgrounds CB00 CB01 CB10 CB11 Opens R0 - - R1 Shorts R0 - - R1 Bridges R0 R0/R1 R0/R1 R1 Table 1. WCB for each group of spot defects Table 1 presents the WCB for each group of spot defects. The first column of Table 1 lists the groups of spot defect, whereas the second-to-last columns specify all possible CBs as well as the WCB associated to the read 0 (R0) and read 1 (R1) operations. Therefore, in order to ensure the detection of a faulty behavior on the read operation with BL coupling, the memory test must guarantee the most stressful conditions that have been presented, i.e. if a logic value x is supposed to be read, the operation must be executed with all possible WCB: CBxx, CBxy and CByx, where x ϵ {0, 1} and y =!x. Any electrical or analytical analysis has been done in the literature considering the impact of neighboring contents in the presence of CC BL and spot defects for the write operation. 3. Fault modeling of the CC BL on the read operation A functional fault can be represented by a fault primitive (FP), which is described by the following notation < S/F/R >. S is the sensitizing operation sequence necessary for observing the fault, F is the logic value stored in the cell, F ϵ {0, 1}, and R is the logic output of a read operation performed in the faulty cell, R ϵ {0, 1, -}. Functional fault models (FFMs) are defined as a nonempty set of FPs [7]. In order to model the functional faults caused by CC BL during the read operation, a small improvement on the FP component S is proposed to show the initialization of the faulty cell and the neighbors in the left and in the right when the read operation is performed. The standard notation defines S as a sequence of operations represented by op1, op2,, op n, where op i is defined as n(do), n is the address of the cell, d ϵ {0, 1} is the initial logical value of the cell, O j ϵ {R, W} is read (R) or write (W) operation. In order to add the information related to the contents of the neighborhood, each operation of S is now defined as n(d l d c d r O), where d l, d c and d r are the initial value of the left neighboring cell, the initial value of the faulty cell and the initial value at the right neighboring cell, respectively. The effect of BL coupling on the read operation is modeled by the following six FPs: FP1: < 000r0/0/1 > A read 0 operation executed with CBxx does not change the cell content, but logic 1 is observed at the output. FP2: < 111r1/1/0 > A read 1 operation executed with CBxx does not change the cell content, but logic 0 is observed at the output. FP3: < 001r0/0/1 > A read 0 operation executed with CBxy does not change the cell content, but logic 1 is observed at the output. FP4: < 110r1/1/0 > A read 1 operation executed with CBxy does not change the cell content, but logic 0 is observed at the output. FP5: < 100r0/0/1 > A read 0 operation executed with CByx does not change the cell content, but logic 1 is observed at the output. FP6: < 011r1/1/0 > A read 1 operation executed with CByx does not change the cell content, but logic 0 is observed at the output. 4. Coverage conditions for CC BL FPs In order to detect the FPs modeling the effect of CC BL, a March test algorithm must respect a set of coverage conditions, i.e., sequences of memory operations needed to sensitize and observe the faulty behaviors. 4.1 Notation A March test M is a test algorithm with a finite number of March elements (MEs) M={M1; M2; ; Mk}, where each ME Mi consists of an addressing direction Di and a finite number of read and write operations Mi=Di{O1(x), O2(x),, On(x)}, Oj ϵ {R, W} is read (R) or write (W) operation, Di ϵ {,, }, x ϵ {1,0}. In this section, a special notation is used to present the coverage conditions that a March test must respect for detecting the FPs previously specified: represent any number of Rx or Wx operations. [O1,, On]* represents a sequence of one or more operations O1,, On. 4.2 Coverage conditions for each FP Table 2 presents the coverage conditions for each CC BL FP. It describes the MEs that are necessary and sufficient for a March test in order to cover each FP previously presented. Fault Primitive FP1 FP2 FP3 FP4 FP5 FP6 Coverage Conditions (, O(0)); (, R0, [, O(0)]*) (, O(1)); (, R1, [, O(1)]*) (, O(0)); (, R0,, O(1)) (, O(1)); (, R1,, O(0)) (, O(0)); (, R0,, O(1)) (, O(1)); (, R1,, O(0)) Table 2. Coverage conditions for CC BL FPs For both FP3 and FP4 the address order of the second ME is important as, executing the first ME, all memory cells contain a logic x. The second ME uses a decreasing ( ) address order (line after line, from the bottom to the top of the array) to guarantee the opposite value logic y (y =!x) on the right neighboring cell, thus applying the background CBxy when reading from the middle cell. Moreover, the address order of the second ME is also important for F5 and F6. The first ME guarantees logic x in all memory cells. The second ME uses increasing ( ) address order (line after line, from the top to the bottom of the array) in order to initialize the left neighboring cell with logic y (y =!x), so reproducing CByx when reading from a middle cell.

19 FFM Fault Primitives = < S/F/R > SF < 0/1/- >, < 1/0/- > TF < 0w1/0/- >, < 1w0/1/- > WDF < 0w0/1/- >, < 1w1/0/- > RDF < 0r0/1/1 >, < 1r1/0/0 > DRDF < 0r0/1/0 >, < 1r1/0/1 > IRF < 0r0/0/1 >, < 1r1/1/0 > Table 3. Single-cell static FFMs FFM Fault Primitives = < Sa;Sv/F/R > CFst < 0; 0/1/- >, < 0; 1/0/- >, < 1; 0/1/- >, < 1; 1/0/- > CFds < xwy; 0/1/- >, < xwy; 1/0/- >, < xrx; 0/1/- >, < xrx; 1/0/- > CFwd < 0; 0w0/1/- >, < 1; 0w0/1/- >, < 0; 1w1/0/- >, < 1; 1w1/0/- > CFtr < 0; 0w1/0/- >, < 1;0w1/0/- >, < 0; 1w0/1/- >, < 1; 1w0/1/- > CFdrd < 0; 0r0/1/0 >, < 1; 0r0/1/0 >, < 0; 1r1/0/1 >, < 1; 1r1/0/1 > CFir < 0; 0r0/0/1 >, < 1; 0r0/0/1 >, < 0; 1r1/1/0 >, < 1; 1r1/1/0 > CFrd < 0; 0r0/1/1 >; < 1; 0r0/1/1 >, < 0; 1r1/0/0 >, < 1; 1r1/0/0 > Table 4. Two-cell static FFMs (X, Y ϵ {1,0}) 4.3 Optimal March tests for detecting all FPs related to CC BL Several well-known industrial tests are not able to cover all FPs related to CC BL because they do not fulfill the above requirements. The standard March C- algorithm (10N) is effective for detecting the most part of the classical memory faults. However, it fails to cover the FP < 111r1/1/0 > related to the BL coupling fault modeling. March C- can be easily modified to cover the missing FP by inserting a new ME composed by a simple read 1 operation after one of the MEs that finish with a write 1 operation. The addressing order of the new ME is irrelevant. The modified test March BLC-Opt (11N) is also optimal for the detection of all FPs used to model the BL coupling effect on the read operation. The structure of the new test is defined as follows: March BLC-Opt = { (w0); ME0 (r0, w1); ME1 (r1) ME2 (r1, w0); ME3 (r0, w1); ME4 (r1,w0); ME5 (r0) } ME6 5. Testing flow approaches for BL coupling This section discusses the capabilities of some industrial tests in detecting single-cell and two-cell static faults, also considering the fault modeling that has been proposed to consider the effects of BL coupling on the read operation. Finally, it presents test algorithms that achieve the desired coverage. Tables 3 and 4 list the FFMs corresponding to the targeted single-cell and two-cell static faults [7]. 5.1 Analysis of existing test algorithms Tables 5 and 6 compare the fault coverage of several industrial March tests regarding single-cell and two-cell static faults, also pointing out the capability of such tests to cover the FPs that have been presented in Section III. In Table 5, a/b denotes that the test detects a number a of FPs over the total number b of FPs of the correspondent FFM. In Table 6, the notation shows if the March test covers the correspondent FP (+) or not (-). FFMs Mats+ March C- March Tests March SR March SS March MSS March m-mss SF 2/2 2/2 2/2 2/2 2/2 2/2 TF 1/2 2/2 2/2 2/2 2/2 2/2 WDF 0/2 0/2 0/2 2/2 2/2 2/2 RDF 2/2 2/2 2/2 2/2 2/2 2/2 DRDF 0/2 0/2 2/2 2/2 2/2 2/2 IRF 2/2 2/2 2/2 2/2 2/2 2/2 CFst 4/8 8/8 8/8 8/8 8/8 8/8 CFdsrx 3/8 8/8 8/8 8/8 8/8 8/8 CFdswx 0/8 0/8 0/8 8/8 8/8 8/8 CFid 3/8 8/8 8/8 8/8 8/8 8/8 CFwd 0/8 0/8 0/8 8/8 8/8 8/8 CFrd 4/8 8/8 8/8 8/8 8/8 8/8 CFdrd 0/8 0/8 8/8 8/8 8/8 8/8 CFir 4/8 8/8 6/8 8/8 8/8 8/8 CFtr 2/8 8/8 8/8 8/8 8/8 8/8 FPs Table 5. Fault coverage for different March tests Mats + Marc h C- March Tests March SR March SS March MSS March m- MSS <000r0/0/1 > < 111r1/1/0 > < 001r0/0/1 > < 110r1/1/0 > < 100r0/0/1 > < 011r1/1/0 > Table 6. Fault coverage under BL coupling From Table 5 and 6, one test ensuring the detection of all single-cell and two-cell static faults is March SS, with a complexity of 22N [10]. However, March SS does not generate all required CBs in order to ensure the detection of a failing read operation due to CCBL. This test cannot reproduce the CB11 for the read 1operation, and then it does not cover the FP < 111r1/1/0 >. Another test able to detect both single and two-cell static faults is the March MSS, which has a complexity of 18N [6]: March MSS = { (w0); (r0, r0, w1, w1); (r1, r1, w0, w0); (r0, r0, w1, w1); (r1, r1, w0, w0); (r0) } ME0 ME1 ME2 ME3 ME4 ME5 Despite of reducing the complexity of March SS for the same fault coverage, March MSS has the same limitations concerning the coverage of FPs related to BL coupling. March m-mss has been proposed as a solution for covering all single-cell and two-cell static faults, also

20 taking into account the impact of CC BL during read operation [5]. It has been proposed to execute the march MSS six time. Each execution is done by applying a specific data backgrounds (DB), which leads to a time complexity of 108N. The high complexity of March m- MSS raises the need of optimized memory tests with lower complexities that detect the targeted faults and also consider the CC BL effects. 5.2 New optimized memory tests In this subsection we present two test solutions able to guarantee the detection of both single and two-cell static faults in presence of CC BL March Scan + MSS The first test solution resorts to the well-known March Scan (4N) [9] in combination with the March MSS for covering all targeted FFMs, when considering the impact of CC BL. This test solution consists of executing the March tests in two steps. First of all, March Scan is executed 6 times. Each execution applies one of the following data backgrounds [5]: 1. Solid-0 DB ( ) 2. Solid-1 DB ( ) 3. Double-column stripes DB ( ) 4. Double-column stripes DB ( ) 5. Shifted double-column DB ( ) 6. Shifted double-column DB ( ) March Scan = { (w0); (r0); (w1); (r1) } This first step ensures that all worst CBs are reproduced during the read operation. The complexity of the first step is therefore 4*6 = 24N. The second step involves executing one time the march MSS for covering all single-cell and two-cell static faults. The complexity of the second step is therefore 18N. The total time complexity of this test solution is the sum of the complexity of the two steps: 24+18= 42N, which corresponds to a significant reduction on the time complexity (about 60%) compared to the March m-mss (108N) of [5] Modified March MSS March MSS fails to cover the FP < 111r1/1/0 >, which is the same case that has been presented for March C-. Therefore, our approach for covering all targeted faults is based on the insertion of a new ME in March MSS. The new ME should be composed of a simple read 1 operation, with irrelevant address order, and may be inserted after any of the MEs that finish with a write 1 operation. The structure of the improved test becomes: March m-mss2 = { (w0); ME0 (r0, r0, w1, w1); ME1 (r1); ME2 (r1, r1, w0, w0); ME3 (r0, r0, w1, w1); ME4 (r1, r1, w0, w0); ME5 (r0) } ME6 The time complexity of this algorithm is 19N, which corresponds to a reduction of about 80% compared to the March m-mss (108N) of [5]. 6. Conclusions This paper has reviewed the impact of CC BL and neighborhood data on the faulty behavior of SRAMs. The impact of CC BL has been modeled by proposing a set of Fault Primitives. Then, for each FP the required coverage condition has been introduced. Thanks to the coverage conditions, two test solutions have been developed. The first test solution applies the test march Scan in combination with the March MSS, leading to a time complexity of 42N. The second, test solution is the modified march m-mss with a time complexity of 19N. Both test solutions present a significant time complexity reduction compared to March m-mss(108n). Références [1] International Technology Roadmap for Semiconductors (ITRS), 2007 edition. [2] A. Bosio, L. Dilillo, P. Girard, S. Pravossoudovitch et A. Virazel, Advanced Test Methods for SRAMs Effective Solutions for Dynamic Fault Detection in Nanoscale Technologies, ISBN: , published par Springer, New York, [3] Z. Al-Ars and S. Hamdioui. Evaluation of SRAM faulty behavior under bit line coupling, in Proc. of IEEE International Design and Test Workshop, [4] S. Irobi, Z. Al-Ars and S. Hamdioui. Bit line coupling memory tests for single-cell fails in SRAMs, in Proc. of IEEE VLSI Test Symposium, [5] S. Irobi, Z. Al-Ars and S. Hamdioui. Detecting memory faults in the presence of bit line coupling in SRAM devices, in Proc. of IEEE Internationl Test Conference, [6] G. Harutunyan, V. A. Vardanian and Y. Zorian. Minimal march tests fro unlinked static faults in random access memories, in Proc. of IEEE VLSI Test Symposium, 2005, pp [7] A.J. van de Goor and Z. Al-Ars, Functional memory faults: a formal notation and a taxonomy, in Proc. of IEEE VLSI Test Symposium, 2000, pp [8] S. Hamdioui, A.J. van der Goor, An experimental analysis of spot defects in SRAMs: realistic fault models and tests, in Proc. of Ninth Asian Test Symposium, 2000, pp [9] M.S. Abadir and J.K. Reghbati, Functional testing of semiconductor random access memories. ACM Computing Surveys, 1983, 15(3): [10] S. Hamdioui et al. March ss: a test for all static simple ram faults, in Proc. of IEEE MTDT, [11] Dilillo, L.; Girard, P.; Pravossoudovitch, S.; Virazel, A.; Hage- Hassan, M.B.;, "Data retention fault in SRAM memories: analysis and detection procedures," VLSI Test Symposium, Proceedings. 23rd IEEE, vol., no., pp , 1-5 May [12] Benso, A.; Bosio, A.; Di Carlo, S.; Di Natale, G.; Prinetto, P.;, "March AB, March AB1: new March tests for unlinked dynamic memory faults," Test Conference, Proceedings. ITC IEEE International, vol., no., pp.8 pp.-841, 8-8 Nov

21 Capteurs Numériques pour la Gestion de Variations sur Circuits Logiques Programmables Florent Bruguier, Pascal Benoit et Lionel Torres LIRMM, CNRS - Université de Montpellier rue Ada, Montpellier, France {prénom.nom@lirmm.fr} Résumé Les circuits numériques récents sont soumis à de nombreux types de variations (paramètres technologiques, tension, température...). Nous nous intéressons ici aux problèmes de variabilité dans les circuits logiques programmables. Nous proposons une méthode basée sur des capteurs numériques réalisés directement avec les blocs logiques du FPGA. Nous comparons deux structures de capteurs : un capteur à oscillateur en anneau et un capteur de temps de parcours. Le capteur à oscillateur en anneau permet une caractérisation grain fin des variations grâce à une petite structure reproductible (2 Slices). Bien que moins précis, le capteur de temps de parcours a une surface totale plus petite ainsi qu un temps de réponse largement inférieur au premier capteur. Dans nos expérimentations conduites sur des FPGA Spartan 3, le capteur à oscillateur en anneau est utilisé pour réaliser des cartographies internes du circuit (480 positions) ainsi que des comparaisons entre circuits. Nous concluons que les deux structures sont efficaces pour une caractérisation rapide des variations sur les FPGA. I. INTRODUCTION Les variations de paramètres sont devenues un problème majeur dans l industrie des semi-conducteurs [1]. Alors que les variations de procédé de fabrication influent sur les caractéristiques des transistors, des rails d alimentation et sur la température interne des circuits. Les performances des circuits intégrés dépendent aussi des variations environnementales et applicatives [2]. Pour illustrer ceci, la Figure 1 présente la fréquence maximale et la consommation statique d un lot de circuits réalisés à l aide d une technologie 180 nm [3]. On peut avoir jusqu à 30% de variation de fréquence maximale et la consommation statique peut varier de 1 à 20. FIGURE 1. Variations de consommation et de fréquence (source : Intel) Les réseaux de portes programmables (FPGA : Field- Programmable Gate Arrays) ne sont pas épargnés pas ses écarts de performances imprévisibles. Comme cela a été souligné dans [4], les FPGA sont soumis à la fois à des variations entre circuits d un même lot mais aussi à l intérieur même d un circuit. C est pourquoi il est nécessaire de mettre en place des solutions permettant de compenser ces variations. Grâce à la capacité de reprogrammation des FPGA, il est possible de placer la logique d un système à un emplacement spécifique et de transférer celle-ci ailleurs sur le circuit quand on le souhaite. Dans la littérature, des méthodes de modélisation [5] [6] ou de mesure [7] ont été proposées. Dans les deux cas, il est suggérer ensuite de contraindre et d adapter le design afin de prendre en compte les variations et d augmenter le rendement des circuits. Dans ce papier, nous allons étudier le problème de la caractérisation des variations sur FPGA. Afin de compenser les variations, nous proposons une méthode basée sur l utilisation de capteurs numériques. Ils seront utilisés lors de la conception. Cette étude est basée sur des capteurs numériques directement implémentés dans les blocs structurels du FPGA. Leur rôle est de mesurer les véritables performances du circuit intégré. Nous proposons dans ce papier de réaliser la comparaison de deux structures de capteurs digitaux, l analyse de leur précision et de leur coût en surface en vue de déterminer s ils pourraient être utilisés pour caractériser les variations sur tous les FPGA. Dans le cadre de cette étude, la totalité des expériences a été réalisée sur des FPGA Spartan-3 conçus par Xilinx. Cet article est organisé de la manière suivante. La partie suivante présente le contexte. Un état de l art de l analyse des variations sur FPGA ainsi que des méthodes de compensation est ensuite présenté. Le paragraphe III introduit un nouveau flot de compensation. Dans le paragraphe IV, deux capteurs numériques permettant de mesurer les variations de performances sont proposés. Enfin, dans le dernier paragraphe, les résultats sont présentés et examinés (protocole expérimental, coût en terme de surface, comparaison des performances à l intérieur d un même circuit et entre plusieurs circuits). II. CONTEXTE Pour les circuits spécifiques (ASIC : Application-Specific Integrated Circuit), de nombreux systèmes de mesure et de contrôle existent. Ces systèmes sont le plus souvent situés à proximité des zones critiques des circuits (modules sensibles

22 et chemins critiques). Les chemins critiques sont ceux dont le temps de parcours est très proche de la période de l horloge et dont les variations de délais entrainent des erreurs dans le circuit. Les circuits logiques programmables, quand à eux, disposent de structures logiques configurables qui sont dupliquées un grand nombre de fois. On peut grâce à cela programmer n importe quelle fonction logique à l intérieur de ces circuits. On ne peut prévoir à l avance ni l emplacement des blocs critiques du design ni leurs limites de fonctionnement. Les FPGA ne disposent donc d aucun dispositif intégré d évaluation précis des variations. FIGURE 2. Architecture d un circuit Spartan3 Xilinx (source : Xilinx) L étude réalisée dans ce papier est basée sur des FPGA Xilinx. Une représentation de ces circuits est proposée sur la Figure 2. Chaque FPGA est composé d entrées/sorties (IOB : Input/Output Block), de blocs programmables (CLB : Configurable Logic Block) et de blocs plus spécifiques : blocs RAM et multiplieurs. Les CLB sont les zones programmables du FPGA. Chaque CLB est constitué de 4 LUT (Look Up Table) et d une matrice de routage. Les LUT sont des blocs programmables utilisés pour réaliser la logique séquentielle et la logique combinatoire. Les matrices de routage permettent de router les LUT entre elles. III. TRAVAUX CONNEXES Quelques articles récents proposent des techniques pour caractériser et compenser les variations de performances des FPGA. Un premier type d approche est basé sur la modélisation. Trois papiers ont proposé une approché théorique du problème [5] [6] [8]. Elles sont toutes les trois vérifiées à l aide de modèles temporels. Dans le premier article, un algorithme de placement basé sur une Analyse Statistique Temporelle Statique (SSTA : Statistical Static Timing Analysis) multicycle est présentée [5]. En simulation, il est possible d augmenter le rendement de 68.51% en comparaison à une SSTA standard. Une seconde approche propose de prendre en compte les variations lors de la conception pour réduire l impact de ces variations sur les violations de délai [8]. Les variations de délai sont réduites grâce à l utilisation en priorité de fils de routage le plus court possible. D un autre côté, l auteur de [6] confronte différentes stratégies afin de compenser les variations de délai stochastiques à l intérieur d un même FPGA. La SSTA, la reconfiguration totale du FPGA et la relocalisation de sous-circuits à l intérieur d un même circuit sont comparées à une implémentation permettant l exécution du pire cas de propagation. Même si la SSTA permet une amélioration, ce sont les deux méthodes de reconfiguration qui permettent les améliorations les plus significatives. Cependant, dans ces papiers, seules des approchent théoriques et des résultats de simulation sont exposés. Un deuxième type d approche est basé sur la mesure de délais [7]. Dans ce papier, un oscillateur en anneau est placé dans le FPGA. La fréquence de chaque oscillateur est ensuite mesurée. Une cartographie du circuit est ainsi réalisée. Cependant, l étude proposée ici est incomplète. Elle propose de caractériser 8 briques de base (LUT : Look-Up Table) à la fois et l impact des variations externes au circuit n est pas considéré. Ces deux types d approches nous laissent à penser qu il est nécessaire de réaliser une caractérisation hors-ligne à l aide de capteurs numériques. IV. FLOT DE COMPENSATION Afin de contrer les problèmes de variabilité des FPGA, un flot de compensation est proposé. Dans celui-ci, les ressources digitales du FPGA (LUT et interconnexions) sont utilisées pour réaliser des capteurs matériels. Une méthode de compensation au moment du design est proposée. Elle est divisée en deux parties générales : la caractérisation du FPGA et le placement stratégique des différentes composantes de notre système. Afin de réaliser une évaluation efficace des performances, une grille de capteurs couvrant la totalité de la surface du FPGA est utilisée (Fig.3(a)). Les données issues des capteurs sont collectées et analysées afin de construire une carte des performances du FPGA (Fig.3(b)). Une fois cette étape accomplie, un placement stratégique des différents blocs du système est effectué en prenant en compte à la fois le système et les éléments de la boucle de contrôle de performances (Fig.3(c)). Typiquement, on placera les modules les plus critiques sur les emplacements proposant les meilleures performances. Un ensemble de capteurs est aussi mise en œuvre au sein du système afin de suivre l évolution de ses performances au cours de son utilisation. La stratégie de placement des capteurs tient compte des besoins des blocs du système aussi bien que des résultats de la cartographie hors ligne. V. CAPTEURS MATÉRIELS NUMÉRIQUES POUR FPGA L objectif du flot de compensation décrit précédemment est d adapter le système en fonction des performances réelles de la technologie FPGA utilisée. Pour cela, nous allons maintenant examiner comment mesurer de manière locale et globale les performances. L idée développée dans cet article est d utiliser des capteurs matériels numériques conçus avec les ressources

23 où F est la fréquence de l oscillateur, nb_transitions est le résultat issu du compteur, f est la fréquence de l horloge principale et p est le nombre de périodes pendant lequel le capteur est actif. Hard Macro 14 Counter Enable Clock Flip-Flop Enable Driving Reset F IGURE 4. Ring Oscillator Afin de pouvoir se servir de ce capteur pour la caractérisation du FPGA, un oscillateur composé de trois inverseurs a été réalisé. Avec cette configuration, le centre du capteur (oscillateur + première bascule) prend seulement 4 LUT. Il est donc possible de caractériser séparément chaque CLB d un FPGA. Une description bas niveau a été réalisée afin que la structure du capteur soit exactement la même quelque soit l emplacement dans lequel on souhaite le placer. F IGURE 3. Flot de compensation des variations internes des FPGA : la logique configurable et les interconnexions programmables. Dans cette partie, nous présentons le principe et la mise en œuvre de deux structures : un capteur basé sur un oscillateur en anneau et un autre basé sur le temps de parcours d un chemin de logique. A. Capteur à Oscillateur en Anneau Le capteur à Oscillateur en anneau (ROS : Ring Oscillator Sensor) est basé sur la mesure de la fréquence de l oscillateur. Dans [9], l auteur présente un capteur de mesure de la température interne du FPGA. La fréquence de l oscillateur est mesurée et convertie en température. Cependant, l oscillateur proposé est réalisé dans une technologie mature dans laquelle les variations de procédé de fabrication sont très faibles. Une version actualisée de ce capteur est proposé ici. Sa structure est décrite dans la Figure 4. La partie principale de ce capteur est constituée d une chaine de 2p + 1 inverseurs. L oscillateur aura une fréquence d oscillation directement dépendante des performances réelles du FPGA. Le premier étage de logique permet de faire fonctionner l oscillateur pendant un nombre fixé de périodes de l horloge principale. La bascule à la sortie de la chaine d inverseur est utilisée en diviseur de fréquence et permet de filtrer les perturbations provenant de l oscillateur. L étage final compte le nombre de transitions et transmet le résultat du comptage. Ensuite, ce résultat est utilisé pour calculer la fréquence de l oscillateur comme suit : F = nb_transitions f p (1) B. Capteur de temps de parcours Dans les circuits intégrés spécifiques, on utilise des capteurs pour les chemins critiques (CPM : Critical Path Monitor) afin d estimer la vitesse d un procédé de fabrication. A. Drake présente un état de l art de ces structures [10]. Il existe de nombreuses techniques pour gérer les chemins critiques mais très peu sont utilisées sur les FPGA. Le capteur de temps de parcours (PDS : Path Delay Sensor) proposé ici est directement inspiré par les CPM. La structure de ce capteur est décrite sur la Figure 5. L idée du capteur de temps de parcours est d adapter le CPM au FPGA. De plus, la régularité des structures des FPGA permet de créer plus facilement un réplica de chemin critique sur un FPGA que sur un ASIC. Le PDS est composé de n LUT et de n bascules (FF : flipflops). Les LUT sont chainées ensemble et une bascule est câblée à la sortie de chacune des LUT. Un signal d horloge est appliqué à l entrée de la chaîne et propagé à travers les LUT. A chaque front montant d horloge, un code thermomètre composé de n-bits est disponible à la sortie des FF. Le code thermomètre est représentatif des performances des LUT et des interconnexions. Hard Macro Out 0 D SET CLR Q Q Out 1 D SET CLR Out 30 D Q Q SET CLR Q Q Out 31 D SET CLR Q Q Clock Enable F IGURE 5. Path delay Par exemple, supposons que le capteur fonctionne et que le code soit stocké. Ce code ressemblera à :

24 Il sera ensuite analysé. La position N z du dernier 0 est identifiée. Deux analyses différentes sont alors possibles : Une rapide où l on compare directement N z à la taille du chemin critique. Une plus lente où le temps T nécessaire à la traversée d une LUT et des interconnexions associées est approximée de la manière suivante : Nz + 2 (2) T = f où f est la fréquence du signal d horloge appliqué au capteur et N z +2 représente le nombre de LUT auquel on ajoute un pour la traversée de la FF d échantillonnage. Le temps T mesuré ici permet une estimation rapide de la fréquence maximale du chemin critique. Afin d obtenir une information pertinente, la taille du capteur doit prendre en compte la famille de FPGA sur laquelle le capteur est implanté. Par exemple, sur un Spartan-3, ce capteur est composé de 32 étages. Il permet de propager une période complète du signal d horloge de référence pour ce type de circuit (50M Hz). VI. R ÉSULTATS EXPÉRIMENTAUX L oscillateur en anneau et le capteur de temps de parcours décrits dans le paragraphe précédent sont étudiés et comparés ici. Ils sont tous les deux implémentés sur un kit de développement comportant un FPGA Xilinx Spartan 3 (Fig.6(b)). Le FPGA utilisé a un point de fonctionnement nominal de 25 C. Afin d assurer la reproductibilité des résultats, la température est gardée constante grâce à une étuve pendant la durée des mesures (Fig. 6(a)). Dans un premier temps, nous analyserons les ressources nécessaires à l utilisation des deux structures. Ensuite, nous présenterons une étude de variations à l intérieur de circuits et entre différents circuits. (a) Dispositif Expérimental à l intérieur de la chambre thermique F IGURE 6. (b) Carte Spartan3 Dispositif expérimental A. Comparaison Générale Dans cette partie, une comparaison générale des deux capteurs est proposée (Table. I). Pour chaque capteur, la surface utilisée et le temps de calcul sont présentés. Commençons par comparer le surface des sondes des capteurs. Une sonde plus petite permet de caractériser une plus petite surface pendant la phase hors-ligne. La taille totale du capteur correspond à la place qu il prendra dans le FPGA. Cette valeur est à comparer à la place totale disponible dans le FPGA. En effet, la place utilisée pour les capteurs n est plus disponible pour le système à contrôler. Le capteur de temps de parcours est le meilleur dans ce cas là. Le temps de traitement représente le nombre de cycles d horloge nécessaires entre deux mesures successives. Tandis que le ROS nécessite 2046 cycles, le PDS permet une mise à jour beaucoup plus rapide des performances mesurées. Cependant, cet avantage potentiel est à mettre en relation avec les capacités de traitement de l unité de compensation. TABLE I C OMPARAISON G ÉNÉRALE ROS PDS Surface de la sonde (# Slices) Surface totale (# Slices) Latence du capteur (# Cycles) Il est possible de tirer avantage des deux types de capteur dans différents contextes. Le capteur à oscillateur en anneau sera préféré pour une caractérisation hors-ligne et un management précis des performances. Le capteur de temps de parcours sera utilisé pour une gestion de rapide et directe des chemins critiques du système. Dans la section suivante, les premiers résultats expérimentaux sont présentés. Notre objectif est de vérifier la capacité du capteur à oscillateur en anneau à détecter les variations lors de la phase hors-ligne. B. Mesure de variations à l aide du ROS 1) Variations internes: Le capteur à oscillateur en anneau a été utilisé pour réaliser une cartographie complète d un circuit Spartan-3 S200. Au cours des mesures, la température externe du circuit est gardée constante à 25 C. Ce capteur est positionné successivement sur tous les CLB à savoir sur un tableau de 20 * 24 positions. Chaque mesure produite par le capteur est envoyée à un ordinateur externe à l aide d un UART (Universal Asynchronous Receiver Transmitter). Celui-ci réalisera alors la cartographie du FPGA (Fig. 8). Les fréquences représentées ici correspondent à la fréquence moyenne mesurée à la sortie du capteur. Cela prend environ 1 heure pour une cartographie complète avec une moyenne de 500 mesures pour chaque position. Les Figures 7 et 8 représentent le résultat d une cartographie et la distribution de fréquences qui en résulte. On peut remarquer que l on a une variation maximale de performances qui est de l ordre de 12% soit 23MHz pour une fréquence moyenne de 193MHz. 2) Variations inter-cartes: Une étude similaire a été réalisée sur plusieurs cartes. Les résultats de ces simulations sont exposés dans le tableau II. On remarque qu en plus d avoir des variations importantes à l intérieur d une même carte, les disparités entre les cartes sont encore plus significatives.

25 FIGURE 7. Cartographie à T = 25 C pour le circuit n 1 La gestion des variations est un des problèmes majeurs dans les technologies récentes. Comme précédemment mentionné dans la littérature, les circuits FPGA sont sujets à des variations de procédé de fabrication, de tension d alimentation et de température. Dans ce papier, nous avons considéré un flot de compensation en deux étapes. Il est basé sur l utilisation de capteurs numériques directement mis en œuvre avec des ressources reconfigurables. Cet article propose une comparaison entre deux capteurs. Des résultats de caractérisation avec le capteur en oscillateur en anneau sont présentés. Les deux structures exposées sont efficaces pour une caractérisation rapide des variations sur FPGA. Le capteur à oscillateur en anneau est la meilleure structure pour une caractérisation lors du design tandis que le capteur de temps de parcours sera préféré pour une estimation rapide des performances au cours de l exécution avec un coût en surface minimal. Dans nos travaux futurs, les deux capteurs seront étudiés afin de réaliser des mesures au moment de l exécution. Nous nous focaliserons plus particulièrement sur les stratégies d utilisation des capteurs (nombre, place) et sur la collecte des informations afin d adapter le système. FIGURE 8. Distribution des fréquences pour le circuit n 1 TABLE II COMPARAISON DES RÉSULTATS DE CARTOGRAPHIES DE PLUSIEURS CARTES Carte Fréquence moy. (MHz) Variation max. (MHz) Variation max. (%) Ces variations sont relativement importantes et nous confortent dans l idée qu il est nécessaire de réaliser une caractérisation grain-fin dans une première phase de caractérisation hors-ligne et que le capteur à oscillateur en anneau est idéal pour cette tâche. VII. CONCLUSION ET TRAVAUX FUTURS RÉFÉRENCES [1] International Technology Roadmap for Semiconductors, [Online]. Available : http :// [2] O. Unsal, J. Tschanz, K. Bowman, V. De, X. Vera, A. Gonzalez, and O. Ergin, Impact of Parameter Variations on Circuits and Microarchitecture, IEEE Micro, vol. 26, no. 6, pp , [Online]. Available : http ://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber= [3] S. Borkar, T. Karnik, S. Narendra, J. Tschanz, A. Keshavarzi, and V. De, Parameter variations and impact on circuits and microarchitecture, Design Automation Conference, Proceedings, pp [Online]. Available : http ://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber= [4] P. Sedcole and P. Y. K. Cheung, Parametric yield in FPGAs due to within-die delay variations : a quantitative analysis, International Symposium on Field Programmable Gate Arrays, [Online]. Available : http ://portal.acm.org/citation.cfm?id= [5] G. Lucas, C. Dong, and D. Chen, Variation-aware placement for FPGAs with multi-cycle statistical timing analysis. in FPGA, P. Y. K. Cheung and J. Wawrzynek, Eds. ACM, 2010, pp [Online]. Available : http ://dblp.uni-trier.de/db/conf/fpga/fpga2010.html#lucasdc10 [6] P. Sedcole and P. Y. K. Cheung, Parametric Yield Modeling and Simulations of FPGA Circuits Considering Within-Die Delay Variations, ACM Transactions on Reconfigurable Technology and Systems (TRETS), vol. 1, no. 2, [Online]. Available : http ://portal.acm.org/citation.cfm?id= [7] P. Sedcole and P. K. Y. Cheung, Within-die delay variability in 90nm FPGAs and beyond, in IEEE International Conference on Field Programmable Technology. IEEE, 2006, pp [Online]. Available : http ://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber= [8] A. Kumar and M. Anis, FPGA Design for Timing Yield Under Process Variations, IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 18, no. 3, pp , [Online]. Available : http ://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber= [9] S. Lopez-Buedo, J. Garrido, and E. Boemo, Dynamically inserting, operating, and eliminating thermal sensors of FPGA-based systems, IEEE Transactions on Components and Packaging Technologies, vol. 25, no. 4, pp , [Online]. Available : http ://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber= [10] A. Drake, Adaptive Techniques for Dynamic Processor Optimization, ser. Series on Integrated Circuits and Systems. Boston, MA : Springer US, [Online]. Available : http ://

26 CMOS image sensor high level simulation Zhenfu FENG, David Navarro, Ian O Connor Université de Lyon Institut des Nanotechnologies de Lyon (INL) UMR 5270 CNRS Ecole Centrale de Lyon 36 avenue Guy de Collongue ECULLY CEDEX {zhenfu.feng, david.navarro, ian.o connor}@ec-lyon.fr Abstract This paper presents a new method of simulating image sensor matrix in Cadence Analog Design Environment. We design this global simulator as a tool which can be added in Cadence like the default tools. It can help the image sensor designers to improve their work efficiency and know theirs sensor s performance immediately. Especially, the impacts of transistor s parameters and the pixel model can be reflected directly by the output result. Here we use a bmp picture of 512x512 pixels as the light input signal, taking PD 3T-APS as the default image sensor pixel model, every pixel in the picture will be read in and converted into light intensity which is applied in photodiode or the photocurrent which is used in current source. The simulation result will be stored and regenerated into a picture for comparing with the original (input) one. 1. Introduction The digital camera has become more and more popular, and is becoming a necessary part of electronic portable device, especially in mobile phone and portable computer. Obviously, the 3G network has come to our life, with the help of high transmitting speed and bandwidth, people begin a pursuit of high quality image while they talking with others through the mobile phone or a webcam. The image sensor is the most important component of a digital camera, and should be paid more attention. In general, according to the technology, it could be divided into two classes, the CCD and CMOS image sensor. CCD (Charge-Coupled Device) has been developed for a long time and it meets the market very early, so some old cameras all take the CCD as the image sensor. And now the CCD dominates high quality image sensor market. The CMOS (Complementary Metal Oxide Semiconductor) image sensor has demonstrated noise, quantum efficiency, and dynamic range performance comparable to CCD s with greatly increased functionality and much lower system power [1]. And these years, designers have focused theirs attention on the sensor characteristics, intending to design new image sensor pixel structure for special application. But they all design and simulate the image sensor at the transistor level, such as a transient simulation of 3T-APS, the whole process is very unintelligible from the input to the output, from the beginning to the end. So the designers all spent too much time in finding out the how the design variable or pixel structure affect the sensor s performance. Nowadays, the modern design method is developing towards to the system-level, multi-domain, high-intelligence, and is becoming more and more complicated. As we know, the Soc and heterogeneous system is becoming more and more popular and necessary, owing to the vary models such as electrical, optical, mechanical models etc, have been built in the same system. Undoubtedly, this will be a great challenge to the modern EDA tools and computer simulation science. Specifically, the image sensor as an essential medium between light and electronic field, it should be paid more attention. During the image sensor design period, a very important and time-consuming work is computer simulation. Unfortunately, the simulation makes designers so bored and tired leading to lower the work efficiency. Researchers have paid less attention on the imager simulation method. Although a VHDL imager model has been developed and it can accept an image as the input signal, this method is too complicated [5]. Some external tools were needed to work together, and there is a limitation of imager pixel matrix size. The traditional method for image sensor simulation has some limitations. It can be listed as follows: 1. Light input power can t be added to pixel model automatically. Indeed, designers need to add a random value to the pixel model one by one manually for trying the different cases. Although we can use parametric sweep simulation in Cadence ADE, we can t make sure that these values are all available in reality. So it is still rather inconvenient and unreliable. 2. The traditional simulator for electronic circuits are all based on spice model, following the KCL (Kirchhoff s current law) and KVL (Kirchhoff s voltage law), and running at transistor level. This method calculate the simulation result by solving mathematical equations especially in integral and differential equation by applying iterative arithmetic. The simulator will simulate and calculate every transistor in your schematic although some transistors don t work at all in that

27 special time you set. In this way, it will lose much time. 3. Most of pixel level simulation gains the output signal in scalar, such as voltage 1.2V or a curve. This result is difficult to interpret, and designer needs to spend much time on understanding the result. More important is that we can t know whether this result represents the input well or not. We can t make sure this pixel structure is good enough for developing new product either. For these limitations and disadvantages above, we have developed a new method for simulating an image sensor of 512x512 pixels. We use the user defined picture I/O interface to read in the input signal (BMP image). This method can make image sensor pixel matrix simulation easier and without losing accuracy. The rest of the brief is organized as follows. In section 2, we briefly describe the image sensor structure, especially the CMOS 3T-APS. In section 3, we simulate a 3T-APS pixel based on 0.35um CMOS process, using the Cadence with the simulator Spectre. In section 4, we mainly talk about the global simulator which we have designed, some advantages have been pointed out, and there are also some limitations need to be improved. 2. Image sensor structure The image sensor has been developed more than 40 years, CCD and CMOS image sensor are the two classes, the CCD (charge-coupled device) is famous for its high fill factor (FF) and high sensitivity, is mainly used to obtain high quality image, such as used in astronomy measurement. The CMOS image sensor is widely used in daily life, such as a portable camera and a webcam. The CMOS image sensor succeeds in its lower power consumption, on-chip functionality and lower cost. The mainly comparison is shown in the following table1 [2]. CCD CMOS Lower noise Low power consumption Smaller pixel size Single power supply Lower dark current High integration capability 100% Fill Factor Lower cost Higher sensitivity Single master clock Electronic shutter Random access without artifacts Table 1. Summary of main advantages of CCD and CMOS image sensors Since 1990, many image sensor designers have moved their attention onto the CMOS image sensor, because it can be fabricated by the standard CMOS process, and even the very large image sensor is easy to be produced. Additional, the power supply, the signal process circuit and timing control circuit can be designed together on the same chip with the image sensor. This makes it possible to produce the camera on a chip. Designers have designed passive pixels (PPS) shown in Fig 1, which based on photodiode without internal amplifier, in spite of small pixel size capability and a large fill factor, they suffer from low sensitivity and high noise due to the large column s capacitance with respect to the pixel s capacitance. Another type is active pixels (APS) shown in Fig 2, which implement a source-follower per pixel. It is well known that the insertion of a buffer/amplifier into the pixel improves the performance of the pixel. Power dissipation is minimal and, generally, less than CCD s, because each amplifier is only activated during readout [2]. However, it must be noted APS technology has its disadvantage: high level of fixed pattern noise (FPN), fortunately the Correlated Double Sampling (CDS) circuit has been used to solve this problem. Some new APS architectures have been designed such as PD (photodiode) type APS pixel, PG (photo gate) type APS, logarithmic APS pixel, CTIA APS pixel, logarithmic pixel, pinned photodiode (PPD) APS pixel, TFA (thin film on ASIC) APS and so on. We can know that designers have paid theirs attention on the APS pixel structure, and do a simulation on pixel level, so in order to improve the efficiency and display the image sensor characters directly; we have begun to design a global simulator for the image sensor designing. Fig 1, PPS structure, the charge will be shared when the TX is open Fig 2, APS structure, the photodiode potential is buffered by the follower 3. Image sensor signal process As shown in Fig 2, we can know that the M1 works as a reset transistor, which was controlled by the reset pulse, the photodiode was inverse biased when the M1 s Gate was forced to high. And then, during the charging time the capacitance in photodiode was charged to the maximum very fast, just cost less than 1 μ s and this high voltage will last several μ s, then the capacitance begin to discharge when the M1 Gate is forced to low by the reset pulse. Owing to this discharging time is quite short, so we can think the discharging current as a constant during this discharging period. In fact, it isn t a constant

28 value because the capacitance will change when the voltage of photodiode drop down, but in ordinary application, thinking discharge current as a constant is acceptable. M2 was operated as a source follower in order to catch the signal change in the photodiode cathode. The performance of the pixel was improved by inserting this buffer M2. It can also reduce the power consumption because it won t work until the row read signal is arrived. M3 is a switch, and the signal was passed to the bus line through M3 when it is opened. The capacitance shared among the pixels in the same column will be sampled by the CDS (Correlated Double Sampling) circuit, which has traditionally been used to remove the amplifier offset and attenuate the 1/f noise, can be extended to cancel the KT/c noise and the switch charge injection due to switching operation. Image sensor signal pixel process is shown in Fig 3. Fig 3, Tc is charging time, Td is discharging time,v 0 is Vout of the pixel based on the CMOS 0.35-um process For the whole chip, the signal is read out row by row, when the sensor received the row read signal, the switches are opened for transmitting the signal to the bus line, and then the signal on the bus line will be sampled by the CDS circuit and be stored in camera memory. The row read signal move to next row to read the other rows one by one. The Fig 4 is a brief of image sensor matrix and read out circuit [2]. Fig 4, image sensor matrix and signal process circuit 4. Image sensor global simulator When the designer has developed a new pixel structure, they all simulate it and test the performance in a single pixel. The simulation will run under the transistor level, and the result will be plot as a curve. It s difficult to understand this curve and some other output figures, especially the input signal and output signal can t be compared directly. So we have begun to design a new method for image sensor simulation. It s for making this simulation easier to be interpreted. We use a graphic I/O interface which is defined by us in skill language under the Cadence Environment. We change the input and output signal format so that the designer can understand theirs work easily. This new method is designed for simulating image sensor. We have simulated several different size image sensor matrixes on our server whose CPU frequency is 2.66 GHz, memory is 4.0G, for testing we used matrix of 3x3 pixels, 5x5 pixels, 9x9 pixels and so on, but the process showed that the traditional method is very inconvenient, we need to draw the schematic manually, 9x9 matrix is not difficult but when we need to draw a 100x100 matrix, we found the traditional method is not competent for this. So the traditional method must be improved to accommodate sensor matrix simulation. So for the big size matrix simulation, a more efficient way is required urgently, it will work not only for simulating the matrix but also for evaluating the image sensor performance. We are designing this global simulator in order that the designers can check their work and modify the sensor structure to improve the sensor s performance easily. This simulator can also compare directly the difference among the pixel varies structures, user can develop a new pixel structure, and then use our simulator to do simulation, in this way, the user can know their circuit work well or not very exactly and fast. Owing to this simulator will generate another image from the simulation output result. By comparing the output picture with the original one, we can know which pixel structure and transistor parameter is better. In this simulator, we can choose a BMP, PGM image file as the input signal, and then it will be read in and converted into light intensity or photocurrent matrix for photodiode or current source (photodiode can be replaced by current source parallel with a capacitance in some pixel model). In a BMP file, the RGB value can be read out directly, the first step, we extract every pixel RGB value and convert it into overall intensity at the wavelength 555 nm using the equation R* G* B* [4]. The second step, at the same time, we assume that the maximum luminance in room is 1000 lux which represents the light intensity 255, so we can get 1000/255 as a ratio, we can also know every pixel size in the input picture by calculating the width/horizon resolution or height/vertical resolution. For example, lena.bmp, its width equal to 512, horizon resolution and vertical resolution both equal to 96dpi, so we can get the pixel size equal to (0.0254*1/96)*(0.0254*1/96) (m 2 ), and then we used 1 lux equal w/m 2 to calculate the insight light power. This power can be used as an input signal of the photodiode model, by this way we can input an image into our sensor matrix. We built a form under the

29 Cadence Analog Environment, which will work with the built in tools. Designer uses it just like using built-in functions such as parametric Analysis in the tools bar in Cadence Analog Artist. It s very convenient and useful, Fig 6 describe in details how it works. First, when the designer has designed a new pixel structure, and give it the right bias voltage and control signal, this is the same as ordinary design work, user do not need to do extra work for using this simulator. Second, user can simulate this single pixel structure in Cadence Analog Design Environment (Analog Artist), as the same time some very important parameters in photodiode model can be extracted by Cadence simulator automatically, such as Responsibility and Cpd. Third, you can check your work and sensor character by using this simulator. To use it, you need to push the menu item Imager from the analog artist simulator window(ade), and then a form will turns up, in this form you can input an image path or use the browse button to local this image. See Fig 5. come from the sensor output. So the designer can see the result directly instead of getting confused by output curve. Fig 6, the global image sensor simulator framework Fig 5, read image form The file is checked before it will be read in, and this will make sure the file is an available one. When you push the readin button, the file will be read by getc function [3]. We read the file header for collecting the file format and file size, these information will be put in the input picture information field, and then the function will extract the RGB matrix value from the given image using different algorithms according to the image format, in fact the RGB matrix will be converted into light intensity matrix in order to provide the value to variable power which stands for the parameter P 0 in photodiode veriloga model. In the simulation field, user can simulate the sensor in two types, the first type run in single pixel model level, and the other run in matrix level, for using this function, user must input the output signal name in the vout field, such as Vout. That is for simulator seeking the select time scale and sample the Vout after the simulation. The select window generator name is necessary for this simulator, and it will be pointed out in the switch field such as V2. In traditional way, the designer will see the curve which represents the sensor character after simulations, it s very difficult to interpret and misunderstand. But now, this simulator saves the result not in scalar value but in image format, such as BMP, PGM. Here, we take the PGM as the raw format 5. Discussion and Conclusion This work is done in Cadence Environment using the skill language. We have done this for improving the work efficiency, especially for understanding the output. It s possible to read in a picture as the input signal by extracting the RGB value, and then we convert these values into power light intensity, which is a photodiode model parameter. For the output, we can get the original value from the sensor output port, and then save it as a PGM file, which is a raw format of camera. This global simulator is useful for image sensor simulation, especially for large image sensor pixels matrix, such as 512*512. In addition, this tool can help the designers and engineers who work on the image sensor interpret theirs circuits well and improve efficiency. Meanwhile, this new method has overcome the pixel matrix size limitation mentioned in paper [5], and the new method doesn t need any other external tools. It can work independently under the Cadence classic environment. This simulator has also his own limitations, such as the input picture format support only BMP and PGM at present, but the PNG and TIFF format will be supported in the later version. Some effects wasn t taken into consideration, such as the And in the current version, we don t consider too much about the time consumption, and now we are considering designing a high speed simulator based on this work. 6. Reference [1] E.R.Fossum, CMOS Image Sensor: Electronic Cameraon-A-chip, IEEE Transactions On Electronic Devices, Vol 44, N.10, [2] M.Bigas, Review of CMOS image sensors Microelectronics journal 37(2006) [3] SKILL Language User Interface Reference. [4] [5] D.Navarro, D.Ramat, VHDL & VHDL-AMS modeling and simulation of a CMOS imager IP Forum on specification and Design Language, September 2005, Lausanne, Switzerland.

30 Théorie et application de la compensation fréquentielle «multipath» aux amplificateurs opérationnels Pawel FIEDOROW Institut des Nanotechnologies de Lyon STMicroelectronics Grenoble 12, rue Paul Horowitz Grenoble Thierry Tixier, Nacer Abouchi, Institut des Nanotechnologies de Lyon CPE Lyon 43, bd du 11 novembre Villeurbanne pawel.fiedorow@cpe.fr Résumé La conception des circuits analogiques, plus particulièrement celle des amplificateurs opérationnels standards est confrontée aujourd hui à la diminution des tensions d alimentation et du budget courant alors que les spécificités du cahier des charges deviennent de plus en plus complexes. Ainsi, la réalisation de circuit fonctionnant en rail à rail en entrée et en sortie, avec des faibles tensions d offset et une grande bande passante est devenue un défit majeur. Outre les caractéristiques statiques des amplificateurs, la stabilité doit être assurée pour une charge capacitive et une charge résistive données. Dans les exigences liées à la fonction d amplificateur opérationnel, le gain de la fonction étant supérieur à la centaine de décibel, leurs structures analogiques possèdent au moins trois étages. La diminution des tensions d alimentations rend impossible l empilement de transistors pour créer du gain. Ainsi il faut stabiliser la structure par des méthodes de compensation fréquentielle telle que la technique «Multipath» qui est développée dans cet article. 1. Introduction La conception des circuits analogiques intégrés doit prendre en compte de nombreuses contraintes (faible tension d alimentation, faible consommation) en même temps que les performances visées ne cessent d être révisées à la hausse (gains statiques élevés). Les structures électroniques candidates présentent plusieurs étages de gain qu il est nécessaire de stabiliser [1]. En effet, les étages de gain présentent des nœuds hautes impédances qui vont être à l origine de pôles. Chaque pôle introduit un déphasage de -90 et une perte de gain de 20dB/décade. Par conséquent, les amplificateurs opérationnels réalisés avec plus de trois étages de gain seront instables. La stabilité, à l image des systèmes automatisés, s étudie en boucle ouverte. Les marges de phase et de gain permettent de quantifier la qualité du circuit à charge capacitive donnée. La compensation «Miller» destinée à la compensation d appareil de mesure [2] a été développé durant les dernières décennies [3][4] pour les amplificateurs à deux étages. C est une méthode qui permet de séparer (dans le domaine fréquentiel) les deux pôles liés aux deux étages de gain à l aide d une capacité de compensation. Le pôle dominant reste dans la bande passante de l amplificateur alors que le second pôle est rejeté en dehors de celle-ci [5]. Cependant, l introduction de la capacité de compensation implique la création d un zéro à partie réelle positive. Cela signifie un retournement de phase de +90 et une augmentation de 20dB/décade. Il faut donc compenser cet effet par un tampon ou une résistance. Cela montre que sur une structure à deux étages, la compensation fréquentielle doit être réglée de manière à obtenir un système correctement stabilisé. Par conséquent, les structures à trois étages sont plus complexes à étudier. De nombreuses solutions existent. [6] propose une approche de ces différentes méthodes de compensation fréquentielle. Elles sont aussi bien réalisées à partir d éléments passifs tels que des capacités et/ou résistances, mais également à partir d éléments actifs tels que des transistors polarisés en drain commun ou grille commune. Ces éléments se trouvent le plus souvent dans une boucle de rétroaction entre deux nœuds hautes impédances. Dans cet article, nous présentons une méthode de compensation différente et complémentaire à la compensation par rétroaction qui permet au signal d avoir deux chemins simultanés pour le signal entre l entrée et la sortie du circuit : le «Multipath». Ainsi dans la partie deux, nous aborderons le principe théorique de cette compensation fréquentielle. Nous présenterons dans la troisième partie la réalisation d un amplificateur opérationnel utilisant cette compensation. Chaque bloc fonctionnel sera explicité. Dans la quatrième partie, nous utiliserons le facteur de mérite pour comparer cette compensation fréquentielle par rapport à celles présentes dans la littérature. 2. Théorie de la compensation «Multipath» Le nom anglais utilisé pour qualifier cette compensation illustre la multiplicité des chemins possibles pour le signal depuis l entrée vers la sortie. Cependant, l intérêt de cette méthode réside dans l utilisation d une chaine principale à grand gain et d une chaine secondaire plus rapide. Pour assurer un bon fonctionnement au système, il est indispensable que la chaine principale et la chaine secondaire possèdent le même produit. Par conséquent, la chaine principale présente un gain plus élevé que la

31 Cc 1 chaine secondaire ce qui implique que la chaine secondaire présente une bande passante plus élevée que la chaine principale. Nous allons développer cette théorie sur un modèle dit comportemental. 2.1 Compensation «Nested Miller» (NMC) Le principe de la compensation «Miller» est repris par la NMC [7] dans une structure à trois étages illustrée Figure 1. Ve gm3 Cc2 Cp3 rp3 gm2 Cp2 rp2 gm1 CL Figure 1. Compensation Nested Miller A la manière de la compensation «Miller», les deux capacités C c1 et C c2 ont pour rôle de déplacer les trois pôles liés aux capacités intrinsèques de chaque étage : f p3 =1/(r p3.c p3 ), f p2 =1/(r p2.c p2 ) et f p1 =1/(r L.C L ). Cependant, l ajout des capacités de compensation implique la création de deux zéros de transmission. Le système est alors composé de trois pôles et deux zéros. Un outil de calcul formel permet, après écriture des lois aux nœuds, l obtention de la fonction de transfert simplifiée : Où A 0 =gm 3 rp 3 gm 2 rp 2 gm 1 r L est le gain statique de la chaine et p d =1/rp 3 gm 2 rp 2 gm 1 r L Cc 2 est le pôle dominant. En fonction de la taille des capacités de compensation choisies, les zéros sont soit rejetés en haute fréquence, soit restent proche de la fréquence de transition [6]. Dans ce dernier cas seulement, les zéros sont pris en considération dans l étude de la stabilité. Pour illustrer le déplacement des pôles, les gains du diagramme de Bode sont présentés sur les Figure 2 et Figure 3. Cc 1 p 2 ' p 2 p 3 Cc1 rl Vs Dans le cas présenté à la Figure 3, nous notons que les pôles p 3 et p 1 qui rendaient le système instable (déphasage de -90 chacun) sont rejetés au-delà de la fréquence de transition. Cependant, nous pouvons également constater sur la Figure 5 que la bande passante est réduite après l introduction des deux capacités de compensation. 2.2 Les compensations fréquentielles «multipath» Les compensations traditionnelles telles que la NMC, voient leur bande passante diminuer à chaque ajout de capacité de compensation. Dans l exemple précédent, nous avons une structure à trois étages, soit deux nœuds hautes impédances au sein du circuit. Deux capacités de compensation sont donc nécessaires. La bande passante initiale est donc réduite d un facteur quatre au profit de la stabilité. L idée consiste donc de stabiliser le système en diminuant le moins possible la bande passante initiale de l amplificateur. [8], [9] et [10] donnent un aperçu des différentes méthodes de compensation utilisant la propriété «multipath». Sans être exhaustif, les structures «multipath» les plus connues sont Multipath Nested Miller Compensation (MNMC), Multipath Nested gm Nested Miller Compensation (MNGNMC), Multipath Reversed Nested Miller Compensation (MRNMC), Multipath Hybrid Nested Miller Compensation (MHNMC). Après une étude (non détaillée ici) effectuée à l aide d outils de calcul formel et de calcul numérique, nous avons choisi d appliquer la MNMC. Sa représentation sous forme de schéma bloc se trouve décrite dans la figure 4. La transconductance, la résistance et la capacité au nœud sont représentées respectivement par gm i, rp i et cp i pour i=1, 2, 3. C L et R L sont les capacités et résistances de charge. Les capacités de compensation sont référencées par Cc 1 et Cc 2. La transconductance gm 4 constitue un second chemin dans la structure «multipath». Cc2 Cc1 Gain p 1 Fréquence p 1 ' Ve gm3 Cp3 rp3 gm2 Cp2 rp2 gm1 CL rl Vs gm4 Figure 2. NMC - Déplacement de pôles après l'ajout de Cc1 Gain p 2 " Cc 2 p 2 ' Cc 2 Fréquence Figure 3. NMC - Déplacement de pôles après l'ajout de Cc2 p 3 p 3 ' p 1 " p 1 ' Cc 2 Figure 4. MNMC Nous pouvons remarquer sur la figure 4 que les blocs de gain possèdent un signe. Effectivement, les amplificateurs opérationnels sont utilisés dans des structures de gain ou de buffer, ce qui entraine une contre-réaction du nœud de sortie sur une entrée de l amplificateur. La chaine interne est alors inverseuse. Nous pouvons constater que le bloc «multipath» ajouté possède le même signe que les blocs indicés 3 et 2. Peu importe le chemin, le signal sera donc en phase à l entrée du dernier bloc. Enfin, nous pouvons constater que le bloc «multipath» enveloppe les blocs indicés 3 et 2. Il

32 est également possible de le placer autour des blocs indicés 2 et 1 mais dans ce cas il doit être inverseur. De plus, d un point de vue intégration du circuit électronique, la conception de la gestion de l étage classe AB de l étage de sortie et la fonctionnalité rail à rail sont plus délicates dans ce dernier cas. Nous verrons plus en détail la description du circuit réalisé dans la partie trois. 2.3 Caractéristiques fréquentielles MNMC L outil de calcul formel permet de déterminer l équation de la fonction de transfert. Où A 0 et p d ont la même définition que pour H NMC. Nous pouvons remarquer dans cette équation qu il existe un moyen de contrôle supplémentaire qui est la transconductance gm 4. Une étude partielle faite dans [11] donne les relations nécessaires aux dimensionnements des capacités de compensation : De plus, une relation importante entre la chaine principale à grand gain et la chaine secondaire rapide donne lieu à une nouvelle égalité. Pour correctement compenser les effets pôles zéros, les deux systèmes, à trois étages et à deux étages, doivent avoir la même bande passante. Donc en étudiant séparément les deux parties, on obtient : Par conséquent, GBW 3 =GBW 2 implique : Ces trois équations permettent d arriver à un système rapidement fonctionnel avec de bonnes propriétés dynamiques. 2.4 Description du schéma électrique Le passage du schéma bloc comportemental à la conception du circuit doit répondre aux exigences du cahier des charges de l amplificateur opérationnel. Dans notre cas, l entrée et la sortie sont rail à rail. Cela signifie que le signal peut utiliser toute la plage de fonctionnement entre le rail d alimentation de tension maximale et le rail d alimentation de tension minimale. En sortie (figure 5), cela est rendu possible par l utilisation de transistors PMOS et NMOS polarisés en source commune. Ce sont donc des étages de gain, le gain global de la structure correspondant à la transconductance gm 1 (figure 4). Pour réaliser le contrôle de la structure de l étage de sortie (polarisation en classe AB), celle-ci intègre un étage Monticelli. [12] explique la mise en œuvre de cet étage de sortie dont le principe est fondé sur les boucles translinéaires, en l occurrence des boucles de Vgs car nous travaillons en technologie CMOS. En entrée, une paire différentielle PMOS assure le fonctionnement pour les tensions de mode commun proche du rail inférieur et une paire différentielle NMOS assure le fonctionnement pour les tensions de mode commun proche du rail supérieur. Le concepteur décide quelle paire va conduire la majorité du temps. Notre architecture possède de plus un système de régulation entre les deux paires qui assure une stabilité de la transconductance globale du premier étage. Cette dernière correspond à la transconductance gm3 du modèle comportemental. Par ailleurs, l entrée de la transconductance gm4 est également connectée à l entrée du circuit sur la figure 4. Cela signifie que le schéma électrique possède en double les paires différentielles afin de fonctionner en rail à rail. Il y a donc en tout deux paires différentielles PMOS et deux paires différentielles NMOS. L étage intermédiaire est dans notre cas un transistor polarisé dans un étage de gain de type source commune. Sa charge active, au même titre que les paires différentielles d entrées, est une structure de cascode repliée. Elle permet d avoir une forte impédance à chaque sortie d un bloc de gain et de relever le niveau tension. Vbias Paires différentielles NMOS principal Vbias Paires différentielles NMOS secondaire Vbias Vplus Vmoins Contrôle de la transconductance contstante Contrôle de la transconductance contstante Transistor en source commune Polarisation du transistor source commune Contrôle classe AB Monticelli Cc1 Cc1 Vs Vbias Paires différentielles PMOS principal Vbias Paires différentielles PMOS secondaire Vbias Cc2 Gm3 Gm4 Gm2 Gm1 Figure 5. Circuit utilisant le "Multipath"

33 Enfin, nous avons les capacités de compensation Cc1 et Cc2 qui sont représentées sur la figure 5. La capacité Cc1 de la modélisation comportementale est intégrée sous forme de deux capacités. Les deux capacités ont la même valeur et cette valeur est égale à la capacité Cc1. 3. Résultats de simulation Afin d illustrer le fonctionnement de la compensation «Multipath», le diagramme de Bode de la figure 6 met en évidence le fonctionnement des deux chaines seules puis le résultat final. La courbe bleue, celle dont le gain basse fréquence est le plus faible, constitue la chaine qualifiée de secondaire. Effectivement, le passage de la phase au delà des 180 se produit à une fréquence plus élevée que pour la courbe orange qui est la chaine à 3 étages. Finalement, la courbe verte, qui chevauche à la fois la courbe bleue et la courbe orange, prend le meilleur des deux courbes pour conserver une bande passante intéressante après l ajout des deux capacités de compensation. De plus, par extraction, nous obtenons une fréquence unitaire de 162kHz pour la courbe orange, ce qui correspond à un amplificateur standard à trois étages compensé avec la méthodologie «Nested Miller». Nous obtenons également une fréquence unitaire de 370kHz avec l amplificateur complet tel que présenté dans cet article. Le gain de 2 au niveau de la fréquence unitaire est donc justement illustré. Références [1] Huijsing, J., Hogervorst, R. & de Langen, K.-J., Lowpower low-voltage VLSI operational amplifier cells, Circuits and Systems I: Fundamental Theory and Applications, IEEE Transactions on, 1995, Vol. 42(11), pp [2] Miller, J.H., Frequency Compensation of A-C Instruments American Institute of Electrical Engineers, Transactions of the, 1951, 70, [3] Yang H. & Allstot D., Modified modeling of Miller compensation for two-stage operational amplifiers Circuits and Systems, 1991., IEEE International Sympoisum on, 1991, vol.5 [4] Blakiewicz, G. Frequency compensation for two-stage operational amplifiers with improved power supply rejection ratio characteristic, Circuits, Devices Systems, IET, 2010, 4, [5] Laker, K.R. & Sansen, W.M., Design of Analog Integrated Circuits and Systems, McGraw-Hill, Inc, [6] Leung, K.N. & Mok, P., Analysis of multistage amplifierfrequency compensation, Circuits and Systems I: Fundamental Theory and Applications, IEEE Transactions on, 2001, Vol. 48(9), pp [7] Leung, K.N. & Mok, P., Nested Miller compensation in low-power CMOS design, Circuits and Systems II: Analog and Digital Signal Processing, IEEE Transactions on, 2001, Vol. 48(4), pp [8] Eschauzier,Huising, «Frequency compensation Techniques for low-power operational amplifiers»,kluwer AcademicPublishers, Delft, 1995 [9] R. G. H. Eschauzier, L. P. T. Kerklaan, and J. H. Huijsing, A 100MHz 100dB operational amplifier with multipath nested Miller compensation structure, IEEE J. Solid-State Circuits, vol. 27, pp , Dec [10] Jingjing Hu, Johan H. Huijsing and Kofi A.A. Makinwa, «A Three-Stage Amplifier with Quenched Multipath Frequency Compensation for All Capacitive Loads» IEEE International Symposium on Circuits and Systems, pp , 2007 [11] Huijsing, J. H., Operational Amplifiers: Theory and design, Kluwer Academic Publishers, [12] Monticelli, D., A quad CMOS single-supply op amp with rail-to-rail output swing, Solid-State Circuits, IEEE Journal of, 1986, 21, Figure 6. Diagramme de Bode "Multipath" Le tracé de la figure 6 a pu être réalisé suite à la conception et au dimensionnent des transistors de l amplificateur opérationnel dans une technologie 0.25µm standard. Les courbes ont été tracées alternativement en débranchant les différents blocs du système complet. 4. Conclusion La compensation fréquentielle «Multipath» apparait comme une méthode efficace pour la stabilisation des amplificateurs opérationnels. Elle peut s appliquer à toutes les compensations fréquentielles classiques car c est la création d un nouveau chemin physique qui permet d obtenir une moindre réduction de la bande passante. Sa mise en œuvre est néanmoins plus délicate car elle doit prendre en compte les fonctionnalités déjà acquise dans la chaine principale. Des études complémentaires concernant le temps d établissement sont en cours.

34 Communication entre un satellite de type CubeSat et sa station sol en Ultra Large Bande Victor GASIA Université Montpellier 2 Laboratoire IES UMR 5214 CNRS Place Eugène Bataillon Montpellier Cedex 5 victor.gasia@ies.univ-montp2.fr Résumé La communication entre un petit satellite (masse < 30 kg) et sa station au sol est soumise à certaines contraintes : puissance limitée à bord du satellite, peu ou pas contrôlé en attitude, orbite basse. Ces contraintes sont rédhibitoires pour ce qui est de la communication. Cet article propose l'architecture d'une solution innovante d'un type de communication pour répondre aux différentes contraintes. L'objectif de cet article est de proposer une architecture de système de communication entre le satellite et la station sol. Pour cela, l'intégralité du médium de communication a été revue. Cela intègre le choix d'un mode de transmission (bande large ou bande étroite), le choix d'un type de modulation et un dispositif de mise en œuvre de ce système de télécommunication. 1. Introduction La communication entre un petit satellite (masse inférieure à 30 kg) et sa station au sol est soumise à des contraintes particulières. Le satellite, de petite taille, est donc souvent limité en puissance électrique nécessaire pour alimenter le dispositif de communication embarqué. De plus, ce satellite est souvent imparfaitement contrôlé en attitude : En effet, de par le manque de place à bord, les SCAO (Systèmes de Commande d'attitude et d'orbite) sont réduits au maximum [1]. Ce type de satellite est souvent placé en orbites basse, ce qui réduit la fenêtre de visibilité au niveau du sol. Enfin, détail qui a son importance, ce type de satellites peut être conçu dans le cadre de projets étudiants, la simplicité doit donc être le fil conducteur de leur réalisation. L'importance de la communication doit être néanmoins soulignée puisque recevoir des données émises du satellite vers les stations sols est l'aboutissement de toute mission. Cette liaison doit être performante. La communication sans fil entre un satellite et une station sol peut se faire de deux principales manières. La première solution est d'utiliser une onde électromagnétique. Le deuxième système est basé sur un système optique que nous écartons de par la complexité de mise en œuvre [3]. Le système choisi est donc de type électromagnétique. Nous proposons dans ce qui suit une réflexion sur les contraintes inhérentes à ce type de communication dans le cadre d'un projet de CubeSat puis l'architecture d'un système utilisant l'ultra large bande. Les caractéristiques de l'uwb seront définies. 2. Contraintes inhérentes au communications entre un CubeSat et sa station sol. 2.1 Particularités et définitions Un CubeSat est une catégorie particulière de petits satellites avec des caractéristiques spécifiées pour être compatible avec l'interface de lancement (la boite d'éjection appelée P-POD) et le lanceur. De part son faible coût, le CubeSat est devenu le format de référence pour les satellites étudiants [10], néanmoins, certaines contraintes doivent être respectées. Ainsi, un CubeSat doit être un cube de 1 litre avec 4 arêtes parallèles libérés de toute électronique (voir figure 1), peser exactement un kilogramme (avec un centre de gravité proche du centre géométrique) et avoir une consommation électrique d'au maximum 1 Watt. Ce CubeSat élémentaire peut être doublé ou triplé sur une dimension comme l'illustre la figure 1. figure 1 : Morphologie des CubeSat 2.2 Contraintes résultantes pour le système de communication Les trois contraintes énoncées ci dessus vont avoir une influence importante dans la réalisation d'un système de communication Contraintes de puissance De part la puissance maximale de 1W disponible pour faire fonctionner l'intégralité du satellite, nous

35 considérons une puissance disponible pour l'alimentation de la partie Radiocommunication de 800mW. Cette valeur est considérée par le fait que lors de l'établissement d'une communication avec la station sol, les autres activités du satellite doivent pouvoir être réduites au seuil de 200mW et laisser un maximum de puissance disponible à la partie radiocommunication Contraintes géométriques Les contraintes géométriques d'un CubeSat impose de laisser quatre arêtes (appelées rails) libres de tout élément fonctionnel, au moins pendant le lancement. Un système se déployant par dessus ces rails peut être envisagé par la suite (par exemple une antenne ou un réflecteur) dans la mesure où lors du lancement le système replié respecte le gabarit présenté en figure Contraintes de contrôle d'attitude La contrainte de contrôle d'attitude découle des deux précédentes. Le système de contrôle d'attitude d'orbite (SCAO) occupe intrinsèquement une place importante dans le satellite, de plus il doit être alimenté pour fonctionner (au moins la partie capteur et commande). L'existence d'un tel système influence aussi la communication. Avec un SCAO, une antenne directive pourra être utilisée, le SCAO effectuera l'orientation du satellite de telle sorte que l'antenne soit dirigée vers la station sol durant la télécommunication. A l'inverse, un satellite non contrôlé en attitude (la rotation du satellite sur lui même, le spin, n'est pas contrôlé, on parle de mode caillou) devra privilégier une antenne omnidirectionnelle et la moins directive possible. 3. l'ultra Wide Band 3.1 Présentation L'UWB est une technologie de radiocommunication basé sur des signaux émis sur une large bande de fréquence. Cette technologie est définie par la FCC (Fédéral Communication Commission) puis l'itu-r (Union Internationale des Télécommunications, section Radiocommunication) [8] comme ayant une largeur de bande d'au moins 20% de la fréquence centrale. Par comparaison, lors d'une transmission en bande étroite (telle que celle utilisé dans le satellite Robusta [11]), l'étalement est de 10-4 de la fréquence centrale [12]. En contrepartie d'un tel étalement spectral, dans le cas de l'uwb les niveaux de densité spectrale de puissance sont plus faibles qu'une transmission en bande étroite [8]. Ceci engendre un problème certain de puissance, nous y reviendrons plus tard (dans un prochain article?). Il existe deux types de transmission en ultra large bande : l'uwb impulsionnelle et l'ofdm (Orthogonal Frequency Division Multiplexing) UWB Impulsionnelle L'UWB impulsionnelle consiste à envoyer le signal sous forme d'impulsions temporelles de caractéristiques définie en terme de forme d'impulsion et de durée. Les formes d'impulsions sont soit de type impulsion gaussienne de la forme : 32 t Tc / τ w t = E p f τ 1 e avec Ep l'énergie de l'impulsion (en Joules) f une fonction de la largeur de l'impulsion tau et Tc l'offset de l'impulsion. Soit de type monocycle (dérivée de l'impulsion gaussienne) Soit de type polynomiale [5]. Quelle que soit la forme de l'impulsion, l'analyse fréquentielle de ce type de signal présente un étalement du spectre comme le présente les graphiques des figures 1 et 2. o 1 Transmission impulsionnelle o 2 Spectre correspondant Une donnée numérique est une chaine binaire de 0 et de 1 (qu'on appelle bit). Le codage de cette information consiste à attribuer un motif électromagnétique particulier pour représenter le 0 et le 1 logique. Par exemple on représente le 1 par une impulsion gaussienne et le 0 par une impulsion gaussienne de phase opposée (cf figure 1). Si l'on dispose de suffisamment de motifs, on peut procéder à un regroupement de bits pour coder l'information. Ainsi, avec 4 motifs électromagnétiques, on peut regrouper 2 bits (le couple 00 sera le premier motif, 01 un autre motif, 10 un troisième et 11 le dernier motif). Ce groupe de bits s'appelle un symbole (un symbole peut ne contenir qu'un bit). La modulation consiste à adapter le motif électromagnétique au médium de transmission. Dans le cas de l'uwb, Le motif doit être une impulsion temporelle [8] Par la transmission impulsionnelle, on trouve dans la littérature [5] trois types de modulation spécifiques à cette technologie de transmission. La modulation antipodale code les symboles par des formes d'impulsions différentes, la modulation «tout ou rien» code l'un des symboles par l'absence d'impulsion dans un slot temporel défini et la modulation par PPM (Pulse Position Modulation) identifie le symbole par la position de l'impulsion dans un slot temporel défini L'OFDM L'OFDM (Orthogonal Fréquency Division Multiplexing) consiste à répartir les données numériques sur plusieurs porteuses orthogonales. L'orthogonalité des porteuses permet à celles-ci de se chevaucher sans pour 2 Encombrement spectral d'une communication par OFDM sur 4 sous porteuses

36 autant s'interférer (voir figure 3). Pour cela, il faut qu'elle soient espacées de 1/T Hz. 4.1 Présentation de l'architecture matérielle En prenant une suite S k (n) lkjlj L'efficacité spectrale en est ainsi améliorée. 3.2 Intérêt de l'utilisation de l'ultra Large Bande pour établir la communications avec un petit satellite Dans le cadre de la communication entre un petit satellite et sa station sol, l'utilisation des techniques de l'uwb se justifie de part l'importance des débits binaires nécessaires : Les petits satellites étudiants sont envoyés sur des orbites basses allant de 400 km d'altitude à 1600 km (Low Earth Orbit ou LEO) induisant une période de révolution autour de la Terre comprise entre 1h et 2h [7]. L'éclairement d'un tel satellite au dessus d'un point donné de la Terre (point représentant la station sol) est de 15% de l'orbite. La possibilité de communiquer avec le satellite est alors comprise entre 10 et 20 minutes pour envoyer l'intégralité des télémesures effectuées sur toute la période. A un débit d'enregistrement de données de 4Mb/s correspondant à un canal vidéo standard, le satellite recueille 27Gbits de données qu'il doit transférer au sol le temps de la fenêtre de visibilité. Cela correspond à un débit brut (sans prendre en compte les codes de vérifications intrinsèques à la communication) d'environ 30 Mbits/s [7] soit après compression à 3/4, un débit binaire de 7,5Mbits/s. Actuellement les stations sol de petits satellite étudiants ne peuvent traiter guère plus de quelques centaines de kilo bits par seconde [9]. 4. Proposition d'une solution UWB Actuellement, sur le campus de l'université de Montpellier 2, nous disposons d'une station sol étudiante ne permettant de recevoir qu'une seule porteuse. Afin d'établir la compatibilité d'une solution de communication UWB avec cette station sol existante, on peut considérer chaque sous porteuses comme possédant un débit binaire de 100kb/s modulé en 16QAM (les stations sols usuelles pour satellites étudiants en bande étroite peuvent utiliser un même débit et une même modulation [9], la notre en est parfaitement compatible). La constellation de cette modulation présente 16 points, on peut donc coder : 2 (16) = 4 bits par symbole. Afin d'établir un étalement de spectre de 20% d'une fréquence centrale à 10,45GHz (bande X réservé au communication radioamateur par satellite), nous utilisons une bande de 2,09GHz. Soit pour une sous porteuse à 100 MHz, nous pouvons mettre vingt sous porteuses. Sur vingt sous porteuses orthogonales, le débit binaire brut est de : 20 x 4 x 100 = 8Mb/s. Afin d'établir les éléments de synchronisation, il est proposer de moduler les codes d'en tramage et de vérification sur une voie UWB impulsionnelle de même occupation spectrale (les débits binaires étant plus failes). L'architecture matérielle est structurée en deux émetteurs distincts UWB. Le premier effectue la modulation des données par OFDM permettant ainsi de les transférer vers la station sol. L'organigramme de la figure 3 présente la structure de cet émetteur. Les données effectuent un premier traitement afin de permettre l'encodage de celle-ci. A la sortie du module DSP, les données sont parallélisés sur autant de bits que 5. Conclusions Nous proposons ici une solution d'architecture pour mettre en place l'utilisation de l'ultra Large Bande dans les communications avec les petits satellites étudiants. Outre l'économie d'énergie réalisée par une puissance d'émission moins importante [5], les débits de communication sont beaucoup plus importants (les données sont envoyées en parallèles sur plusieurs sous porteuses en même temps).

37 Références [1] Arnon, S., Kopeika, N.S. «The performance limitations of free space optical communication satellite networks due to vibrations-analogs case» Nineteenth Convention ofelectrical and Electronics Engineers in Israel p , [2] V. Gasia, S. Jarrix and all, Ground Station for CubeSat, Design Evolution and Example, The 4S Symposium 31 may 4 june 2010 Funchal. [3] M. Antonini et all «Feasibility analysis of a HAP-LEO optical link for data relay purposes». IEEE, [4] On the robustness of ultra-wide bandwidth signals in dense multipath environments, M. Z. Win and R. A. Scholtz, IEEE Communications Letters, Vol. 2, No. 2, February 1998 [5]F. Boukour et all. Communication, localisation et détection d'obstacles par technologie radio Ultra Large Bande appliquée au transports., INRETS, [6] Y. Kunisawa et all. Satellite communications using Ultra Wideband Signals, KDI mars [7]V. Gasia, Etude de faisabilité en bande X de stations sol pour petits satellites, p. 2 CST. [8] Telecommunication, Chapter 1 - Federal Communications Commission, Part 15 - Radio Frequency Devices, Section , Edition et UIT-R 226/1 et UIT-R 227/1 [9] B. Klofas et all. «A survay of CubeSat communication systems» California Polytechnic State University, November p7 [10] Michael's list of CubeSat Satellite Missions [11] Robusta : [12] Ref-Union :

38 Logic cells and interconnect strategies for nanoscale reconfigurable computing fabrics K. Jabeur, I. O'Connor, D. Navarro, N. Yakymets Lyon Institute of Nanotechnology University of Lyon, Ecole Centrale de Lyon Ecully, France P.E. Gaillardon, M.H. Ben Jamaa, F. Clermidy CEA-LETI-MINATEC Grenoble, France Abstract 1 The back-gate terminal on double-gate ambipolar transistors can be used as a powerful vector to achieve fine-grain logic reconfigurability. This paper describes ways of exploiting this property to improve on standard cell logic techniques, and to build logic gates with tunable functionalities. Given the vastly reduced transistor count, conventional use of reconfigurable interconnect at the cell level would lead to large overhead, and new interconnect strategies are required. We explore two types of interconnect architectures (island-style and cell-matrix) and develop a mapping method to evaluate trade-offs between matrix occupation, cluster size and switch requirements. Keywords-nanotechnology; logic design; reconfigurable architectures I. INTRODUCTION Performance scaling beyond the endpoint of the CMOS roadmap is likely to be achieved through the use of emerging field effect devices (such as FinFETs, NWFETs, CNTFETs), where the bulk silicon channel may be replaced with silicon nanowires (or SiGe or GaAs) or carbon (nanotubes or graphene nanoribbons). The resulting level of integration density and potential lack of reliability requires physically regular structures to simplify the process flow, improve robustness to process variability and limit delays. Regular structures allow the design of regular fabrics (gates, memory, interconnect ). In this work, we show how double-gate ambipolar transistors can be used to build either regular dynamic-logic standard cells with maximal flexibility at the physical (layout) level, or fine-grain reconfigurable logic blocks which can realize any one of fourteen basic binary operation modes. The proposed structures achieve better integration density over CMOS equivalent gates due to a lower transistor count and improved overall dynamic logic gate delay. Such performance levels render conventional architectures inefficient some static interconnect can be introduced into the overall computing fabric to build a matrix- or island-based approach. This paper is organized as follows: we begin by presenting the technological hypotheses (section II). In section III, we propose a novel family of DG-CNTFET logic standard cells. This work was funded by the French National Research Agency under the program ANR-08-SEGI-012 "Nanograin". The reconfigurable logic cells are presented in section IV, while the architectural concerns are discussed in section V. II. TECHNOLOGICAL HYPOTHESES In this paper, we consider in-field programmable devices exhibiting controllable (double-gate) ambipolarity. While we consider the existing double gate CNT field effect transistors (DG-CNTFET) [1], the circuit techniques described in this paper are also valid using other devices with this property, such as double-gate transistors based on silicon nanowires [2]. In such devices, it is possible to control electrically the channel polarity to three states (N-type, P-type or off) with a polarity gate (PG). For carbon electronics, several techniques to manufacture such devices have been proposed, where ambipolar DG-CNTFETs can have one top- and one back-gate [1], or, by applying the self-alignment technique [3], two topgates [4]. Here, we consider the latter technique. We also suppose that the technology is based on aligned semiconducting CNT [5], with metal interconnect defined by CMOS-compatible lithography steps. A sample device cross-section is shown in fig. 1a with the layout drawn in fig. 1b. The gate G turns the device on or off, in the same way as the regular gate of a MOSFET, while the polarity gate PG controls the device polarity setting to N- or P- type with a positive (+V) or negative (-V) voltage, respectively. The device is in the off-state (whatever the voltage on gate G) if the polarity gate is set to 0V. The symbol for this in-field programmable CNTFET is shown in fig. 1c. Bulk Si SiO 2 HfO 2 CNT Si 3 N 4 Al Al 2 O 3 PG G CNT G CNT PG f f f Polarity Gate Control Gate CNT f G D/S D/S (a) (b) (c) PG Figure 1. DG-CNTFET device cross-section (a), top view (b), symbol (c) In all electrical simulations in this paper, we use the compact model presented in [6], written in Verilog-A and

39 extending a unipolar model to double-gate functionality to reflect the ambipolar characteristics of DG-CNTFETs. III. STANDARD LOGIC CELLS USING AMBIPOLARITY The logic cells described in this work are derived from dynamic-logic, i.e. based on the precharge and evaluation of a capacitive node. In the conventional approach, this leads to a transistor count of n+2 (where n represents the fan-in), rather than 2n in a functionally equivalent static-logic implementation. For standard logic functions, we can use the extra DG-CNTFET terminal (PG) to represent a free variable and further reduce complexity. The extra off-state allows the combination of the functionality of the evaluation transistor (dynamic-logic clock) with the function transistors, while the programmable polarity also allows us to eliminate input inversion circuitry. In this way, the designed cells achieve a transistor count of n+1. We devised three approaches to implement logic functions. The resulting structures [7] are defined with a double clocksignal (DCK, fig. 2a), with multiple clock-signals (MCK, fig. 2b) and with a single clock-signal (SCK, fig. 2c). In 1 In 2 In N PC +V function path (a) Out +V EV In 1 In 2 In N PC +V function path (b) Out +V EV+ EV- In 1 In 2 In N +V function path Figure 2. General logic cell structures: MCK (a) DCK (b) SCK (c) -V (c) Clk Out The DCK-cell (fig. 2a) is composed of a precharge transistor, a function path consisting of one or more DG- CNTFETs and incorporating the evaluation action, and supply rails (+V and ground). In this approach, the complementary function of any given initial function can be realized simply by inverting the supply voltages, or by flipping the layout if the cell connections are symmetrical for an axis parallel to the power lines. The pull-up network (or the pull-down network in the case of an inverted function) is driven not only by data inputs but also by evaluation signals on the back gates. DG- CNTFETs can be placed in series branches (for AND functions), parallel branches (for OR functions) or any combination of series and parallel branches, as with conventional CMOS. The evaluation clock signal is required to control the back-gate of at least one DG-CNTFET for each path from +V or ground to the output node. In operation, the output node is firstly discharged to zero when PC=+V and EV=0V. PC is subsequently set to 0V (such that the precharge transistor is in the off-state) and EV is set to +V (such that all the transistors in the function path are of N-type. Hence if we consider the function path as a multivariable Boolean function f (In 1, In 2,, In N ), the output can be written: Out = PC (EV f (In 1, In 2,, In N )) where we use the logical connective notation ( NOT, OR, AND). The function path transistors front gate inputs are non-complemented. In the case of complemented inputs, DG- CNTFETs can also be configured to P-type using the corresponding voltage on their back-gate (i.e. with EV={0,- V}). We used N-type devices in the pull-up network in order to keep EV={0,+V} compatible with the cell input and precharge voltages. The MCK-cell structure (fig. 2b) is similar to the DCK-cell structure, but here it is possible to use complementary evaluation signals for the back gate control. In this configuration, the EV+ signal dynamic is comprised between {0, +V} and the complementary signal EV- dynamic is comprised between {-V, 0}. This allows the function path to contain both N- and P-type switching behaviour during the evaluation phase and to achieve complex functions with fewer transistors. The SCK-cell structure (fig. 2c) uses only a single clock signal. In this approach, the function path is realized in a pulldown network rather than a pull-up network as in the previous structures. The clock signal is applied to the front gate for the P-type precharge transistor for a PC phase at Clk=0, and to the back gates in the function path for an evaluation through an N- type switching network during the EV phase at Clk=+V. The structure is inherently more suited to inverted functions (Inverter, NOR, NAND ) and does not suffer from any logic level degradation (such as that observed in the DCK- and MCK-gate structures) because a P-type transistor is used to precharge the output to +V, and N-type transistors are used to conditionally discharge the output to 0. In this way, we guarantee a better immunity to output signal degeneration and avoid any eventual use of supplementary level-restorer circuits. Further, the complementary function of any given initial function can be realized (as with the DCK-gate structure) by simply inverting the supply voltages. However, the output signal voltages will degenerate both for logic levels "1" (+VmV TN, where m represents the maximum number of N-type transistors in series in the function path) and "0" (+V TP ). Hence if we consider the function path as a multivariable Boolean function f (In 1, In 2,, In N ), the output can be written: Out = (Clk f (In 1, In 2,, In N )) Various performance metrics such as power consumption, transistor count and delay of the new family of standard cells were evaluated to highlight the characteristics of the new cell structures. We compared the proposed standard cells to their equivalent gates working with conventional CMOS-like dynamic logic (denoted CDL), with the same devices. Simulations were carried out with the same CNTFET transistor model and the same operating conditions. We used a clock frequency of 3GHz with equal rise and fall times (20ps) and capacitive load of 150aF. The supply voltage was 1V and clock and data inputs were full rail (i.e. +V=1V, -V=-1V). Cyclic simulations were carried out to establish mean power consumption and worst-case time delay over all data combinations. Tab. I shows the results of simulations in terms of average power and worst-case time delay simulations. All data was averaged for a range of logic function structures.

40 TABLE I. PERFORMANCE COMPARISON CDL DCK MCK SCK Average power (µw) Averageworst-case delay (ps) Transistor count n+2 n+1 n+1 n+1 We can see from these results that the xck-cell library achieves an overall improvement of 2x concerning the worstcase time delay, compared to the CDL structure family. This decrease is due to the absence of an evaluation transistor in the function path, reducing equivalent channel resistance and associated time constant with load capacitance accordingly. However, while using fewer transistors, the average power consumption increases slightly (10%). IV. FINE-GRAIN RECONFIGURABLE LOGIC CELLS The impact of the polarity gate on the transistor channel transport characteristics also enables the construction of dynamically reconfigurable logic cells, such as DRLC_7T which can be configured to any one of fourteen basic binary operation modes (fig. 3). EV 1 A V ba V bb B PC 2 C PC 1 EV 2 V dd Y V bc Figure 3. Dynamically reconfigurable logic cell (DRLC_7T) TABLE II. 3-INPUT CONFIGURATIONS FOR DRLC_7T WITH 3 LOGIC LEVELS (+V, 0, -V) AND CORRESPONDING 14 BASIC BINARY LOGIC FUNCTIONS V ba V bb V bc Y +V +V +V A B +V +V -V A B +V 0 +V A +V 0 -V A -V -V +V A B -V -V -V A B +V -V +V B/A +V -V -V B A 0 +V +V B 0 +V -V B V 0 -V +V +V A/B -V +V -V A B DRLC_7T is made up of 7 CNTFETs arranged in two logic stages: the first stage performs an elementary logical operation and the second stage works either in follower or inverter mode. A and B are boolean data inputs (voltages at A and B vary between 0V and 1V); V ba, V bb, V bc are control inputs which configure the circuit to a basic binary logic function according to tab. II (control bias voltages may take one of three values, as indicated previously); PC 1, PC 2 (pre-charge) and EV 1, EV 2 (evaluation) are four non-overlapping clocking inputs with pre-charge and evaluation periods as in classical CMOS dynamic logic gates; Y is the circuit output. It is possible to derive other logic circuit structures using correlation techniques and zero-suppressed BDDs, both in dynamic-logic and static-logic styles. While this is outside the scope of this paper, such techniques are useful both to tune the function set to specific requirements, and to achieve the theoretical maximum number of functions. In the following section, we will explore how such families of fine-grain reconfigurable logic cells can be assembled to build nanocomputing architectures. V. MATRIX-BASED NANOCOMPUTER ARCHITECTURES To assemble logic cells in matrix-based nanocomputer architectures, it is necessary to establish multiple levels of hierarchy. The lowest level is the fine-grain logic cell that can be configured to one of many available logic functions, as discussed in the previous section. With clear and modular hierarchy, there is however no restriction on the cell type. The next level is a matrix composed of logic cells (fig. 4a), where the interconnect network between cells is fixed and the cells as drawn have two Boolean data inputs A and B and one duplicated data output Y (control and clock inputs not shown). A thorough analysis of matrix interconnections shows that the utilization of small matrices where cells are connected via the Cross Cap topology leads to the highest mapping success rate. west primary data outputs west primary data inputs north primary data inputs north primary data outputs f 11 f 12 f 13 f 1w f 21 f 22 f 23 f 2w f 31 f 32 f 33 f 3w f d1 f d2 f d3 f dw south primary data outputs (a) south primary data inputs east primary data inputs east primary data outputs Switch Box Matrix Logic Cell SB SB f 11 f 12 f 12 f 21 f 22 f 11 f 12 f 12 f 21 f 22 f 11 f 12 f 12 f 21 f 22 f 11 f 12 f 12 f 21 f 22 Figure 4. Matrix of w d (w=width, d=depth) cells with fixed interconnect topology (a) Cell Matrix-based architecture: a cluster of 2 2 matrices (b) At the highest level, the matrices can be assembled to implement a homogeneous Cell Matrix [8] that appears to be suitable for the fine-grained logic cells (fig. 4b), or connected into a cluster (fig. 5a) using one of the conventional FPGA architectures [9], [10]. In popular island-style FPGAs, the primary inputs and outputs of cells link to the routing tracks via the connection boxes (CBs), and different tracks are connected via the switch boxes (SBs). SBs consist of bidirectional programmable switches connecting terminals on different sides. The best routability for such architectures can be (b) SB SB

41 achieved with a SB connectivity factor Fs=3 (this represents the maximum number of switches connected to a terminal in the SB) and with the full connectivity of CBs (i.e. the maximum number of tracks a pin can be connected to) [11] (fig. 5b). Several parameters have significant impact on the efficiency of the architecture, such as cluster size and the percentage of switch connectivity. Concerning the cluster size, 4 4 and 8 8 clusters are the most efficient in terms of routability [12]. However, more than 1000 switches will be used in a 4 4 cluster of 2 2 matrices if the wire width is equal to 4 and Fs=3. To reduce the switch overheads without any impact on cluster routability, it is possible to combine SBs and CBs linked via the wire segments that terminate together at the edge of a cluster [9]. The combination of partially connected CB (fig. 5c) with an SB «Step» architecture (fig. 5d) leads to a 54% reduction in the SB and CB size. Thus, the total number of switches in a 4 4 cluster of 2 2 matrices decreases to 520. Input/Output B ox Switch Box I/O I/O SB CB CB Matrix SB CB CB Matrix SB CB CB Matrix SB CB SB CB SB CB CB Connection Box I/O Matrix CB I/O Matrix CB I/O Matrix Matrix of Cells Wire Segment (a) Figure 5. Island-style matrix-based architecture (a). Connection box with full connectivity (b). Connection box with partial connectivity (c). Step architecture of switch box, Fs = 2 (d) TABLE III. ANALYSIS OF SB/CB- AND CELL MATRIX-BASED 4X4 CLUSTERS Metrics Islandstyle Cell Matrix Number of transistors involved in mapping, T Percentage of mapped matrices in a cluster, % Number of switches added to connect matrices To explore the potential of nanocomputer architectures, new approaches and synthesis tools must supplement conventional techniques [13] [14]. We implemented a methodology that supports the automatic mapping of Boolean functions onto nanoscale circuits. Using this methodology with a randomly generated set of Boolean functions, we conducted a comparative analysis of both island-style and Cell Matrixbased architectures, and assessed the design area in terms of the number of transistors involved in the final mapping. The results are shown in tab. III. We found that the Cell Matrix-based architecture involves less switches, but requires a significant number (up to 58%) of logic cells for buffers to propagate data from the primary inputs to the primary outputs within a cluster. Thus, the application of SBs and CBs in an island-style (b) (c) (d) architecture helps to reduce the transistor overheads by 44%. Almost all logic cells in the Cell Matrix-based cluster are mapped, whereas more than half of the SB/CB-based cluster is free and potentially can be used to implement additional functions. VI. CONCLUSION In this paper, we have described both circuit-level and architectural approaches to the use of ambipolar DG-CNTFETs in logic architectures. We demonstrated three generic structures to build a library of clocked standard cells, which require only n+1 transistors rather than n+2 typically required for conventional dynamic logic cells, for comparable average power consumption figures, and with reduced (up to 2X) worst-case delay. The same property was also used in a reconfigurable logic cell, which served as the basis for exploration of nanocomputer architectures. We considered cellmatrix and island-style architectures, and showed that the application of switch and connection boxes can help in reducing the transistor overheads up to 44% in an island-style architecture, as well as in leading to better cluster routability compared to the Cell Matrix-based architecture. REFERENCES [1] Y.-M. Lin et al. "Novel Carbon Nanotube FET Design with Tunable Polarity", Proc. IEDM, pp , 2004 [2] J. Appenzeller, J. Knoch, E. Tutuc, M. Reuter, and S. Guha, "Dual-gate nanowire transistors with nickel silicide contacts", IEDM Technical Digest, (2006). [3] A. Javey et al. "Self-Aligned Ballistic Molecular Transistors and Electrically Parallel Nanotube Arrays", Nano Letters, vol. 4, no. 7, pp , [4] M. H. Ben Jamaa, K. Mohanram and G. De Micheli, Novel Library of Logic Gates with Ambipolar CNTFETs: Opportunities for Multi-Level Logic Synthesis, Design, Automation and Test in Europe (DATE). March 2009 [5] L. Ding, A. Tselev, J. Wang, D. Yuan, H. Chu, T.P. McNicholas, Y. Li, J. Liu. "Selective Growth of Well-Aligned Semiconducting Single-Walled Carbon Nanotubes", Nano Letters, vol. 9, no. 2, pp. 800, 2009 [6] I. O Connor et al., CNTFET Modeling and Reconfigurable Logic- Circuit Design, IEEE Transactions on ciruits and Systems-I: Regular Papers, vol. 54, no.11, pp , November 2007 [7] K. Jabeur et al., "Reducing transistor count in clocked standard cells with ambipolar double-gate FETs," IEEE/ACM International Symposium on Nanoscale Architectures (NanoArch), July , Anaheim (CA), USA [8] L. Durbeck and N. Macias, The Cell Matrix: an architecture for nanocomputing, Nanotechnology vol. 12 pp , [9] Y. L. Wu, D. Chang, On NP-completeness of 2-D FPGA routing architectures and a novel solution, in Proc. Int. Conf. Computer-Aided- Design, pp , [10] X. Ma, J. Tong, Design and implementation of a new FPGA architecture, Proc. of the 5th Int. Conf. on ASIC, pp , [11] S. Brown, R. Francis, J. Rose, Z. Vranesic, "Field-programmable gate arrays," Kluwer Academic Publishers, [12] V.Betz, J.Rose, FPGA routing architecture: segmentation and buffering to optimize speed and density, ACM/SIGDA International Symposium on FPGA, pp , Monterey (CA), USA, Feb [13] J. Pistorius, M. Hutton, A. Mishchenko, R. Brayton, Benchmarking method and designs targeting logic synthesis for FPGAs, Proc. IWLS 07, pp , 2007 [14] V. Betz, J. Rose, A. Marquardt, Architecture and CAD for Deep- Submicron FPGAs, Kluwer Academic Publishers, 1999

42 Conception d un neurone analogique Leaky Integrate-and-Fire robuste et compact en technologie 65 nm Antoine JOUBERT CEA-LETI, Minatec 17 rue des Martyrs GRENOBLE Cedex 9 Rodolphe Héliot CEA-LETI, Minatec 17 rue des Martyrs GRENOBLE Cedex 9 joubert.antoine@cea.fr Résumé Les contraintes de robustesse et de consommation deviennent prépondérantes dans les technologies decananométriques. Les architectures neuromorphiques ont à la fois la capacité de s affranchir de ces problèmes et d effectuer des applications de type traitement de signal. Elles requièrent l implémentation à grande échelle de neurones robustes aux défauts de fabrication, compacts et faible consommation. Nous proposons l implémentation d un neurone de type «Leaky Integrate-and-Fire» (LIF) dans la technologie ST CMOS 65 nm. Sa surface est de 100 um² et sa précision, lorsqu il est soumis à des variations de fabrication, est de 35 db. 1. Introduction Les architectures de calcul sont en proie à de nouvelles contraintes de consommation et de variabilité qui forcent les concepteurs à développer de nouveaux types d architectures. L utilisation de systèmes hétérogènes d accélérateurs matériels permet de réduire la consommation [1], mais il y a un réel besoin d accélérateurs robustes à la variabilité des technologies déca-nanométriques [2]. Grâce à leur fonctionnement massivement parallèle, les réseaux de neurones sont de bons candidats pour résoudre ces problèmes. Ils effectuent des calculs à l aide d opérateurs simples, les neurones, et des mécanismes d apprentissage leur permettent d être plus robustes aux défauts de fabrication. Depuis les travaux de C. Mead [3], de nombreux travaux ont été effectués dans le domaine des réseaux de neurones [4-5]. En particulier, le développement du protocole AER (Adress-Event Representation) [6] a permis l interconnexion d un grand nombre de neurones. Nous avons proposé dans [7], un accélérateur robuste et faible consommation basé sur des neurones analogiques à impulsions. Il peut effectuer un large spectre de tâches de type traitement du signal en décomposant celles-ci en opérations élémentaires réalisables par des neurones. Nous avons choisi d utiliser une implémentation analogique plutôt que numérique des neurones pour des considérations de surface et de consommation. En effet, un neurone analogique peut tirer pleinement parti des équations physiques de l électronique (intégration du courant aux bornes d une capacité, sommation des courants, courant de fuite). De plus, un neurone analogique est tout à fait adapté pour effectuer des calculs à faible résolution. Le bruit -souvent problématique en analogique- généré par un neurone n est pas propagé d étage en étage mais supprimé lors de l émission de l impulsion logique. Ce fonctionnement hybride analogique/numérique permet de réduire sa surface et sa consommation tout en restant efficace sur un plan calculatoire [8]. Dans [7], nous avions choisi d utiliser le modèle de neurone Leaky Integrate-and-Fire dont le comportement est décrit par : V n V& i i = + Σ Wij s j ( t ijt) (1) τ j= 1 i avec pour la sortie et la remise à zéro du neurone : si V < V, alors s = 0 (2) i th i si = 1 si Vi V, alors th (3) V i = 0 où V i est le potentiel du neurone i, V th est la tension de seuil du neurone, s j est la sortie du neurone j, τ i est la constante de temps de la fuite, W ij est le poids synaptique entre le neurone j et i et ij est le délai synaptique. Par la suite, les poids sont normalisés par rapport à V th et sont compris dans l intervalle [-1 ; 1]. Le modèle LIF permet un grand nombre d opérations, à savoir l addition ou la soustraction (par le biais de poids positifs ou négatifs), or encore la multiplication grâce à la fuite [9]. Il a donc été choisi pour ses capacités calculatoires, et sa simplicité qui permet une implémentation compacte et l analyse de réseaux comportant un grand nombre de neurones. En vue d être intégrés à grande échelle, les neurones LIF devront avoir une petite taille, une faible consommation et enfin être robuste à la variabilité du procédé de fabrication. D autres contraintes sur la conception proviennent de l architecture et des applications envisagées. Il a été déterminé que le poids synaptique des neurones doit être encodé sur 7 bits. Certaines applications nécessitent une fréquence de fonctionnement du neurone élevée afin de diminuer le temps de calcul. La fréquence maximale visée est donc 1 MHz. La fréquence basse correspond à des limites

43 matérielles détaillées dans la partie Nous proposons ici un neurone analogique LIF dans une technologie CMOS 65 nm ayant toutes ces caractéristiques. Après la description d un neurone LIF dans la partie 2, nous détaillons le circuit adopté pour le neurone ainsi que son mode de fonctionnement dans la partie 3. Les résultats de simulations présentent, dans la partie 4, le fonctionnement du neurone ainsi que sa robustesse aux variations de fabrication. Figure 1. Structure d un neurone LIF 2. Structure d un neurone LIF Un neurone LIF est constitué de cinq parties (fig. 1) à savoir: l injection des poids synaptiques, le potentiel de membrane (V M ), une fuite, la comparaison avec une valeur seuil et une remise à zéro. L injection correspond à la modulation pondérée d une impulsion entrante dans le neurone. Selon le signe du poids, le potentiel V M stocké dans la capacité C M augmente ou diminue. Ce potentiel diminue en l absence d entrée à cause du courant de fuite I leak. Lorsqu un nombre suffisant d impulsions positives sont consécutivement injectées dans le neurone, le potentiel de membrane V M dépasse la valeur seuil égale à V threshold ; une impulsion est alors émise vers le(s) neurone(s) post-synaptiques alors que le potentiel V M est remis au potentiel V reset. Figure 2. Schéma électronique du neurone 3. Circuit du neurone Les avancés technologiques dans le domaine de la microélectronique ont eu pour conséquence la réduction de la longueur de grille du transistor. L utilisation de technologies de dimensions de plus en plus réduites résulte en une augmentation de la variabilité et des courants de fuite, et en une diminution de la tension d alimentation [10]. Par conséquent, une attention toute particulière a été portée sur le design du neurone pour conserver la robustesse de l architecture. 3.1 Topologie du circuit Lors de la conception du neurone, la première étape consiste à déterminer le type et la taille de capacité selon les fréquences de fonctionnement désirées et les contraintes technologiques. On choisira une injection du courant dans la capacité qui réponde aux différents critères : aptitude au calcul, présence d un étage de comparaison, faible tension d alimentation (V dd =1.2V) et compacité. Enfin l étage de comparaison est choisi selon des considérations de vitesse et de consommation Choix de la capacité Les évolutions technologiques ont eu pour conséquence la diminution de l oxyde de grille. Par conséquent les capacités de type MOS ont une fuite intrinsèque gênante en basses fréquences. Les capacités classiques de type métal/métal ou inter-digitée ont une capacité surfacique faible nécessitant une grande surface. La capacité de type MIM (Métal-Inter-Métal) est une capacité constituée d une couche d un matériau à grande permittivité (high-k) entre deux électrodes métalliques. L ensemble se trouve entre deux couches de métal supérieures du procédé de fabrication. Cette capacité a une faible fuite et également une grande capacité surfacique. En utilisant une armature métallique sous la capacité, les transistors du neurone pourront être placés en dessous de celle-ci. De ce fait, la capacité n utilise pas de surface supplémentaire dans le design du neurone. La taille de la capacité a été choisie en considérant les courants de fuite responsables de sa décharge. Il a été choisi une fréquence basse de fonctionnement à 1 khz pour éviter une taille de capacité trop importante. On peut voir sur la figure 2 les deux principales causes des courants de fuites : le courant de grille dans le transistor T p1 et le courant de fuite à travers l interrupteur utilisé pour l injection (S pulse ). La précision δv est liée à l amplitude de l excursion de V M et la résolution en bits. Elle donne un ordre de grandeur sur la surface (W*L) de T p1 et T p2, transistors de la paire différentielle de l étage de comparaison. V threshold V δ V = reset resolution 2 Pour que l injection des poids positifs soit symétrique avec celle de poids négatifs, les transistors T p_pos2 et T n_neg2 doivent rester en saturation. On considère alors que la dynamique de V M vaut 0.6 V. Comme la résolution des poids est de 7 bits, la précision sur le comparateur doitêtre de 0.6/128 = 4 mv. On peut par conséquent déduire un ordre de grandeur de la surface du transistor T p1 grâce au paramètre A Vt (représentant l erreur faite sur la tension de seuil d un transistor en mv/µm) et par conséquent estimer son courant de grille. Pour l interrupteur S pulse, le courant en dessous du seuil n est pas considéré. En effet pour des raisons de robustesse à la variabilité, la longueur minimale L de la grille est fixé à 0,2 µm. Par conséquent seules les fuites des diodes polarisées en inverse des transistors sont

44 considérées et sont proportionnelles à la largeur W des transistors. Les courants de fuite sont évalués à quelques pa et la capacité à 500 ff. Sa densité surfacique étant de 5 ff/µm², elle occupera une surface de 100 µm². Ceci deviendra par la suite une contrainte de surface pour l ensemble des transistors du neurone qui seront placé sous la capacité Injection L injection se fait par le biais d envoi d impulsions de courant dans la capacité à l aide de l interrupteur S pulse fonctionnant à une fréquence de 500 MHz. Une impulsion correspond au poids minimal que l on peut injecter dans la capacité (1/128 = ). Cette injection modulée par une durée d impulsion est plus robuste à la variabilité (cf précision obtenue par l utilisation de mini DAC dans [11]). D autre part, l interrupteur S pulse est composé de transistors high-vt pour réduire les fuites lorsqu il est bloqué. On a vu que les transistors T p_pos2 et T n_neg2 doivent être dans leur régime de saturation pour assurer la validité des opérations. En connaissant la taille de la capacité et la fréquence de fonctionnement, on en déduit le courant qu ils doivent fournir à savoir 1,5 µa. Comme la surface du comparateur dépend de la dynamique de V M, on polarise les transistors en inversion modérée afin d obtenir un compromis entre leur taille et la dynamique. La surface est augmentée pour améliorer leur appariement Comparaison Différentes topologies ont été utilisées dans des neurones comme des OTA [4] ou bien des inverseurs [5]. Cependant un meilleur appariement est possible lorsque deux transistors de même type sont utilisés. Ceci privilégie les topologies basées sur une paire différentielle comme les OTA. En considérant les contraintes de consommation, il apparait un grand problème lorsque la valeur à comparer V M se trouve juste de la valeur seuil V threshold. La sortie du comparateur se trouve alors autour de la valeur intermédiaire Vdd/2. Ceci résulte, pour un circuit numérique, à la création d un chemin de conduction entre Vdd et la masse. Comme un neurone requiert de la précision et une certaine rapidité dans la décision, nous avons choisi d utiliser un comparateur à bascule. Les transistors d entrée de la paire différentielle sont de type PMOS pour leur meilleur appariement et leur plus faible courant de grille. 3.2 Mode de fonctionnement Lorsqu une impulsion arrive à un neurone, un des deux miroirs de courant (composés de T n_neg ou T p_pos sur la figure 2) est activé suivant le signe du poids (respectivement négatif ou positif) grâce aux interrupteurs commandés par les flèches (bleues ou rouges). Quand le miroir est stable, l interrupteur S reset est ouvert et l injection commence dans la capacité via S pulse. Le nombre d impulsions de cet interrupteur est fonction du poids synaptique. Une fois l injection terminée, le potentiel V reset est appliqué au nœud V I afin de diminuer le potentiel V MI, aux bornes de S pulse. Pendant ce temps, le comparateur est activé, un événement logique est généré si V M > V threshold, et envoyé vers d autres neurones via un mécanisme de routage qui remet le potentiel V M à la valeur V reset. La comparaison est activée lors d injection de poids positifs puisque le dépassement de V threshold ne peut avoir lieu lorsque le potentiel V M est diminué. 4. Résultats 4.1 Exemple d injection de poids Figure 3. Evolution du potentiel de membrane après injection des poids 0.8, -0.5, 0.8 et sortie logique La simulation de la figure 3 montre un exemple d utilisation du neurone. On envoie 3 impulsions successives ayant pour poids 0.8, -0.5 et 0.8, respectivement. Les poids étant encodés sur 7 bits, ceci correspond à un nombre d impulsions égal respectivement à 102, 64 et 102. La figure 3 montre l évolution du potentiel V M et la sortie du neurone. Au début de la simulation une étape d initialisation a lieu pour mettre le potentiel V M à V reset. La première impulsion (poids : 0.8) augmente le potentiel V M jusqu à une valeur inférieure à V threshold. Une comparaison est effectuée, visible par un faible pic de tension sur le potentiel membranaire, mais sans effet sur le fonctionnement du neurone. Une deuxième impulsion (poids : -0.5) arrive et, du fait de son poids négatif, diminue le potentiel aux bornes de V M. Enfin une troisième impulsion (poids : 0.8) arrive et permet de dépasser la valeur seuil ( =1.1). Il y a, après comparaison, génération d un événement logique à 3.3 µs. 4.2 Robustesse à la variabilité des procédés de fabrication. Afin d étudier la robustesse du neurone face à la variabilité du procédé de fabrication, nous souhaitons analyser les variations globales et locales. En effet tous les neurones d une même puce subiront les mêmes variations globales (variations de lot à lot, de plaque à plaque et de puce à puce). Des variations locales vont également influencer l appariement entre transistors. Ces deux types de variations sont étudiés dans les deux parties suivantes Variations locales dans le corner nominal (TT) L histogramme de la figure 4 montre l influence des variations locales entre transistors dans un cas où celles globales sont nominales. Pour l obtenir, des simulations ont été réalisées pour tenir compte de la variabilité (simulations Monte-Carlo). A chaque simulation, un poids

45 est injecté dans un échantillon de 400 neurones. Le nombre de neurones dont la sortie a été active est reporté dans l histogramme. Sans variabilité, tous les neurones devraient émettre une sortie lorsque le poids vaut 1 (128 impulsions). En pratique on observe une distribution des neurones dont la sortie est active centrée autour de 128. La distribution peut être modélisée par une loi normale dont l espérance µ = et l écart type σ = 3.9. Ceci correspond à un coefficient de variation de 3% qui est équivalent à un rapport signal à bruit de db. En choisissant des poids adaptés lors de la programmation de l architecture, on peut réduire l impact des variations locales (voir [7] pour plus de détails sur ce sujet). 5. Conclusion Nous avons proposé ici une implémentation d un neurone analogique de type Leaky Integrate-and-Fire dont le but est d être inclus dans une architecture de calcul robuste à la variabilité. Il est à la fois compact (100 µm²), supporte l injection de poids positifs et négatifs, et a un rapport signal à bruit de 35 db en présence de variations due au procédé technologique. L implémentation d une fuite programmable est prévue afin d augmenter les possibilités d utilisation du neurone comme élément de calcul. Comme le neurone est inclus dans un circuit mixte analogique et numérique, des écarts de température peuvent exister, qui nécessiteront une étude poussée du comportement du neurone en fonction de la température. Remerciements Les auteurs tiennent à remercier D. Morche, A. Peizerat, M. Belleville et A. Valentian pour leurs avis et leurs précieux conseils. Références Figure 4. Histogramme vert : nombre de neurones ayant émis une sortie à un poids donné. Courbe bleu : fit par une loi normale (µ = et σ = 3.9) Figure 5. Distribution du potentiel de membrane avec différents corners Comparaison entre différents corners : SSA- TT-FFA Dans la figure 5, la forme de chaque courbe représente les variations du potentiel membranaire V M lorsque le neurone reçoit une impulsion pondéré d un poids égal à 1 (correspondant à 128 impulsions de S switch ). Chaque courbe représente un type de variation globale de fabrication : cas nominal (TT), transistors lents avec grande capacité (SSA-Cmax), transistors rapides avec petite capacité (FFA-Cmin). En observant les courbes TT- Cmax et TT-Cmin, on remarque l importance prépondérante de la variation globale de la capacité sur le potentiel V M. Les effets des variations globales peuvent être caractérisés post-fabrication et compensés par l adaptation de la tension de seuil V threshold, l amplitude du courant injecté, la fréquence de fonctionnement de S pulse, ou bien encore par le nombre d impulsions correspondant à un poids égal à 1. [1] M. Muller, Dark silicon and the internet, in Designing with ARM, EE Times Virtual Conference, March [2] S. Borkar, Designing Reliable Systems from Unreliable Components: The Challenges of Transistor Variability and Degradation, IEEE Micro, vol. 25, no. 6, pp , Nov [3] C. Mead, Analog VLSI and Neural Systems. Addison- Wesley, [4] A. Van Schaik, Building blocks for electronic spiking neural networks, Neural Networks, vol. 14, no. 6-7, pp , [5] R. J. Vogelstein, U. Mallik, J. T. Vogelstein, and G. Cauwenberghs, Dynamically reconfigurable silicon array of spiking neurons with conductance-based synapses. IEEE transactions on neural networks / a publication of the IEEE Neural Networks Council, vol. 18, no. 1, pp , [6] K. A. Boahen, Point-to-point connectivity between neuromorphic chips using address events, IEEE Transactions on Circuits and Systems II: Analog and Digital Signal Processing, vol. 47, no. 5, pp , May [7] R. Heliot, A. Joubert, and O. Temam, Robust and lowpower accelerators based on spiking neurons for signal processing applications, in The 3rd HiPEAC Workshop on Design for Reliability (DFR 11), [8] R. Sarpeshkar, Analog versus digital: extrapolating from electronics to neurobiology, Neural Computation, vol. 10, no. 7, pp , [9] M. Srinivasan and G. Bernard, A proposed mechanism for multiplication of neural signals, Biological Cybernetics, vol. 21, no. 4, pp , [10] A. Annema, B. Nauta, R. van Langevelde, and H. Tuinhout, Analog circuits in ultra-deep-submicron CMOS, IEEE Journal of Solid-State Circuits, vol. 40, no. 1, pp , Jan [11] B. Linares-Barranco, T. Serrano-Gotarredona, and R. Serrano- Gotarredona, Compact low-power calibration mini-dacs for neural arrays with programmable weights. IEEE transactions on neural networks / a publication of the IEEE Neural Networks Council, vol. 14, no. 5, pp , Jan

46 Conception d'un NoC adaptatif et sûr de fonctionnement pour système sur puce reconfigurable C. KILLIAN, C. TANOUGAST, F. MONTEIRO, A. DANDACHE Université Paul Verlaine, Laboratoire LICM E.A , rue Marconi, Metz cedric.killian@univ-metz.fr Résumé La conception de systèmes sur puce reconfigurables basés MPSoC nécessite un réseau sur puce (NoC) adaptatif. Ce papier présente la conception d un NoC destinée à des systèmes multi-processeurs reconfigurables à base de technologie FPGA. L objectif est la réalisation d'un NoC sûr de fonctionnement permettant de garantir la fiabilité générale du système reconfigurable. Nous proposons un réseau adaptatif basé sur l'algorithme XY modifié permettant de détecter en temps réel des erreurs de routage qui doivent être différenciées une décision adaptative de routage liée à une reconfiguration du NoC. 1. Introduction Les systèmes reconfigurables sont caractérisés par un haut niveau de modularité et de flexibilité où de nombreuses unités de traitement (IPs) peuvent être implémentées pour une durée déterminée et dynamiquement replacées au moyen d une reconfiguration (entièrement ou partiellement) [1], [2]. Pour bénéficier de tout les avantages de ces systèmes reconfigurables, un nouveau paradigme de communication des unités de traitement basé sur l'approche d un réseau centralisé doit être développé. Les réseaux sur puce (Network-on-Chip - NoC) dynamiques sont caractérisés par un degré élevé de parallélisme, de performances et de modularité [3-6]. Ces NoCs dynamiques ou reconfigurable (DyNoC, CuNoC, QNoC, CoNoChI) sont adaptés au principal problème de placement des IPs en permettant une réutilisation ou une relocalisation d IPs via des interfaces de communication adaptés à un réseau dont la topologie peut être reconfigurée. Cependant, afin de mettre en œuvre un routage efficace des messages au sein du réseau dynamiquement reconfigurable, il est essentiel que ces NoCs possèdent un degré d'adaptabilité plus ou moins élevé (algorithme partiellement ou totalement adaptatif) [7-10] dans le but d'obtenir de bonnes performances pour le système MPSoC à réaliser. Notre objectif consiste à réaliser un système reconfigurable sûr de fonctionnement basé NoC et technologie FPGA. La Fig. 1 illustre le système dynamiquement reconfigurable (Dynamic Reconfigurable System : DRS) proposé. Les modules placés dynamiquement dans le NoC couvrent des routeurs initialement configurés au sein de la structure matérielle. Au cours du fonctionnement, des routeurs peuvent être remplacés par des blocs de calcul et être à nouveau réimplantés lorsque la tâche effectuée par le module placé dynamiquement est terminée. Cette approche permet une communication adaptée au cours du temps entre des modules placés dynamiquement en temps réel. En pratique, les IPs dynamiques de tailles variables consistent en plusieurs PRR (Partial Reconfigurable Region) [13] communiquant par via le NoC maillé reconfigurable dont le routage des paquets est effectué par un algorithme de routage adaptatif [14]. Toutes les interfaces PRR du systèmes sont compatibles entre elles. Le système est composé de plusieurs PRM (Partial Reconfiguration Module) composé d'un IP intégré et couplé au sein d un réseau de routeur. Ainsi, le système est composé de plusieurs bitstreams correspondant soit uniquement à un réseau local, soit à un IP entouré de routeurs. Les ressources physiques de chaque PRR sont différentes dû aux ressources FPGA, nécessitant pour chaque IP plusieurs bitstreams dépendant de la PRR dans laquelle il peut être implanté. Figure 1. Système reconfigurable partiellement Dans ce papier nous présentons une architecture reconfigurable basée sur un NoC sûr de fonctionnement permettant l auto-détection, au cours du fonctionnement du NoC, des erreurs de routage qui soit adaptée aux algorithmes de routage adaptatifs ou tolérants aux fautes. Les erreurs détectés sont de types comportementales (quelque soit le modèle de faute).

47 2. Auto-détection d'erreurs pour NoCs reconfigurables Plusieurs catégories d'erreurs (permanente, temporaire ou transitoire) peuvent survenir au sein d un NoC ayant différentes conséquences sur le fonctionnement du système. Dans le cas d un système sur puce reconfigurable, la détection d erreurs de routage adaptatif dans le NoC en cours de fonctionnement («online») est un point crucial pour la fiabilité de ces systèmes. En effet, compte tenu de la spécificité d une adaptation permanente des DRS, une approche «offline» n est pas adaptée [11-12]. Le chemin pris par des paquets de données entre deux mêmes IPs peut varier selon les modifications de la topologie en temps réel via des reconfigurations. C est pourquoi, il est nécessaire de distinguer une erreur de routage d'une décision de contournement adaptative (Fig. 2). routeur précédent à travers ce champ glissant. Le bit d indication de chemin de routage unique, également intégré aux paquets, est activé lorsque qu un routeur dispose uniquement d un seul et unique chemin de routage. Si on considère des routeurs de type nonbouncing [13] (routeur par lequel un paquet ne peut sortir via le port par lequel il est rentré), ce bit est activé lorsqu au moins deux routeurs voisins sont indisponibles parmi les trois chemins locaux possibles de routage. Le mécanisme de détection d'erreur de routage proposé est spécifique pour les algorithmes de routages adaptatifs de type XY turn modèle. L'algorithme de détection proposé est implémenté comme un bloc matériel dans chaque routeur du réseau reconfigurable. La figure 4 illustre l architecture d un routeur intégrant quatre modules de détection d'erreurs pour chacune de ses directions dans le but d une auto-détection d'erreurs simultanée sur les quatre ports d'entrée. L'algorithme de routage utilisé correspond soit à l algorithme XY lorsque les routeurs voisins sont disponibles, soit l algorithme XY modifié de type turn si les routeurs voisins sont indisponibles. Figure 2. Illustration d'un routage adaptatif, une erreur de routage et la conséquence d'une non détection. Par exemple, si un routeur fautif envoie toujours ses paquets de données vers la direction nord, cela peut conduire à des pertes de paquets si le routeur voisin au nord est indisponible où subit une phase de reconfiguration. Notre approche repose d une part sur le développement d un NoC dynamique à base d interconnexions diagonales d'indication de disponibilité des routeurs. D'autre part, des paquets de données contiennent un champ d'historique glissant de cheminement associé à un bit d'indication de chemin unique (Fig. 3). Figure 3. Structure d'interconnexion des routeurs basé sur l'indication diagonal de d'indisponibilité Le champs glissant est mis à jour à chaque routeur traversé. Chaque routeur réceptionnant un paquet de données valide la décision de routage effectuée par le Figure 4. Architecture structurelle du routeur adaptatif et sûr de fonctionnement proposé. Chaque routeur réceptionnant un paquet va contrôler la décision de routage du routeur précédent. Les algorithmes de routages basés XY choisissent un cheminement selon l'axe X du réseau vers la destination jusqu'à atteindre sa colonne. Lorsque le routeur est dans la même colonne que la destination, il route selon l'axe Y. Lorsqu'un routeur réceptionne un paquet, il contrôle si le précédent routeur à suivi ces règles XY de routages. Si ces règles n'ont pas été respectées, alors un contrôle est effectué selon l'algorithme décrit en Fig. 5. La Fig. 6 illustre un exemple d application de notre approche. Le routeur(i,j) réceptionne un paquet et analyse la décision précédente de routage. Le routeur(i,j-1), n est pas dans la même colonne que la destination et aurait du effectuer un routage selon l axe X vers la destination. Le routeur(i,j) contrôle alors le routeur (i+1,j-1) par lequel le paquet aurait du transiter en consultant l indication de disponibilité diagonale. Dans le cas a), le routeur (i+1,j-1) est disponible. Le routeur(i,j-1) a effectué un

48 contournement. Le contournement s est effectué vers la destination, il n y a donc pas d erreur de routage. 3. Conclusions La détection d'erreurs dans les NoCs dynamiques permet d'assurer une fiabilité générale d un système reconfigurable de type MPSoC en permettant des communications sûres entre les différentes IPs du réseau. Nous avons proposé une architecture de système reconfigurable basé NoC dynamique permettant un mécanisme d auto-détection en temps réel d'erreurs de routage adapté aux algorithmes adaptatifs basé XY. L approche proposée nécessite un coût supplémentaire relativement faible (de l ordre de 11%) en terme de surface logique consommée comparé à une structure routeur non fiabilisé. Références Figure 5. Algorithme de détection d'erreurs pour routage adaptatif basé XY modifié. Concernant le cas b), le contrôle via l interconnexion diagonale du routeur(i+1,j- 1) indique que le routeur est disponible. Le routeur (i,j-1) a donc commis une décision de routage erronée et est fautif. Figure 6. Différenciation entre une décision de routage adaptative et une erreur de routage Afin d évaluer le coût en terme de ressources du mécanisme d auto-détection proposé, une implantation d un routeur a été réalisée. La table 1 donne la comparaison des résultats de synthèse sur technologie FPGA Xilinx Virtex VI entre un routeur sans et avec mécanisme de sûreté de fonctionnement intégrant quatre modules de détection d'erreurs. Taille bus (bits) Routeur Routeur sûr diff % Slices Slices Reg. LUTs f [MHz] Slices Reg. Slices LUTs f [MHz] Slices Reg. Slices LUTs , ,1 10,08 11, , ,1 10,30 11, , ,2 10,41 10,95 Table 1. Comparaison des résultats de synthèse sur FPGA virtex VI. [1] S. A. Guccione and D. Levi, "The Advantages of Run-time Reconfiguration", In John Schewel et al editors, Reconfigurable Technology: FPGAs for Computing and Applications, Proc. SPIE 3844, pages 87-92, [2] P. Lysaght, J. Dunlop, "Dynamic reconfiguration of FPGAs, International Workshop on Field-programmable Logic and Applications, pages 82-94, [3] C. Bobda, A. Ahmadinia, M. Majer, J. Teich, S. Fekete and J. van der Veen: DyNoC, "A Dynamic Infrastructure for Communication in Dynamically Reconfigurable Devices", International Conf. on FPL, pp , aug [4] M. Majer, C. Bobda, A. Ahmadinia and J. Teich, "Packet Routing in Dynamically Changing Networks on Chip", Proc. of 19th IEEE International Parallel and Distributed Symposium, apr [5] S. Jovanovic, C. Tanougast, C. Bobda and S. Weber, "A Scalable Dynamic NoC for Dynamically Reconfigurable FPGAs", International Conference on Field Programmable Logic and Application, pp , [6] Glass, C.J. and Ni, L.M., "The Turn Model for Adaptive Routing" The 19th Annual International Symposium on Computer Architecture, pp , [7] Ge-Ming Chiu, "The odd-even turn model for adaptive routing", IEEE Transactions on Parallel and Distributed Systems, Vol. 11, No. 7, pp , [8] Boura, Y.M. and Das, C.R., "Efficient fully adaptive wormhole routing in n-dimensional meshes", 14th International Conference on Distributed Computing Systems, pp , [9] Chien, A.A. and Jae H. Kim, "Planar-Adaptive Routing: Low-cost Adaptive Networks for Multiprocessors", The 19th Annual International Symposium on Computer Architecture, pp , [10] S. Jovanovic, C. Tanougast and S. Weber, "A New High- Performance Scalable Dynamic Interconnection for FPGAbased Reconfigurable Systems", 19th IEEE International Conference Application-specific Systems, Architectures and Processors (ASAP), pp , [11] S.Lin, W.Shen, C. Hsu, C. Chao, A. Wu, "Cost-Efficient Fault-Tolerant Router Design for 2D-Mesh Based Chip Multiprocessor Systems", Proc VLSI Design/CAD Symposium, Kenting, Taiwan, Aug [12] J. Raik, R. Ubar, V. Govind, "Test Configurations for Diagnosing Faulty Links in NoC Switches", Test Symposium, ETS '07. 12th IEEE European, pp [13] J. Raik, V. Govind and R. Ubar, "An External Test Approach for Network-on-a-Chip Switches", 15 th Asian Test Symposium, IEEE Computer Sciences, pp , 2006.

49 Evaluation de la technique de test basée sur la mesure d un nombre réduit de codes pour les convertisseurs analogique-numérique de type pipeline Asma LARABA Laboratoire TIMA (CNRS-INP Grenoble-UJF) 46, av. Félix Viallet, 38031, Grenoble Cedex Matthieu DUBOIS, Haralampos STRATIGOPOULOS, Salvador MIR. asma.laraba@imag.fr Résumé Dans ce papier on va présenter les résultats d évaluation d une méthode de test pour les convertisseurs analogiquenumérique de type pipeline. La technique consiste à mesurer quelques codes spécifiques permettant de retrouver les caractéristiques de tous les codes du convertisseur. L évaluation est effectuée sur un design industriel de STMicroelectronics. Les résultats de simulation montrent que les grandes erreurs de linéarité dans le convertisseur sous-test ne sont pas détectées. Une amélioration de la technique peut être envisagée pour une éventuelle utilisation dans un test de production industriel. 1. Introduction Les convertisseurs analogique-numérique de type pipeline sont de plus en plus utilisés dans des systèmes de type SoC pour de nombreuses applications telles que les télécommunications et le traitement de signal. La popularité de ces convertisseurs est due à leur bon compromis entre la largeur de bande, la résolution, la vitesse de fonctionnement et la consommation. En production, les convertisseurs analogiquenumérique sont testés en fonctionnement statique et dynamique. Le test dynamique implique l application d un signal sinusoïdal et une analyse à base de la transformée de Fourier, alors que le test statique est effectué en appliquant à l entrée du convertisseur une rampe ou un signal sinusoïdal lent et en utilisant la méthode de l histogramme. Ceci requiert la collection d une quantité importante de données. Avec l augmentation permanente de la résolution des convertisseurs analogique-numérique, le temps de test statique augmente exponentiellement ce qui devient excessif vis-à-vis de la surface de silicium testé ou du temps de test des autres blocs. Ceci implique un compromis temps de test/précision, qui génère beaucoup d instabilités et qui peut amener à jeter des circuits qui sont bons (perte de rendement) ou d accepter des circuits qui sont mauvais (taux de défaut). Plusieurs techniques de calibration ou de test ont été proposées dans la littérature afin de diminuer le temps de test ou de corriger les imperfections de la fonction de transfert des CAN. Mais actuellement, ces méthodes de test alternatif ne sont pas implémentées en industrie. Une raison de ceci est que la perte économique due aux erreurs de test serait plus importante que la réduction du coût apportée par la nouvelle technique. Tant qu il n existe pas une méthode formelle pour évaluer une nouvelle technique de test au niveau design, les industriels seront réticents à appliquer une technique de test alternative pour les circuits analogiques et mixtes. L évaluation des métriques de test au niveau design peut donner des informations sur les risques de test et aide à faire une décision sur la technique à utiliser. Les métriques de test sont d habitude mesurées avec une précision de l ordre de parties-par-million. Pour obtenir cette précision on doit générer une large population de circuits, ce qui peut prendre énormément de temps, surtout pour des circuits complexes comme les CAN. Dans nos travaux on va évaluer ces métriques pour les techniques de test proposées en utilisant le flot d évaluation proposé dans [12], qui permet de générer une grandes population de circuits et d évaluer les métriques de test. Dans ce qui suit on va commencer par une introduction aux spécifications des CAN et à l architecture des convertisseurs pipeline. On présentera par la suite les principaux travaux concernant le test de CAN trouvés dans la littérature. On présentera les premiers résultats d évaluation de la technique de test proposée dans [10], qui consiste à mesurer quelques codes spécifiques permettant de retrouver les caractéristiques de tous les codes du convertisseur. On va finir par une conclusion. 2. Conception des convertisseurs pipeline 2.1 Spécifications statiques des CAN La fonction de transfert idéale d un CAN est représentée sur la Figure 1. En pratique, les seuils d un CAN peuvent avoir des hauteurs et des largeurs différentes, il s agit d erreurs de non-linéarité. Ces erreurs sont caractérisées en mesurant la non-linéarité différentielle et la non-linéarité intégrale. Ces spécifications sont exprimés en LSB (Least Significant Bit) avec : Vref 1 LSB = VLSB = N 2

50 le soustraire du signal d entrée et obtenir le résidu. Ce résidu est ensuite amplifié par un facteur 2 k afin qu une seule tension de référence puisse être utilisée pour tous les étages. En pratique, l échantillonneur-bloqueur, le convertisseur numérique analogique (DAC), le soustracteur et l amplificateur sont remplacés par un seul bloc à capacités commutées surnommé MDAC (Multiplying Digital to Analog Converter) dans la littérature. Sur la Figure 4, on voit l exemple d implémentation d un étage pipeline 1 bit. Figure 1. Caractéristique de transfert idéale d un CAN Figure 3. Diagramme d un convertisseur pipeline Figure 2. DNL et INL dans un CAN Non linéarité différentielle (DNL). C est l écart par rapport au quantum de l intervalle de valeurs analogiques conduisant à la même sortie numérique et elle est donnée par (exprimée en LSBs) : S( i+ 1) S( i) V DNLi ( ) = V Où et S(i) est la tension de transition du code i. Non linéarité intégrale (INL). C est l écart de la transition d un code par rapport à la droite idéale. Cette erreur caractérise la précision relative d un convertisseur, elle est donnée par (exprimée en LSBs) : INL ( i) = V LSB S ( i) S LSB Où : S ref (i) représente la droite idéale. ref LSB ( i) 2.2 Architecture des convertisseurs pipeline Le convertisseur est constitué de plusieurs étages, où chacun contient à son tour un échantillonneur bloqueur, un convertisseur analogique numérique, un convertisseur numérique analogique, un soustracteur et un amplificateur (Figure 3). Le premier étage reçoit en entrée le signal à convertir, tandis que les autres étages reçoivent la sortie de l étage précédent. Le résultat de conversion digital est ensuite reconvertit en un signal analogique à l aide du CNA, pour Figure 4. Exemple d implémentation CMOS d un étage pipeline 1 bit 3. Etat de l art du test de CAN Dans la littérature plusieurs méthodes de test de convertisseurs analogique-numérique ont été proposées, dans ce qui suit on va présenter les axes les plus distingués. BIST dérivant de l'histogramme. La technique de test des ADC se basant sur l'histogramme est la plus répandu et la plus utilisée actuellement dans le test de production des ADC, plusieurs méthodes visant la réduction de la surface ou du temps de test ont été proposées pour son intégration sur la puce. Dans [1], les auteurs proposent une méthode permettant de réduire le surcoût en surface, en faisant un calcul séquentiel des paramètres statiques, mais aux dépens d un temps de test plus long. Dans [2], deux solutions sont proposées pour réduire le temps de test de la méthode proposée dans [1], la première permet de réduire le temps de test par deux en calculant l INL et la DNL en parallèle. La deuxième solution, avec l ajout d un autre registre permet de faire le test en une seule séquence (réduction d un facteur de 2 n /F s par rapport à la première solution, où n est la résolution du convertisseur et F s la fréquence d échantillonnage).

51 BIST basé sur l oscillation. Dans [3] les auteurs appliquent la méthode de test par oscillation pour le BIST de convertisseurs analogique-numérique. Le principe de cette approche est de forcer l oscillation du CAN autour de deux codes numériques déterminés. La fréquence de cette oscillation dépend du temps de conversion et des tensions de transition correspondant aux deux codes prédéterminés. Pour chaque test il faut attendre que le système se stabilise, et cela doit être répété pour tous les codes du convertisseur, ce qui rend le temps de test très long pour des CAN à haute résolution. BIST basé sur la régression polynomiale. Un BIST basé sur la régression polynomiale a été proposé dans [4]. Il s agit de calculer un polynôme d ordre 3 qui s ajuste à la fonction de transfert DC du CAN. En appliquant une rampe linéaire comme stimulus, un algorithme est utilisé pour le calcul des coefficients b 0, b 1, b 2, et b 3 du polynôme qui s ajuste le mieux à la fonction du transfert du CAN. Avec cette méthode on ne peut mesurer que le gain, l offset et la distorsion (THD) du convertisseur alors que la mesure des nonlinéarités statiques (DNL et INL) est très indispensable pour certains types de convertisseurs. BIST avec analyse numérique de la réponse. Dans [6] et [7], les auteurs décrivent une méthode de test alternative où ils effectuent une analyse numérique de la sortie de l ADC. Cette méthode est facile à implémenter et permet de mesurer les erreurs d offset et de gain, la DNL et l INL. Le schéma de BIST proposée dans [7] contient un compteur ayant une résolution plus grande que celle du CAN. Les paramètres statiques sont mesurés avec une précision dépendant de la différence de résolution entre la sortie du compteur et la sortie du CAN. Les blocs de détection d INL et DNL sont constituées de portes logique, donc le surcoût en surface est très petit. Test de CAN en utilisant des signaux de test de faible linéarité. Les auteurs de [8] et [9] prouvent qu il est possible, en appliquant à l entrée du convertisseur deux signaux non-linéaires, l un décalé par rapport à l autre, de remonter aux non-linéarités du convertisseur. L algorithme utilisé exploite l information redondante de données obtenues en appliquant les deux signaux, et en identifiant les niveaux du signal correspondants aux mêmes niveaux de transition de l ADC, un ensemble d équations n impliquant que les erreurs du stimulus peuvent être obtenues. Ensuite, l algorithme enlève la non-linéarité du signal d entrée de la sortie du convertisseur, permettant ainsi de mesurer précisément la non-linéarité du convertisseur. Test de linéarité des convertisseurs en mesurant un nombre réduit de codes. Dans [10], les auteurs présentent une méthode qui exploite la redondance dans les convertisseurs pipeline, et permet de remonter à la fonction de transfert entière du convertisseur en ne mesurant qu un certain nombre de codes prédéfinis. Cette technique a été retenue pour être évaluée dans un premier temps et éventuellement améliorée, car elle est simple à mettre en pratique et diminue considérablement le temps de test statique, qui, comme vu précédemment, est l obstacle majeur de test des convertisseurs à haute résolution dans l industrie. 4. Implémentation et évaluation d une technique de test 4.1 Description générale du cas d étude Le convertisseur analogique-numérique utilisé pour l évaluation de la technique est actuellement utilisé dans les SoCs du groupe HED (Home Entertainment & Display) au sein de STMicroelectronics. Il s agit d un convertisseur pipeline 12 bits constitué de 5 étages différentiels à 2.5 bits (avec correction numérique) et un dernier étage différentiel à 2 bits. Une résolution non-entière d un étage pipeline (1.5 ou 2.5) indique que la méthode de correction numérique est utilisée dans le convertisseur, elle permet de s affranchir des erreurs d offset dans le comparateur [11]. Les 5 premiers étages sont constitués d un convertisseur analogique-numérique, un convertisseur numérique-analogique, un échantillonneur bloqueur et un amplificateur ayant un gain de 4 en boucle fermée. Les 2.5 bits résultants de chaque étage sont décalés dans le temps pour compenser le délai de conversion. La conversion est achevée par un bloc de correction numérique où est corrigée la redondance [11]. Les capacités utilisées sont des capacités métal-métal. Les amplificateurs ont été conçus dans le but d atteindre des grandes valeurs de gain et une grande dynamique de sortie. Un bloc à base de band-gaps génère toutes les tensions de référence nécessaires. Les étages sont implémentés en capacités commutées, un ADC flash et un MDAC à capacités commutées forment un étage 2.5 bits. Pour évaluer la technique de test avec des données réelles, on a extrait lors des simulations Monte-Carlo au niveau transistor les paramètres suivants : le gain en boucle ouverte, la bande passante, l offset et la capacité d entrée de l amplificateur, et les capacités de contre-réaction et d échantillonnage. Les distributions statistiques de ces paramètres seront ensuite utilisées pour faire des simulations Monte-Carlo au niveau comportemental, émulant ainsi le comportement d un convertisseur réel. 4.2 La technique de test évaluée La technique proposée dans [10] pour des convertisseurs pipeline avec des étages 1.5 bits semble prometteuse et il serait intéressant dans un premier temps de l adapter à notre cas d étude (étages à 2.5 bits), de l évaluer et d y apporter des améliorations. Elle réduit énormément le temps de test statique en exploitant la caractéristique de redondance dans les convertisseurs pipeline : le principe étant de mesurer pour chaque étage les largeurs de code autour des tensions de référence des comparateurs. Les codes mesurés seront utilisés pour reconstruire la fonction de transfert estimé du convertisseur, en copiant le bon code au bon endroit de la fonction de transfert (correspondances déduite après

52 l étude en profondeur du mécanisme de génération de codes dans un convertisseur pipeline). On a étendu le principe proposé dans [10] pour des convertisseurs pipeline ayant des étages à 2.5 bits. La technique a été implémentée sous Matlab pour être simulé et évalué avec le modèle comportemental du convertisseur et les données issues des simulations transistor en se basant sur le flot d évaluation qui sera décrit brièvement ci-après. 4.3 Le flot d évaluation Les distributions statistiques des paramètres comportementaux du convertisseur utilisées dans le modèle comportemental sont d abord extraite au niveau transistor en faisant quelques simulations Monte-Carlo (~1000), ces échantillons seront utilisés pour construire la densité de probabilité conjointe des paramètres comportementaux, qui sera ensuite échantillonnée uniformément pour obtenir une population plus grande de circuit. Les résultats des simulations au niveau comportemental des circuits issus de l échantillonnage uniforme seront utilisés pour entraîner des fonctions de régression. Ces fonctions de régression feront le lien direct entre l espace des paramètres comportementaux (gain, bande passante, offset..) et l espace des performances (max INL, max DNL, min INL et min DNL). Une fois les fonctions de régression obtenues, on peut échantillonner la densité de probabilité conjointe des paramètres comportementaux un million de fois et obtenir directement les performances correspondantes sans faire des simulations comportementales. Ainsi, les métriques de test de la technique peuvent être évaluées avec une précision de l ordre de parties-par-million. Dans ce qui suit on va seulement analyser les résultats de simulation des convertisseurs issus de l échantillonnage uniforme de la densité de probabilité conjointe des paramètres comportementaux. 4.4 Résultats de simulation Afin de voir le rendement de cette technique de test avec une population réel de convertisseurs, on a d abord simulé au niveau comportemental 4900 vecteurs de paramètres comportementaux (obtenus après échantillonnage uniforme de la densité de probabilité conjointe des distributions statistiques obtenues lors des simulations Monte-Carlo au niveau transistor). Les résultats de simulation pour la DNL sont montrés sur la Figure 5. Dans un CAN des DNL à (-1) indiquent la présence de codes manquants. On remarque que le maximum de DNL est sous-estimé (à la moitié du LSB environ). L estimation du minimum est très mauvaise : la valeur estimée est inférieur à la valeur réelle pour la majorité des convertisseurs. Le fait que les DNL estimées sont plus petites (en valeur absolu) que les DNL réelles expliquent le fait que l INL estimé a tendance à être plus petite que l INL réelle, c est ce qu on peut voir sur la Figure 6, pour le minimum et le maximum de l INL. A priori, prélever 61 codes pour un CAN 12 bits ayant de grandes erreurs de linéarité n est pas suffisant pour faire une bonne estimation de l histogramme et des Figure 5. Résultats de simulation de 4900 convertisseurs, calcul de DNL Figure 6. Résultats de simulation de 4900 convertisseurs, calcul de l INL

53 erreurs de linéarité, puisque avec 61 codes prélevés on risque de ne pas couvrir toutes les valeurs présentes dans l histogramme réelle et avoir ainsi des erreurs d estimation de linéarité. 5. Conclusions Dans ce papier on a évalué les performances de la méthode de test proposée dans [10] en simulant des convertisseurs dont les paramètres sont extraits à partir de simulations Monte-Carlo au niveau transistor d un design industrialisé de STMicroelectronics. Les résultats du test classique par histogramme comparé à la méthode de test alternative montrent la présence d erreurs d estimation de linéarité lorsque le circuit sous-test présente des valeurs de DNL et INL très grandes en valeur absolue. Dans un premier temps, on va essayer d analyser les sources éventuelles des erreurs d estimations. On commencera par un examen du modèle comportemental pour voir s il aura besoin d être améliorée, sinon, on va étudier en profondeur les caractéristiques et le fonctionnement des convertisseurs pipeline pour mieux comprendre les sources des erreurs d estimation des linéarités par cette méthode et éventuellement l améliorer, étant donné que ses bases théoriques semblent solides et correctes telles qu elles ont été présentées dans [10]. [10] J. Lin, T. Kung, S. Chang, A Reduced Code Linearity Test Method for Pipelined A/D Converters, 17th Asian Test Symposium, pp , [11] J. Troadec, Principes de conversions analogiquenumérique et numérique-analogique, DUNOD, Paris, [12] M. Dubois, H-G. Stratigopoulos, S. Mir, Hierarchical Parametric Test Metrics Estimation: A ΣΔ Converter BIST Case Study, IEEE International Conference on Computer Design, pp , Références [1] F. Azaïs, S. Bernard, Y. Bertrand and M.Renovell, A Low- Cost BIST architecture for Linear Histogram Testing of ADCs, Journal of Electronic Testing: Theory and Applications, Vol. 17, No. 2, pp , Apr [2] Y. Wang, J. Wang, F. Lai, Y. Ye, Optimal Schemes for ADC BIST Based on Histogram, Proceedings of the 14 th Asian Test Symposium, pp.52-57, Dec [3] K. Arabi and B. Kaminska. Efficient and Accurate Testing of Analog-to-Digital Converters Using Oscillation-Test Method, in Proc. IEEE European Design and Test Conference, Paris, France, pp , Mar [4] S. Sunter and N. Nagi. A Simplified Polynomial-Fitting Algorithm for ADC and ADC BIST, in Proc. IEEE International Test Conference, Washington D.C., USA, pp , Nov [5] A. Roy, S. Sunter, A. Fudoli And D. Appello. High Accuracy Stimulus Generation for A/D Converter BIST, in Proc. IEEE International Test Conference, Baltimore, USA, pp , Oct [6] Y.C. Wen and K.J. Lee, An on Chip ADC Test Structure, in Proc. IEEE Design, Automation and Test in Europe Conference, Paris, France, pp , Mar [7] Y.C. Wen, "A BIST scheme for testing analog-to-digital converters with digital response analyses," VLSI Test Symposium, Proceedings. 23rd IEEE, vol., no., pp , 1-5 May [8] L. Jin, K. Parthasarathy, T. Kuyel, D. Chen, R.L. Geiger, Accurate testing of analog-to-digital converters using low linearity signals with stimulus error identification and removal, IEEE Transactions on Instrumentation and Measurement, Vol. 54, No. 3, pp , [9] L. Jin, K. Parthasarathy, T. Kuyel, R. Geiger, D. Chen, High-Performance ADC Linearity Test Using Low- Precision Signals in Non Stationery Environments, International Test Conference 2005.

54 Méthodes d analyse de l impact d une décharge électrostatique survenant sur un système électronique sur puce Nicolas MONNEREAU Université de Toulouse; UPS, INSA, INP, ISAE ; UT1, UTM, LAAS ; CNRS ; LAAS ; 7 avenue du colonel Roche, F Toulouse, France nicolas.monnereau@laas.fr Résumé Dans ce papier, des méthodes de modélisations et des techniques de caractérisations d un système soumis à des décharges électrostatiques sont décrites et les résultats obtenus sont mis en évidence. 1. Introduction Durant leurs utilisations, les produits électroniques sont soumis à des décharges électrostatiques (en anglais : ESD ElectroStatic Disharge) pouvant induire des défaillances de fonctionnements et/ou de destructions. Pour s affranchir de ce type de défaillances, des tests sont effectués dans l industrie suivant les standards IEC [1] et ISO10605 [2] pour l automobile. Lorsqu une défaillance du produit est révélée, il n existe aucun outil, aucune méthode permettant d analyser ou de prédire le comportement du système. Les concepteurs du système remanient le produit jusqu'à ce que celui-ci remplisse les exigences du standard, sans avoir suffisamment de méthodes d investigation pour comprendre ce qui se passe durant la décharge. Ceci peut conduire à de nombreuses conceptions incorrectes avant de trouver une solution qui n est pas forcément la plus efficace et la plus économique. Les travaux de ma thèse sont orientés sur le développement de méthodes de modélisation et de caractérisation permettant d analyser un système et de comprendre les modes de propagation et de défaillance lorsque survient une décharge électrostatique. Ce papier est organisé en trois parties. Suite à l introduction, la première partie décrit une méthode de modélisation d un système utilisée pour analyser la propagation d une ESD et la susceptibilité. La deuxième partie détaille les différentes méthodes d injections et de mesures. Enfin la dernière partie conclue ce papier. 2. Développement d une méthode de modélisation. Cette section décrit une méthode de modélisation comportementale permettant d analyser la propagation du courant de décharge dans un système depuis un générateur ESD jusqu aux phénomènes internes pouvant induire des perturbations dans les circuits. La partie 2.1 illustre le principe de cette méthode, la partie 2.2 détaille les difficultés de modélisation d un système et la partie 2.3 donne quelques résultats obtenus. 2.1 Principe Le système est décomposé en plusieurs parties : les circuits intégrées, le PCB (circuit imprimé, en anglais : Print Circuit Board), et les éléments extérieurs au système (source de la décharge). Chacune de ces parties est modélisée de manière indépendante en VHDL-AMS [3]. (en anglais : Very-high-speed integrated circuit Hardware Description Language Analog and Mixed Signals) formant un block élémentaire. Le VHDL-AMS permet la description de modèles comportementaux multi abstractions et la simulation de signaux mixtes nécessaire pour cette technique de modélisation. Les modèles des pistes du circuit imprimé sont basés sur les travaux précédemment réalisés par N. Lacrampe [4]. La modélisation de la fonctionnalité des circuits est elle basée sur un modèle comportemental de circuit existant appelé IBIS [5] (en anglais : Input/output Buffer Information Specification.). Développé à l origine pour effectuer des simulations d intégrité du signal, ces modèles ont été adaptés pour prédire des phénomènes ESD dans [6-7]. Le concepteur de système dispose ainsi d une bibliothèque de blocks élémentaires qu il peut assembler de manière hiérarchique pour modéliser le système complet comme illustré dans la figure 1. La construction de chaque block élémentaire est décrite dans [6]. En suivant ce principe, il est possible de modéliser n importe quel système suivant sa topologie et d effectuer la simulation de systèmes complexes. 2.2 Difficultés de modélisation Le principe de la méthode de modélisation reste relativement simple. Cependant, de nombreuses difficultés sont à prendre en considération pour réaliser des modèles et effectuer des simulations ESD. En effet, d un point de vue concepteur de système, aucune information sur le réseau de protection ESD nécessaire à la modélisation, n est disponible. Les fondeurs de circuits

55 intégrés ne fournissent pas ces informations par soucis de propriété intellectuelle. Des mesures avec des outils de caractérisations tel que par exemple le TLP [8] (en anglais : Transmission Line Pulsing) sont nécessaire pour extraire des paramètres utile à la modélisation. Une fois identifié et avec des paramètres extraits des mesures, la modélisation d une protection ESD n en est pas simple pour autant. Des structures complexes tels que des thyristors ou des transistors bipolaires auto polarisés typiquement utilisées comme protection, induisent de fortes discontinuités lors de leurs déclenchements. Pour prendre en compte ces discontinuités, deux solutions ont été comparées: modéliser le comportement à partir du fonctionnement physique [9] ou le modéliser de manière purement comportemental en utilisant astucieusement la possibilité de réaliser des simulations mixtes du VHDL- AMS [10]. Le réglage du simulateur, (pas de calcul, précision, initialisation DC ) doit être effectué finement. En effet, les transitions de courant liées aux décharges électrostatiques sont très fortes, quelques ampères en une nanoseconde (di/dt très grand), pouvant induire des problèmes de convergence. De plus, les fortes différences de tension des générateurs ESD (quelques kilovolts) et les tensions de fonctionnement du système (quelques Volts) peuvent provoquer des mauvaises initialisations DC du système. Enfin, une décharge peut survenir entre deux points d un système et pas seulement entre un point et la masse. Le courant de décharge peut donc circuler par la masse sans forcement être évacuer par celle ci. Il est donc nécessaire de reconsidérer la «masse» du simulateur, que nous appelons «référence» et que nous plaçons judicieusement en un point du système. Les simulations sont alors analysées en différence de potentiel. Toutes les informations nécessaires sont extraites d éléments disponibles (documentation technique, modèle IBIS) ou par mesure. La modélisation est comportementale et peut être réalisée par n importe quel ingénieur système souhaitant analyser sont système face au ESD. 2.3 Résultats Cette méthode de modélisation, a dans un premier temps, été mise en œuvre pour analyser l impacte d une capacité de découplage d un circuit sur la propagation du courant issue d une décharge électrostatique [6]. La figure 2 donne les résultats de simulations du courant qui circule dans le circuit corrélés avec les mesures. Sans capacité de découplage, tout le courant injecté avec le TLP (1A) circule dans le circuit comme attendu pour le réseau de protection donné. L ajout d une simple capacité externe de découplage dans le système modifie la propagation du courant ainsi que le comportement du réseau de protection du circuit. Des interactions complexes sont apparues entre le système, les effets inductifs du boitier (package) et les protections ESD intégrées. Tous ces phénomènes ont pu être expliqué dans [6] à partir de l analyse de la simulation. Figure 2. Comparaison des mesures et des simulations du courant qui circule dans le circuit intégré pour différentes valeurs de la capacité de découplage externe [6]. Une autre étude visant à étudier la susceptibilité d un système soumis à une décharge électrostatique a été réalisée dans [7]. La piste d alimentation d une bascule D montée en diviseur de fréquence est perturbé par une décharge et la tension de sortie du circuit est observée pour voir si une défaillance de fonctionnement a lieu. Le critère de défaillance, prise en compte pour cette étude de susceptibilité est la perte d un front d horloge. Les simulations du système, modélisé suivant la méthode décrite précédemment, permettent de reproduire les défaillances obtenues comme le montre la figure 3. Dans la simulation 1, il n y a pas de défaillance suivant le critère choisi. Dans la simulation 2, une perte de front d horloge a lieu induisant une défaillance comme l avaient laisser présager les travaux [11-12]. La simulation du système complet nous a permis de comprendre le mécanisme de génération de la défaillance et de mettre en place une loi de probabilité définissant le taux d erreurs en fonction du niveau de courant ESD injecté et de la valeur de la capacité de découplage. Figure 1. Assemblage de blocks élémentaires suivant la topologie du système pour le modéliser.

56 transmissions, permet de s affranchir de ces problèmes tout en ayant une forme simple à analyser. Une corrélation entre les défaillances générées par ce générateur et le pistolet ESD reste toutefois à réaliser. Une méthode d injection indirecte a été mise en œuvre pour l injection de perturbations transitoires. Cette technique consiste à injecter les perturbations à l aide de pistes PCB couplé ou d une sonde de champs proche placé au dessus d une piste ou d une broche d un circuit. Cette technique, transcription directe de la norme IEC [18], est destinée à évaluer l immunité des systèmes face aux rayonnements électromagnétiques liés aux décharges ou la susceptibilité aux perturbations couplées à l intérieur du système. Figure 3. Comparaison des mesures et des simulations de la tension de sortie dans deux cas : (a) la perturbation ESD n induit pas de perte de front d horloge. (b) la perturbation ESD induit une perte de front d horloge [7]. Enfin, l application sur un cas d étude industrielle a permis de valider la technique de modélisation [13]. Cette étude met en évidence l impact d une capacité utilisée comme filtre EMI (en anglais: ElectroMagnetic Interference) sur la propagation du courant dans un circuit. 3. Développement de techniques de caractérisation Cette section décrit les techniques d injection et de mesure, développées au cours de la thèse, permettant d obtenir une caractérisation précise d un système soumis à des ESD. Ces techniques ont notamment été utilisées pour effectuer des corrélations de mesures avec les simulations obtenues par la méthode de modélisation précédemment décrite. 3.1 Techniques d injection Une technique d injection direct appelé DPI (en anglais : Direct Power Injection), inspiré de la norme EMC (en anglais : ElectroMagnetic Compatibility) IEC [14], a été développée pour étudier la susceptibilité des systèmes face aux ESD. Cette technique consiste à ajouter des réseaux de découplage entre les générateurs ESD et les pistes polarisées du système. Cela permet de stresser un système sans que l alimentation de celui-ci ne débite du courant dans le générateur ESD. Cette technique a notamment été utilisée dans l étude [7] pour perturber l alimentation. Un générateur 50Ω «double impulsion», inspiré de [15], a été développé pour reproduire de manière la plus simple possible la forme du courant de décharge définie par le standard IEC [1]. En effet, les générateurs de décharge conforme à ce standard (ou pistolets ESD) souffrent de problèmes de reproductibilité [16]. De plus, ils émettent des champs électromagnétiques [17] pouvant perturber les mesures effectuées lors des tests. Le générateur double impulsion, réalisée autour de lignes de 3.2 Techniques de mesure Une mesure, appelé «mesure 1Ω» a été mise en œuvre dans [6] pour mesurer le courant circulant dans un circuit. Cette technique, extraite de la norme IEC [18] et adapté pour les ESD, consiste à ajouter une résistance de 1Ω sur le chemin entre le circuit et le plan de masse. Le courant issue du circuit et circulant vers la masse induit une différence de potentiellement aux bornes de cette résistance. Une sonde formée de la 1Ω et d une résistance de 49Ω, permettant de conserver une adaptation 50Ω, est utilisée pour mesurer cette tension. On obtient ainsi une image du courant qui circule dans le circuit. Bien que la mesure 1Ω présente un certain intérêt de part la facilité de sa mise en œuvre et l analyse des résultats, elle reste invasive car elle décale le potentiel de référence du circuit. Ainsi, une autre méthode a été mise en œuvre pour mesurer le courant circulant dans une piste PCB. Une sonde de champ proche est positionnée au dessus d une piste du PCB ou d une broche du circuit, comme illustré à droite sur la figure 4, pour capter les champs magnétiques émient lors du passage des forts courant ESD. En intégrant les champs mesurés, il est possible de recalculer le courant qui a circulé dans la piste. Cette technique de mesure a été validée par corrélation avec une mesure 1Ω dans [19]. La figure 4 montre une comparaison du courant obtenue avec la technique de mesure 1Ω et le courant recalculé à partir des champs magnétiques mesurés avec la sonde de champ proche. Figure 4. Comparaison des mesures du courant ESD circulant dans une piste PCB obtenues avec la méthode de mesure 1Ω et la technique de la sonde de champ magnétique.

57 Une extrapolation de la mesure de courant par champ proche a été développée pour être appliquée à l ensemble d un PCB. La sonde de champs est balayée sur la surface du PCB. A chaque pas de la sonde, la perturbation ESD est répétée et les champs émis sont enregistrés. Cela permet de réaliser une cartographie de la répartition du champ magnétique dans l ensemble du système. D autre part, il est possible en intégrant les champs obtenus de calculer la répartition dynamique du courant dans le système. Le rendu obtenu, illustré figure 5, permet de quantifier où le courant circule durant l impulsion ESD. La méthode de scan de champ proche donne de très bon résultat sur la répartition de courant dans le système. Cette technique peut être améliorée en réalisant des sondes de champ plus fines et en améliorant l algorithme qui recalcule le courant à partir du champ Figure 5. Cartographie du courant ESD se répartissant dans le système, mesure obtenue par la technique de scan de champ proche. 4. Conclusions Ce papier présente des méthodes de modélisations et des techniques de caractérisations qui ont été développées pour permettre de prédire l impacte d une décharge ESD dans un système aussi bien d un point de vue robustesse que susceptibilité. Ces méthodes permettent d analyser la propagation du courant ESD dans tout le système et comblent ainsi les manques actuels de techniques d investigation. Les différentes études exposées dans ce papier illustrent la validité des méthodologies développées. De bonnes corrélations entre les mesures et les simulations sont obtenues. Ces techniques sont proposées aux comités de standardisation ESDA (en anglais : ElectroStatic Discharge Association) de façon à être largement utilisées dans le milieu industriel. Outre les techniques de mesures qui peuvent être utilisées directement, il faut cependant influencer les industriels à améliorer les modèles IBIS (qui sont la base de notre technique de modélisation) pour permettre la simulation de phénomènes ESD. Remerciement L ensemble de ces travaux a été réalisé dans le cadre du projet ANR VTT (Véhicule pour les Transport Terrestre), E-SAFE (Esd SAFE electronic producs for automotive applications) Références [1] IEC Electromagnetic compatibility (EMC) Part 4-2: testing and measurement techniques electrostatic discharge immunity test. Ed 2.0, ISBN: [2] ISO Road vehicles test methods for electrical disturbances from ESD [3] IEEE , VHDL Analog and Mixed-Signal, 1999 [4] N.Lacrampe, Phd thesis Méthodologie de modélisation et de caractérisation de l immunité des cartes électroniques vis-à-vis des décharges électrostatiques (ESD) University of Toulouse, France, 2007 [5] IBIS (Input Output Buffer Information Specification) ANSI/EIA-656B, [6] Monnereau, N.; Caignet, F.; Tremouilles, D.;, "Buildingup of system level ESD modeling: Impact of a decoupling capacitance on ESD propagation," Electrical Overstress/ Electrostatic Discharge Symposium (EOS/ESD), nd, vol., no., pp.1-10, 3-8 Oct [7] N.Monnereau; F.Caignet; D.Tremouilles; N.Nolhier; M.Bafleur; Investigating the Probability of Susceptibility Failure Within ESD System Level Consideration EOS/ESD Symposium, [8] T.Maloney et N.Khurana, "Transmission line pulsing techniques for circuit modeling of ESD phenomena", 7th EOS/ESD Symposium, p , Minneapolis, MN, 1985 [9] D.Tremouilles, N.Monnereau, F.Caignet, M.Bafleur: Simple ICs-internal-protection models for system level ESD simulation. International Electrostatic Discharge Workshop 2010, Tutzing [10] E. Christen, K. Bakalar, A. Dewey, E. Moser, Analog and mixed signal modeling using the VHDL-AMS language, IEEE 36th Design Automation Conference Tutorial, June 21-25, ACM Press, 1999 [11] N. Lacrampe, A. Boyer, F. Caignet, Investigation of effects of an ESD pulse injected by a near-field probe into an oscillator block of a 16-bit microcontroller, IEEE EMC Workshop 2007 [12] Lacrampe, N.; Alaeldine, A.; Caignet, F.; Perdriau, R.;, "Investigation on ESD Transient Immunity of Integrated Circuits," Electromagnetic Compatibility, EMC IEEE International Symposium on, vol., no., pp.1-5, 9-13 July 2007 [13] P. Besse, F. Lafon, N. Monnereau, F. Caignet, J.P. Laine, A. Salles, S.Rigour, M. Bafleur, N. Nolhier, D. Trémouilles: Cooperative Generic IC Characterisation and Simulation Methods for ESD System Level Stress. EOS/ESD Symposium, 2011 [14] IEC : Integrated circuits, Measurement of electromagnetic immunity 150 khz to 1 GHz - Part 4: Direct RF power injection method [15] E. Grund et al., Delivering IEC current pulses through transmission lines at 100 and 330 ohm system impedances, in Proc. EOS/ESD Symp., Sept. 2008, pp [16] D. Lin, D. Pommerenke, J. Barth, L. G. Henry, H. Hyatt, M. Hopkins, G.Senko, D. Smith, Metrology & methodology of system level ESD testing, EOS/ESD Symposium, [17] Honda, M., "Measurement of ESD-gun radiated fields," 29th EOS/ESD Symposium, [18] IEC , Electromagnetic Compatibility (EMC), Integrated circuits, Measurement of electromagnetic emissions, 150kHz to 1GHz Part 4: Measurement of conducted emissions - 1W/150W direct coupling method. [19] F.Caignet, N.Monnereau, N.Nolhier: Non-Invasive System Level ESD Current Measurement using Magnetic Field Probe International Electrostatic Discharge Workshop 2010, Tutzing

58 Conception d un Convertisseur Analogique-Numérique pour des Applications en Radioastronomie et Cosmologie Diego R. MATTOS, Jean-Baptiste BEGUERET Université de Bordeaux Laboratoire IMS UMR 5218 CNRS 351, cours de la Libération Talence Cedex Alain BAUDRY Université de Bordeaux LAB (OASU) UMR 5804 CNRS 2, rue de l'observatoire Floirac Cedex diego.rossoni-mattos@ims-bordeaux.fr Résumé Un Convertisseur Analogique-Numérique a été développé, en technologie CMOS 65 nm de chez STMicroelectronics, pour des applications en radioastronomie et cosmologie. Pour ce domaine d applications, les spécifications plus contraignantes concernent les hautes-fréquences du signal d entrée, dans ce cas pouvant atteindre les 8 GHz. La fréquence maximale d échantillonnage est aussi de 8 GHz et la résolution de 3 bits. 1. Introduction L évolution croissante de la vitesse de fonctionnement des composants électroniques a fait avancer tous les domaines de la science avec des équipements de plus en plus performants. Dans ce contexte, les outils et appareils de mesure, détection, analyse et calcul sont en constante amélioration et ils deviennent vite dépassés. Cela exige des mises-à-jour et dans certains cas le développement des nouveaux systèmes pour optimiser les performances. Les caractéristiques exigées d un Convertisseur Analogique- Numérique (CAN) par les applications radioastronomiques n est pas toujours en accord avec celles proposées par les circuits disponibles au commerce, qui offrent souvent des résolutions importantes, mais qui convertissent des fréquences plus basses. L évolution des ces systèmes plus spécialisés passe donc par le développement des nouveaux circuits électroniques. Avec ses 8 GHz de bande analogique d entrée et 8 giga échantillons par seconde, l objet de ce travail constitue la deuxième génération des CANs de l interféromètre ALMA (Atacama Large Millimeter Array) au Chili. Une résolution de 3 bits est exigée pour le circuit. Un bloc échantillonneur-bloqueur a été intégré afin de diminuer les contraintes temporelles du convertisseur. Le standard de sortie est le LVDS (Low Voltage Differential Signaling) pour adapter le circuit aux FPGAs qui seront ensuite utilisés. Dans la séquence du texte, les détails de ce travail seront expliqués. 2. La Conception du Circuit Les contraintes de bande passante nous ont amenés à choisir l architecture Flash pour le CAN, car parmi les architectures habituelles de convertisseurs analogiquenumérique est celle qui a la bande passante la plus importante. La Figure 1 montré le diagramme de blocs du circuit. L architecture de base est la même de [1] et [2]. L entrée du circuit est différentielle avec l impédance adaptée à 50 Ω, ainsi que l entrée d horloge. Sur l entrée du circuit on trouve un bloc échantillonneur-bloqueur, Ces blocs seront décrits ultérieurement dans la suite du texte. E-B Contrôle de phase Amplificateur d entrée Commande Horloge T&H Echelle de Références Comparateurs DFF Contrôle de phase Encodeur Amplificateur d horloge DFF_Synchronisation Contrôle de phase Figure 1. Diagramme de blocs du CAN 1:4 Demultiplexeur 1:4 Contrôle de phase Buffers LVDS La technologie choisie pour le CAN est la CMOS 65 nm de chez STMicroelectronics. La tension d alimentation est fixée à 1,2 V. 2.1 L Echantillonneur-Bloqueur Avec une architecture entièrement différentielle, basée sur [3], permettant la diminution du bruit et l augmentation de la vitesse, ce bloc a pour but de mémoriser une valeur de tension analogique pour un certain temps et collaborer ainsi avec les blocs suivants du système qui n auront plus un signal un mouvement à convertir, mais un signal constant. L influence des incertitudes liées à l horloge est donc minimisée. Sur la figure 2 on peut voir un signal à 3,9 GHz être échantillonné par une horloge à 8 GHz. On constate que le

59 pendant plus de 40 ps le signal analogique a été mémorisé avec une petite variation de 2,9 mv sur le palier. (b) Figure 3. (a) Gain et (b) point de compression -1 db de l amplificateur d entrée Figure 2. Sortie différentielle de l échantillonneurbloqueur 2.3 Les Comparateurs et DFFs L ensemble comparateurs et DFFs (Differential Flip- Flop) constitue une structure très importante du CAN car c est là que la décision sur quel état numérique correspond le signal d entrée est prise. En conséquence, il est extrêmement important que toute sorte d erreur soit minimisée. Pour cela, des précautions ont été prises lors de la conception concernant surtout les caractéristiques non-métrisables qui sont les erreurs introduites lors de la fabrication. Les transistors utilisés dans ces blocs ont été choisis pour présenter une meilleure robustesse compte tenue de l offset. Sur la Figure 4 on peut voir la diminution de l offset obtenue grâce à ces composants d haute performance. On peut voir que l écart-type de l offset a été réduit de plus de 2 mv. 2.2 L Amplificateur d entrée La fonction de ce bloc est d amplifier le signal fourni par l échantillonneur-bloqueur pour adapter l amplitude à la pleine-échelle des comparateurs. Ce bloc est très contraignant car il est chargé par plusieurs comparateurs, il doit aussi avoir une bonne dynamique pour bien reproduire les paliers du signal bloqué sur la charge et aussi avoir une bonne linéarité malgré le fort gain et les grandes amplitudes requises en sortie. L intégration d un amplificateur de transimpédance assure le contrôle de la tension de mode commun en sortie. La Figure 3 montre le gain en db (entre 15 et 19 db dans la bande de 4 à 8 GHz) et le point de compression (-22 dbm en entrée) de l amplificateur d entrée. (a) Figure 4. Distribution de l offset pour (a) comparateur classique et (b) comparateur à faible offset (b) (a) 2.4 L Encodeur et le démultiplexeur La fonction d encodage est réalisée en deux étapes. Dans un premier temps, 8 portes NAND identifient, par un niveau logique 1 en sortie, la position du signal d entrée par rapport aux 7 références de tension. La figure 5 montre le positionnement du signal d entrée (rampe) par rapport aux références de tension et aussi les sorties des portes NAND. Ensuite, la conversion de ce nouveau code avec un seul 1 vers le code Gray est faite avec un encodeur FDL (folded differential logic). Les sorties sont donc synchronisées après l encodeur. Le démultiplexeur 1 vers 4 a été intégré dans le circuit pour diminuer le débit et faciliter les testes car les appareils disponibles pour le mesures ne sont pas capables de traiter des données à 8 GHz. En plus de ce démultiplexeur intégré, un autre démultiplexeur du commerce sera utilisé sur PCB afin de diminuer encore la vitesse à 500MHz (débit maximal des outils de teste).

60 (a) 3. Conclusions Un CAN avec 3 bits de résolution visant les applications en radioastronomie a été développé en technologie CMOS 65 nm. Avec une fréquence d échantillonnage et une bande passante égales à 8 GHz, ce circuit présente une architecture Flash avec les particularités d avoir intégré un échantillonneur-bloqueur et un démultiplexeur de 1 vers 4. La fonction d échantillonnage et blocage n étant pas obligatoire dans l architecture flash a été utilisée pour minimiser les contraintes liées à la vitesse de fonctionnement et le circuit démultiplexeur diminue la vitesse de sortie afin de viabiliser les testes. Le circuit présente une consommation en puissance totale de 600 mw. Après fabrication et testes, l objectif sera d augmenter la résolution à 6 bits pour encore plus de précision. Références (b) Figure 5. (a) Passage du signal d entrée (rampe) par les références et (b) réponse des portes NAND 2.5 La distribution de l horloge La distribution est un point très sensible du système. Afin d assurer un fonctionnement optimal du circuit, plusieurs blocs de contrôle de la phase de l horloge permettant donc, de mieux maîtriser l arrivée des fronts montants de l horloge sur chaque bloc, ont été intégrés. Un contrôle de l horloge a aussi été intégré afin de déshabiliter l échantillonneur-bloqueur, de façon à ce que les performances puissent être comparées. [1] A. A. Mariano, D. Dallet, Y. Deval, J-B. Begueret, "4GHz continuous-time bandpass delta-sigma modulator for directly high IF A/D conversion", Proceedings of the 19th annual symposium on Integrated circuits and systems design, (2006). [2] C. Recoquillon, J. B. Begueret, Y. Deval, G. Montignac, A. Baudry, "A 4Gsps, 2-4 GHz Input Bandwidth, 3-bits Flash A/D Converter", ICECS 2004, Tel-Aviv, Israel, (2004). [3] S. Shahramian, S.P. Voinigescu, A.C. Carusone, A 30- GS/sec Track and Hold Amplifier in 0.13-µm CMOS Technology, in Proc. Custom Integrated Circuits Conference, CICC '06, p Buffers LVDS Le standard de sortie circuit est le LVDS (Low- Voltage Differential Signaling) qui a été imposé par le démultiplexeur du commerce qui sera utilisé sur PCB et qui possède le standard LVDS comme standard d entrée. Pour cela, un bloc a été conçu de façon a assurer le maintient du mode-commun et les tensions maximale et minimale. Afin d y parvenir, la tension d alimentation a du être augmentée de 1,2 V à 1,8 V et une rétroaction assure la tension de mode-commun de 1,2 V. La figure 6 montre le diagramme de l œil de la sortie des buffers LVDS. Figure 6. Diagramme de l œil des sorties LVDS

61 Characterization of Flip-Flops for ageing phenomena: NBTI and HCI Natalia RUIZ 1,2 Grenoble INP, 1.TIMA Laboratory 46, avenue Félix Viallet Grenoble Vincent HUARD 2 Lorena ANGHEL 1, 2.STMicroelectronics 850, rue Jean Monnet F Crolles Cedex amador_natalia@yahoo.com Abstract This paper will focus on the characterization of flip-flop timing degradation due to Negative Bias Temperature Instability (NBTI) and Hot Carrier Injection (HCI) intrinsic reliability degradation modes. We propose a new methodology which takes into account both the internal degradation as well as the environmental impact on the overall degradation of the flip-flop. Several cells in 45 nm technology were evaluated with the proposed approach to illustrate how the internal and external degradations can influence the flip-flop timing performance. 1. Introduction In the race for both performance and miniaturization, the significance of an accurate timing characterization on flip-flop has increased. In current characterization methods two constraints are mainly considered, i.e. setup time and hold time [1-2]. However during the characterization of flipflop, the variation in the delay as well as in constraints due to ageing phenomena should be included. Several works [3-5], have already discussed the impact of NBTI on flip-flop performance. More recently, it was shown in [6] the importance to take into account signals probabilities on a critical path in order to correctly predict the performance degradation. However in the current library characterization methods, the relevant information about the external environment and its correlation with the internal degradation of the flip-flop is not considered. Factors such as circuit operation mode and the shift setup skew (caused by ageing phenomena) in signal inputs might yield to different impact of the electrical ageing. In this paper, a comprehensive methodology is proposed where the correlation between the environmental conditions and the internal degradation of flip-flop is analyzed, increasing the accuracy of flip-flop timing characterization methods. The rest of the paper is organized as follows: Relevant background material is provided in section II. Environmental factor influences on the degradation flip-flop performance is described in section III. Section IV presents the application of the proposed methodology, the experimental setup and the simulations results. 2. Preliminaries 2.1 Terminology For the purpose of clarification, we will give definitions of timing parameters used in this paper. Setup Skew is the time difference between data arrival and the latching edge of the clock signal. Hold Skew is the time difference between data release by the latch and the arrival of the latching edge of the clock signal. CLK-to-Q refers to a propagating delay from the CLK terminal input to the Q terminal output. 2.2 Ageing Simulation Flow This section aims to describe the ageing simulation flow and the tools used. The ageing simulation flow can be divided roughly in three stages. In the first stage, ClktoQ delay is evaluated in absence of any ageing phenomena. Such phenomena are considered in the second stage. Parameters such as temperature and supply voltage are increased to the maximum allowed values. Finally in the third stage, so-called characterization stage, the ClktoQ delay is recalculated considering that the transistors have been affected by an electrical ageing. The difference between the two values of the ClktoQ represents the degradation caused by ageing phenomena on flip flop performance. ELDO simulator has been enhanced to communicate with a proprietary Application Programming Interface named UDRM [7] (see Fig. 1), in which stress models are encoded in a flexible way [8-10].

62 ClktoQ Degradation (%) ClktoQ Degradation (%) Netlist Simulator Fresh sim Nominal Results Model Parameters OTF analysis Comparison Aging related commands Analysis Updated SPICE parameters Simulate Aged Aged Results STATISTICAL MODULE User Defined Reliability model Transistor Degradation Reliability parameters SPICE parameters evolution HCI NBTI Figure 1: Schematics of the reliability simulation flow. DATA HIGH DATA LOW -1 CGdH CGdL SP0% SP50% SP100% CGdH CGdL SP0% SP50% SP100% Input signal probability Input signal probability (a) (b) Figure 2: NBTI and HCI effect on ClktoQ delay at setup skew given HCI NBTI 3. Impact of environmental and internal parameters In this section we illustrate how external parameters (operation mode of the circuit, shift in the setup skew) and internal factors (sensitivity to ageing) influence flip-flop performance degradation. 3.1 Operation Mode In a standard digital circuit it is possible to find two different functional conditions which might impact differently on electrical ageing. The first situation is so-called Clock Gating. In this operating mode, the clock is stopped in non used circuit parts in order to minimize the overall power consumption. The second situation is normal operating mode, where the clock duty cycle is 50%. To represent Clock Gating mode, we have chosen to set the value of the clock at zero on the flip-flop pin while with data pin value is set at zero (clock gating with data low CGdL ) and at one (clock gating with data high CGdH ) so to represent the two possibilities that can be found in real circuits. For the normal operating mode three values of SP were set in the data input [SP0%, SP50%, SP100%] while the clock duty cycle was set at 50 %. Signal Probability (SP) is amount of time in which the data value is high (one logic). Note that these conditions are applied in the stress stage. For the characterization stage, clock SP and data SP were set at 50%. Figure 2 shows the degradation in ClktoQ delay for a D flip-flop (master-slave) in 45 nm. Figure 2a represents the flip-flop behavior (characterization stage) at input data equal at high, we observe that the HCI impact is significantly in the normal operation mode while in clock gating mode is smaller. This is due to the HCI phenomenon is mainly active during the transitions 0->1 or 1->0. Considering that in this case input data was set at high the NMOS devices feebleness is notorious. Besides it can be observed that the degradation in the normal operation mode is almost twice bigger than in the clock gating mode. While in the fig 2b this trend is not seen. This behavior can be explained by the fact that the internal data path to transfer a low is mostly controlled by PMOS devices. Additionally in this case input data was set a low and due to weakness of PMOS devices the degradation impact is more important than in the fig 2a. Note that in this case the majority of the degradation was caused for the NBTI phenomenon. Analyzing in detail both second bar (clock SP0%, data SP0%) and third bar (clock SP50%, data SP0%) we note that the difference between both degradations is only 25%, (see Fig.2b). This result is due to the fact that in the clock gating mode (CGdL bar) approximately 35% of PMOS devices were stressed with a high during 100% of the time.

63 ClktoQ Degradation(%) As consequence the transfer speed was affected in a significant percentage. 3.2 Setup skew and sensitivity to ageing Figure 3 shows ClktoQ rise caused by NBTI versus setup skew. The ClktoQ increase at a given setup skew describes the sensitivity of flip-flop to NBTI and HCI degradation on internal transistors. This sensitivity to ageing depends of the flip-flop design. Parameters such as: the number of PMOS devices and the number of PMOS devices in series can modify the total degradation suffers by a flipflop. In real circuits, not only the flip-flop is degraded but also it is the case for standard cells (inverters, logic ports, etc) located prior to the flipflop in the circuit path. To mimic this effect, we considered a simplified testcase with an inverter preceding a flip-flop, where both cells are degraded by NBTI. In this case, the total degradation of the path will be the addition of two degradations: The degradation of the inverter, that consists in a reduction of 5ps (illustration value) of the setup skew. An increase of ClktoQ caused by the internal degradation of the flip-flop. This is schematized in figure 3, where the point (1) is the initial condition at time zero (setup skew=110ps, ClktoQ=160ps) and the point (2) is the end condition (setup skew=105ps, ClktoQ =185ps). Thus the total degradation of the flip-flop performance will be of 25 ps. If the modification of the setup skew was not considered the final value of the total degradation would only be 19ps, point (3). Figure 3: Environmental and internal parameters influence on ClktoQ degradation This simple example illustrates the importance of taking into account not only the degradation of the flip-flop itself but also the influence of the Δsetup skew (as representative of the previous stage ageing) and the operation mode in calculation of the flipflop degradation. We propose thus, that these parameters would be included in the flip-flop ageing characterization methods. In next section we will use this methodology in order to characterize the degradation in a particular D flip-flop family. 4. Application approach The proposed methodology was applied on various D flip-flop cells as described in table 1. The simulation parameters, including stress conditions are summarized in table 1. Simulation Nomina Stress conditions l Time NA 2years Temperature 25 C 125 C Vdd 1.1V 1.21V Simulation Parameters Clock frequency: 1Ghz Hold Time:150ps Setup Time:130ps Clock slope:10ps Data slope:40ps Table 1: Simulation Parameters Flip- Flops Flip-flop general characteristics are described in table 2. Figure 4 shows the comparison of NBTI and HCI degradation for a group of eight flip-flops, where each one of them has a different architecture. During characterization stage data input pin was set at high and at low. Looking at figure 4, it can be seen that FF3 and FF2 are the least affected by electrical ageing while FF5 suffers the most impact. Note that in this case only the internal degradation was taking into account Holdskew: 150ps Setup skew:130ps Age stress: 2years SP:50% clockslope:10ps dataslope:10ps data high data low Function 0 FF1 FF2 FF3 FF4 FF5 FF6 FF7 FF8 Flip-Flops Number of transistors FF1 D->Q 26 FF2 D->Q with reset 32 FF3 D->QN with reset 32 FF4 D->QN with scan out 36 FF5 D->QN with scan out 36 FF6 D->Q with scan out 42 FF7 D->Q with scan out 50 FF8 D->QN with scan out 46 Table 2: General characteristics Figure 4: ClktoQ degradation caused by NBTI and HCI at clock slope, data slope and setup/hold skew given To achieve better accuracy during characterization the influence of the setup skew will be considered. The impact of the setup skew on ClktoQ degradation is shown in Fig. 5. In the first portion of

Montrer encore