Le traitement de l'image
Article 1
Zoom sur... le traitement de l'image
Rail & Recherche n°30 - janvier/février/mars 2004
La recherche médicale est très demandeuse de moyens de traitement de l’image pour améliorer les diagnostics.
Ce que voit une caméra est souvent très loin de la perception humaine, note Vincent Delcourt, responsable du projet Traitement de l’image. Lorsqu’il observe un objet, le cerveau de l’homme extrait une grande variété d’informations : la géométrie de l’objet, sa couleur, son état de surface, ou encore la matière qui le constitue. Il intègre aussi un certain nombre de données sur la manière dont il est éclairé, sur sa position dans l’espace… Il en déduit alors de nombreuses informations qui lui permettent d’avoir une idée de son volume et même de son toucher.” Les progrès de la technologie nous rapprochent un peu plus chaque jour du modèle humain. Mais quant à reproduire ce mécanisme avec un système de vision artificielle…
Du rayon au signal
À l’image de la gare RER Magenta, 120 gares vont être équipées de caméras de vidéosurveilance et pourraient bénéficier des dernières techniques d’aide à la vision.
Il n’empêche, les domaines d’application de la vision artificielle ne cessent de s’élargir. Par exemple, la recherche médicale est très demandeuse de moyens de traitement de l’image pour améliorer les diagnostics faits à partir d’appareils médicaux de plus en plus sophistiqués. Il est vrai que les progrès de l’acquisition d’images en termes de résolution et de fréquence sont incontestables. “L’acquisition constitue un des maillons essentiels de la chaîne du traitement de l’image, explique Vincent Delcourt. Pour acquérir des images, on utilise couramment des caméras vidéo et des appareils photo numériques. En médecine, les appareils sont multiples : IRM, TEP, scanner X, écho Doppler, échographie, scintigraphie… Mais tous ces systèmes peuvent être comparés à des capteurs. Ils sont conçus pour recueillir et focaliser un rayon lumineux — partie optique — et le convertir en signal électrique — partie électronique — qui est ensuite numérisé.” Une fois l’acquisition effectuée, vient le traitement proprement dit. Les algorithmes de reconnaissance de forme par traitement d’images se sont diversifiés et perfectionnés : pattern matching (corrélation normalisée), apprentissage statistique (réseaux de neurones), Geometric Model Finder dit GMF (recherche géométrique)… les chercheurs disposent aujourd’hui d’une véritable palette, mais le GMF focalise l’attention de nombre d’entre eux. Cette technique est bien adaptée à la conservation d’une information malgré les interconnexions ou le recouvrement d’objets. Elle est prometteuse pour la reconnaissance de forme appliquée à la vidéosurveillance des éléments de l’infrastructure, qu’il s’agisse de la voie et de la plate-forme ou de la caténaire. Elle pourrait aussi, semble-t-il, servir pour la reconnaissance de caractères. Une bonne nouvelle pour les gestionnaires de l’infrastructure, à la recherche de solutions pour l’identification des trains et des rails.
Des gains de l’ordre de 50 %
Le traitement de l’image peut aider la SNCF, d’une part, à améliorer la qualité de la maintenance des installations d’infrastructure de RFF ; d’autre part, à augmenter la sûreté des voyageurs et des personnels en gare, mais aussi à bord des trains. Pour la maintenance, des véhicules de mesures apprennent à ouvrir l’oeil. Mélusine est déjà équipée du système Ivoire. Avec MGV (mesures à grande vitesse), la SNCF voit… plus loin et plus grand. Vision artificielle de la caténaire, vision artificielle de la voie : la rame de TGV spécialement équipée fonctionnera à grande vitesse, préfigurant — peut-être — un TGV du futur capable de voir à distance pour anticiper les incidents de circulation. Par exemple, une barre de fer tordue sur le fil de contact, qui pourrait entraîner sa rupture au passage du pantographe et retarder les circulations. En attendant ce train au regard d’aigle, les applications de vidéosurveillance des installations ne visent pas à supprimer l’oeil de l’homme, mais à améliorer son acuité : “Les équipes de maintenance de la SNCF passent beaucoup de temps à se déplacer, dans des conditions très contraintes par les circulations ferroviaires, en particulier sur les LGV, analyse Jacques Couvert, directeur en charge de l’infrastructure. Avec les techniques de traitement de l’image, on peut envisager des gains de l’ordre de 50 % dans ces déplacements.”
Plusieurs défis techniques ont été relevés, les projets de recherche, européens ou nationaux, se bousculent : Advisor, Carsense, Cromatica, Prismatica, Ravioli, Samsit (Predit), Statue, Tess, Virtual Centre (6e PCRD)…
Industrialiser les solutions techniques
Pour la sûreté : des solutions techniques à l’automatisation de la vidéosurveillance des personnes en gare émergent. Par contre, la surveillance à bord des trains reste un sujet neuf avec ses contraintes spécifiques. Ces solutions ont été développées avec l’Inrets et l’Inria dans le cadre de projets européens pour dépasser le paradoxe de la vidéosurveillance : plus les caméras se multiplient, plus l’efficacité de la surveillance diminue. Impossible de placer un surveillant derrière chaque caméra ! Il faut donc aider l’oeil humain à repérer les “événements potentiellement dangereux”. Comment ? En isolant de façon automatique les séquences critiques au milieu d’un flot d’images vidéo acquises au rythme de vingt-cinq par seconde. Tout système de reconnaissance de forme fonctionne, pour simplifier, en deux temps : apprentissage d’un modèle — en l’occurrence, un scénario d’événement potentiellement dangereux —, puis comparaison des images réelles avec ce “modèle”. L’essentiel du “traitement” de l’image consiste donc à effectuer cette comparaison avec le taux d’erreur le plus bas possible. Aujourd’hui, les chercheurs affirment que leurs algorithmes en sont capables.
Reste à industrialiser les solutions développées dans les labos. La direction des Gares de la SNCF attend qu’un produit soit disponible sur le marché pour commencer à s’équiper. La direction Île-de-France (DIF), de son côté, a lancé le programme “Assistance vidéo” : 120 gares vont être équipées de façon méthodique de caméras de vidéosurveillance placées à différents endroits, à l’aplomb des bornes d’appel, par exemple. La lutte contre le vandalisme dans les garages de rames pourrait bénéficier des techniques d’aide à la vision. Mais attention : “Le traitement de l’image doit aller de pair avec une organisation systématique de la vidéosurveillance”, prévient Emmanuel Rivas, de la DIF. L’efficacité d’une surveillance automatisée sera jugée, in fine, sur la capacité de l’exploitant à intervenir sur le terrain pour neutraliser les menaces. Une question d’organisation, pas de technologie.
Voyage au centre d’une caméra
Le coeur de la caméra est le capteur CCD. Il se présente sous la forme d’un ensemble d’électrodes métalliques qui ont la faculté de générer un courant électrique lorsqu’elles sont atteintes par des photons. Toutes ces électrodes, carrées ou rectangulaires, appelées “puces”, correspondent aux pixels de l’image. Cette mosaïque de puces se nomme la “matrice”. Chaque puce, exposée à la lumière, accumule un nombre de charges proportionnel à la quantité d’énergie incidente.
Les potentiels électriques créés en surface de la puce sont alors accumulés dans les couches inférieures afin de fournir un voltage proportionnel à l’énergie reçue, compris entre 0 et 1 V. Dans l’intervalle, ces voltages se traduisent par un codage sur un nombre variable de bits, généralement 8 ou 16, ce qui signifie 256 (28) ou 65 536 (216) niveaux de gris.
Par exemple, pour un codage sur 8 bits, si aucune énergie n’a été reçue, le potentiel créé est nul, ce qui donnera la valeur 0 au pixel. Celui-ci sera donc noir. Au contraire, si le potentiel créé avoisine 1 V, le pixel prendra la valeur 255 et sera blanc dans l’image. L’image est alors représentée par cette succession d’éléments appelés pixels.


