Technologie de reconnaissance faciale. Isolement et reconnaissance des visages. Les principaux problèmes liés au développement des systèmes de reconnaissance faciale

19.06.2020

Ouvert nouvelle ère. La technologie de reconnaissance faciale est sa principale caractéristique. Et personne ne doute que cette méthode de déverrouillage sera implémentée dans de nombreux autres smartphones.

Dans les années 1960, des expériences spéciales ont été menées au cours desquelles un ordinateur devait apprendre à reconnaître le visage d’une personne. Ensuite, cela n’a abouti à rien, puisque toute émotion conduit à un échec. De plus, le système inventé craignait les conditions d'éclairage changeantes.

Ce n’est qu’à la toute fin du XXe siècle qu’apparaissent des systèmes qui apprennent à identifier les visages des gens à partir de photographies et à s’en souvenir. En même temps, ils n'échouent plus lorsqu'une moustache, une barbe, des lunettes et autres « interférences » apparaissent. De tels systèmes ont commencé à être mis en œuvre plus activement dans les appareils photo numériques. Ils ont également trouvé leur place dans le secteur de la sécurité.

Les systèmes de reconnaissance faciale présentent depuis longtemps un inconvénient majeur. Ils dépendaient fortement de l’éclairage et de l’angle. Cependant, ce problème n’était pas visible dans les scanners de sécurité. Le visage était pressé presque contre eux, puis éclairé par des lampes. L’introduction de la photographie stéréoscopique a contribué à éliminer l’inconvénient mentionné ci-dessus. Deux caméras comprennent la profondeur de la scène et la précision des lectures augmente donc plusieurs fois.

Comment fonctionne la technologie de reconnaissance faciale ?

Peu à peu, une nouvelle fonctionnalité a commencé à apparaître dans les smartphones. Ici, l'identification biométrique de l'utilisateur est mise en œuvre afin qu'une personne non autorisée ne puisse pas déverrouiller l'appareil. Idéalement, seul le jumeau peut accéder aux informations personnelles. Il n'y a pas lieu de s'inquiéter à ce sujet. Il est peu probable que quiconque cache sérieusement quelque chose à son frère ou à sa sœur. Et personne ne vous dérange pour définir un mot de passe supplémentaire pour lire certaines données particulièrement secrètes.

Le fonctionnement du système de reconnaissance faciale dans les smartphones peut être divisé en quatre étapes :

Numérisation du visage. Cela se fait à l'aide de la caméra frontale ou, comme dans le cas de l'iPhone X, d'un capteur spécial. Le scan est en 3D, donc l'astuce photo ne fonctionnera pas.
Extrayez des données uniques. Le système se concentre sur un ensemble de caractéristiques du visage numérisé. Il s'agit le plus souvent du contour des orbites, de la forme des pommettes et de la largeur du nez. Dans les systèmes avancés, des cicatrices peuvent également être visibles.
Récupération d'un modèle avec des données précédemment reçues de la mémoire.
Recherchez des correspondances. La dernière étape au cours de laquelle le système décide de déverrouiller ou non l'écran. La puissance des processeurs modernes vous permet de consacrer seulement une fraction de seconde à « réfléchir ».

La fonction de reconnaissance faciale peut être mise en œuvre même à l'aide de la caméra frontale, à condition qu'elle dispose de deux objectifs. Cependant, dans ce cas, le fonctionnement de cette fonction sera instable. Le fait est que seuls des capteurs spéciaux assureront la numérisation du visage même dans l'obscurité, tandis que la caméra frontale nécessite un éclairage vif. De plus, des capteurs spéciaux affichent virtuellement un plus grand nombre de points sur le visage, de sorte qu'ils se déclenchent même lorsqu'une barbe, des lunettes et d'autres obstacles apparaissent. En un mot, dans certains DOOGEE Mix 2, le système fonctionnera certainement nettement moins bien que dans l'iPhone X. Une autre chose est que le produit anniversaire d'Apple coûte beaucoup plus cher que tous les autres smartphones dotés d'une fonction de reconnaissance faciale.

La technologie est-elle l’avenir ?

Les capteurs nécessaires au scanning du visage nécessitent une installation parfaite. Un décalage de centièmes de millimètre entraînera le fait que le fonctionnement de la fonction ne sera plus idéal. Par conséquent, lors de la production d'un smartphone, une augmentation du nombre de défauts peut être observée, ce qui entraînera une augmentation de son coût. Et les capteurs eux-mêmes sont très chers ; ce n’est pas pour rien que seul Apple les utilise, même s’il ne possède aucun brevet pour eux.

En un mot, pour l'instant, les constructeurs Android mettront en œuvre la fonction de reconnaissance faciale à l'aide de la caméra frontale. Vous pouvez déjà le trouver dans les Samsung Galaxy S8 et Note 8. Mais les propriétaires de ces appareils vous confirmeront que cela ne fonctionne pas de la meilleure façon possible- plus facile à utiliser le scanner d'empreintes digitales. On ne peut donc encore rien dire sur l’avenir de la fonction. Nous devons attendre de voir si Apple implémentera les capteurs correspondants dans des smartphones plus abordables et s'ils apparaîtront dans les appareils Android.

Conclusion

Vous n'avez pas à vous soucier de la sauvegarde de vos données d'identification. Le modèle créé lors de la numérisation d'un visage se trouve dans une section de mémoire distincte - ce secteur ne peut pas être lu par un ordinateur ou des programmes tiers. Toutefois, cela s’applique également aux empreintes digitales. C'est à vous de décider quel type d'identification est le plus pratique à utiliser.

Avez-vous déjà tenu un smartphone capable de reconnaître votre visage ? Et vous attendez-vous à une mise en œuvre massive de cette fonctionnalité ? Partagez votre avis dans les commentaires, nous en serons ravis !

La tâche d’identification du visage d’une personne dans un environnement naturel ou artificiel et son identification ultérieure ont toujours été parmi les tâches les plus prioritaires pour les chercheurs travaillant dans le domaine des systèmes de vision par ordinateur et de l’intelligence artificielle. Cependant, de nombreuses recherches menées dans les principaux centres scientifiques du monde depuis plusieurs décennies n'ont pas conduit à la création de systèmes de vision par ordinateur réellement fonctionnels, capables de détecter et de reconnaître une personne dans toutes les conditions. Malgré la similitude des tâches et des méthodes utilisées dans le développement de systèmes alternatifs d'identification biométrique humaine, tels que l'identification par empreinte digitale ou image de l'iris, les systèmes d'identification par image faciale sont nettement inférieurs aux systèmes ci-dessus.

Un problème sérieux auquel sont confrontés les systèmes de vision par ordinateur est la grande variabilité des images visuelles associée aux changements d’éclairage, de couleur, d’échelle et d’angles d’observation. De plus, les gens ont l’habitude de marcher habillés dans les rues et à l’intérieur, ce qui entraîne une variabilité importante des images d’une même personne. Cependant, le problème le plus difficile en vision par ordinateur est celui de la désambiguïsation qui se pose lors de la projection d’objets 3D du monde réel sur des images plates. La couleur et la luminosité des pixels individuels d’une image dépendent également d’un grand nombre de facteurs difficiles à prévoir. Ces facteurs comprennent :

nombre et emplacement des sources lumineuses ;
couleur et intensité du rayonnement ;
les ombres ou les reflets des objets environnants.

La tâche de détection d’objets dans une image est également compliquée par l’énorme quantité de données contenues dans l’image. Une image peut contenir des milliers de pixels, chacun pouvant avoir une signification importante. La pleine utilisation des informations contenues dans l'image nécessite l'analyse de chaque pixel pour déterminer s'il appartient à un objet ou à un arrière-plan, en tenant compte de la variabilité possible des objets. Une telle analyse peut nécessiter des coûts élevés en termes de mémoire requise et de performances informatiques.

La solution à ce problème réside dans faire le bon choix descriptions d'objets pour la détection et la reconnaissance desquels un système est créé. La description d'un objet doit prendre en compte ses traits les plus caractéristiques et être suffisamment représentative pour distinguer cet objet des autres éléments de la scène environnante. Pour éviter toute subjectivité lors du choix de la description souhaitée, vous pouvez utiliser des méthodes de sélection automatique des caractéristiques appropriées d'un objet, qui sont implémentées dans des algorithmes génétiques et lors de la formation de réseaux de neurones artificiels. Dans le même temps, un certain nombre de paramètres dans la description de l'objet doivent actuellement être sélectionnés par un chercheur développant un système de détection et de reconnaissance. Ces choix incluent :

choix entre représentation 2D et 3D de la scène et de l'objet. Les algorithmes utilisant la représentation 2D sont généralement plus simples que les algorithmes 3D, mais nécessitent en même temps un grand nombre de descriptions différentes correspondant à la représentation de l'objet dans différentes conditions de visualisation ;
le choix entre décrire un objet comme un tout ou comme un système composé d'un certain nombre d'éléments interconnectés ;
choix entre un système de caractéristiques basées sur des caractéristiques géométriques ou autres décrivant les spécificités de l'objet.

Dans le cas le plus général, l'algorithme permettant de résoudre le problème de détection et d'identification d'une personne à partir d'une image de son visage comprend les étapes évidentes suivantes :

détection de la présence d'une personne dans la scène analysée ;
mettre en valeur la figure humaine;
sélection de la tête ;
déterminer l'angle de vision de la tête (visage complet, profil) ;
sélection de visages ;
comparaison avec les normes et identification.

En fonction des conditions spécifiques, la structure et la mise en œuvre des différentes étapes de l'algorithme peuvent varier. Dans le cas le plus difficile, lors de l'utilisation d'un système de détection et d'identification d'une personne par l'image de son visage dans un environnement très changeant, avec un flux important de données d'entrée (travail dans les rues de villes à fort trafic, dans le métro, les aéroports, etc.), il est nécessaire d’utiliser le maximum d’informations disponibles pour obtenir des résultats satisfaisants de l’algorithme. L'algorithme doit être capable de couper efficacement les éléments statiques et changeant lentement de la scène, de travailler dans différentes conditions d'éclairage, d'identifier la silhouette d'une personne sous différents angles, de suivre le mouvement de nombreuses personnes et de sélectionner automatiquement le moment approprié pour identifier une personne donnée ( par exemple, lorsqu'il est possible d'obtenir une image frontale d'un visage avec une résolution suffisante). Pour garantir de telles capacités de l'algorithme, une certaine richesse matérielle du système est requise, notamment une revue et une analyse multi-caméras de la scène avec la possibilité de mettre en évidence la structure 3D de la scène, une entrée à grande vitesse du flux vidéo pour filtrer éléments de la scène par paramètres de mouvement et utilisation de la couleur pour mettre en évidence les éléments de la scène. De plus, des caméras à haute résolution et de bonne optique sont nécessaires pour garantir une identification fiable la plus large possible. Dans des cas plus simples, avec une scène statique et un flux limité d'événements (apparitions de personnes), il est possible d'utiliser une structure matérielle et un algorithme plus simples, par exemple, une paire stéréo ou une caméra et un modèle de scène pré-préparé peuvent être suffisant pour déterminer de manière fiable si une personne se trouve dans la zone de contrôle, en mettant en évidence sa silhouette et en l'identifiant. La tâche consistant à déterminer la présence d’une personne sur une scène nécessite un certain niveau d’intelligence de la part de l’algorithme. Il ne doit pas s’agir d’un système qui réagit simplement au fait que la scène change. L'algorithme de détection humaine ne doit pas donner de fausses alarmes en cas de changements d'éclairage, de mouvements d'ombres d'objets statiques, d'apparition d'animaux dans la zone de contrôle, etc. Lorsque cela est nécessaire, le problème de la création d'une description adéquate de la scène se pose. . Cette description peut représenter un modèle tridimensionnel de la scène, un modèle probabiliste de la distribution des couleurs ou de la luminosité des éléments de la scène, ou un système de caractéristiques qui distingue les éléments de la scène des objets de reconnaissance (dans notre cas, des figures humaines). La relation entre les éléments de la scène considérés comme des éléments d’arrière-plan ou de premier plan peut changer. La même figure humaine, si son image est inférieure à une certaine valeur seuil déterminée par la résolution du système optique, peut être classée parmi les éléments d'arrière-plan, car son analyse est improductive pour accomplir la tâche principale - identifier une personne.

Le choix de l’algorithme utilisé pour identifier une personne à partir d’une image de son visage dépend également des conditions particulières de son application. Par exemple, un réseau neuronal multicouche peut facilement faire face à la tâche de reconnaissance dans un groupe strictement limité. Dans le même temps, la tâche consistant à détecter une personne spécifique dans une foule (dont la composition est incertaine) nécessite l'utilisation de méthodes sophistiquées pour réduire le niveau de fausses alarmes. Très probablement, dans ce cas, un système à plusieurs niveaux sera nécessaire, contenant de nombreux analyseurs fonctionnant dans différents espaces de fonctionnalités, avec une prise de décision utilisant la méthode de vote. Aux premières étapes du travail, le système d'identification doit éliminer les candidats manifestement inappropriés et utiliser l'ensemble de candidats restant pour prendre la décision finale d'identification.

Vous trouverez ci-dessous un aperçu des méthodes existantes pour détecter et identifier une personne à partir d'une image de son visage. L'examen n'incluait que les méthodes qui, selon les auteurs, sont les plus largement utilisées dans les algorithmes modernes pour détecter une personne et son identification personnelle à partir d'images faciales dans un environnement naturel.

Avec toute la variété des algorithmes et des méthodes de reconnaissance d’images, une méthode de reconnaissance typique se compose de trois éléments principaux :

convertir l'image originale en une représentation standard ;
mettre en évidence les caractéristiques clés ;
mécanisme de classification (modélisation) : modèle de cluster, métrique, réseau de neurones, etc.

De plus, la construction d’une méthode de reconnaissance repose sur des informations a priori sur le domaine (en l’occurrence les caractéristiques du visage d’une personne) et est ajustée par les informations expérimentales qui apparaissent lors du développement de la méthode.

Méthode des composantes principales.

La méthode d'analyse en composantes principales (ACP) est utilisée pour compresser les informations sans perte significative du contenu de l'information. Il s'agit d'une transformation orthogonale linéaire du vecteur d'entrée $\textbf(x)$ de dimension $N$ en vecteur de sortie $\textbf(y)$ de dimension $M$, $N>M$. Dans ce cas, les composantes du vecteur $\textbf(y)$ ne sont pas corrélées et, par conséquent, la variance totale après la transformation reste inchangée. La matrice $\textbf(X)$ se compose de tous les exemples d'images de l'ensemble d'entraînement. Après avoir résolu l'équation $\boldsymbol\Lambda = \boldsymbol(\Phi)^T \boldsymbol(\Sigma)\boldsymbol(\Phi)$, nous obtenons la matrice des vecteurs propres $\boldsymbol(\Phi)$, où $\ boldsymbol(\Sigma )$ est la matrice de covariance pour $\textbf(x)$, et $\boldsymbol(\Lambda)$ est la matrice diagonale des valeurs propres. En choisissant parmi $\boldsymbol(\Phi)$ la sous-matrice $\boldsymbol(\Phi)_M$ correspondant aux plus grandes valeurs propres $M$, on obtient que la transformation $\textbf(y) = \boldsymbol(\Psi)_M^ T \ widetilde(\textbf(x))$, où $\widetilde(\textbf(x)) = \textbf(x) - \overline(\textbf(x))$ est un vecteur normalisé avec une espérance mathématique nulle, caractérise la majeure partie de la variance totale et reflète les changements les plus significatifs de $\textbf(x)$. Le choix des premières composantes principales $M$ divise l'espace vectoriel en un espace principal (propre) $F = \left$\boldsymbol(\Phi)_i\right$_(i=1)^M$ contenant les composantes principales , et son complément orthogonal $F = \left$\boldsymbol(\Phi)_i\right$_(i=M+1)^(N)$. Les éléments suivants sont utilisés comme indicateurs d’appartenance à la méthode des composantes principales :

DIFS - distance dans l'espace des caractéristiques, la distance entre l'image de l'image analysée dans son propre espace et l'image de référence ;

DFFS - distance de l'espace des caractéristiques, la distance entre la représentation de l'image analysée dans l'espace d'observation et la projection de la norme dans son propre espace.

Exemple d'images vectorielles propres (faces propres)

L'application pour la tâche de reconnaissance d'une personne à partir d'une image faciale a la forme suivante. Les vecteurs d'entrée sont des images de visages centrées et mises à l'échelle. Les vecteurs propres calculés pour l’ensemble des images de visage sont appelés faces propres. La méthode des composantes principales appliquée aux images de visages est également appelée méthode des faces propres (Fig. 1). À l'aide des matrices calculées précédemment, l'image d'entrée est décomposée en un ensemble de coefficients linéaires appelés composantes principales. La somme de $N$ des premières composantes principales multipliée par les vecteurs propres correspondants est une approximation de l'image d'ordre $N$ (Fig. 2).

Image du visage normalisée ($\textit(a)$) et sa reconstruction à l'aide de composants principaux de 85$ ($\textit(b)$)

Pour chaque image de visage, ses composantes principales sont calculées. En règle générale, les principales composantes varient de 5 $ à 200 $. Les composants restants codent de petites différences entre les visages et le bruit. Le processus de reconnaissance consiste à comparer les composantes principales d’une image inconnue avec les composantes de toutes les autres images. À cette fin, une sorte de métrique est généralement utilisée (le cas le plus simple est la distance euclidienne). Une augmentation supplémentaire de la fiabilité est obtenue grâce à l'application supplémentaire de l'analyse des composantes principales à des zones individuelles du visage telles que les yeux, le nez et la bouche.

La méthode des composants principaux est également utilisée pour détecter les visages dans les images. Pour les visages, les valeurs des composantes dans l'espace propre sont grandes, et dans le complément de l'espace propre elles sont proches de zéro. Sur la base de ce fait, il peut être détecté si l'image d'entrée est un visage. Pour ce faire, l'ampleur de l'erreur de reconstruction est vérifiée ; plus l’erreur est grande, plus il est probable qu’il ne s’agisse pas d’un visage. S’il existe des variations dans un ensemble d’images faciales telles que la race, le sexe, les émotions, l’éclairage, des composants apparaîtront dont l’ampleur est principalement déterminée par ces facteurs. Ainsi, sur la base des valeurs des composantes principales correspondantes, il est possible de déterminer, par exemple, la race ou le sexe d'une personne. Les principaux inconvénients du PCA sont les suivants. La méthode du visage propre nécessite des conditions idéalisées pour son application, telles que des paramètres d'éclairage uniformes, une expression faciale neutre et l'absence d'interférences telles que des lunettes et une barbe. Si ces conditions ne sont pas remplies, les composantes principales ne refléteront pas la variation interclasse. Par exemple, dans différentes conditions d'éclairage, la méthode des faces propres est pratiquement inapplicable car les premières composantes principales reflètent principalement les changements d'éclairage et la comparaison produit des images ayant des niveaux d'éclairage similaires.

Le calcul d’un ensemble de vecteurs propres demande beaucoup de travail. Une solution consiste à convoluer les images en lignes et en colonnes ; Sous cette forme, la représentation de l'image est d'un ordre de grandeur plus petite, les calculs et la reconnaissance sont plus rapides, mais il n'est plus possible de restaurer l'image originale.

Analyse discriminante linéaire.

L'analyse discriminante linéaire (LDA) utilise une projection de l'espace d'image sur l'espace de fonctionnalités qui minimise la distance intra-classe et maximise la distance inter-classe dans l'espace de fonctionnalités. Ces méthodes supposent que les classes sont linéairement séparables.

La matrice $\textbf(W)$ pour projeter l'espace image sur l'espace des fonctionnalités est sélectionnée à partir de la condition suivante : $$ \textbf(W)_(\textrm(opt))= \textrm(arg) \max_\textbf (W) \frac (\textbf(W)^T \textbf(S)_\textbf(B) \textbf(W))(\textbf(W)^T \textbf(S)_\textbf(W) \ textbf(W)) , $$ où $\textbf(S)_(\textbf(B))$ est la matrice de variance interclasse, $\textbf(S)_(\textbf(W))$ est la matrice de variance intraclasse .

Il peut y avoir jusqu'à $c-1$ vecteurs qui constituent la base de l'espace des fonctionnalités, où $c$ est le nombre total de classes. À l'aide de ces vecteurs, l'espace image est converti en espace de fonctionnalités.

Puisqu'il est difficile de travailler directement avec la matrice $\textbf(S)_\textbf(W) \in (R)^(n\times n) $ en raison de sa dimension, une réduction de dimension préliminaire est utilisée en utilisant la méthode des composantes principales, et alors les calculs sont produits dans un espace de dimension inférieure : $$ \textbf(W)_\textrm(fld)=\textrm(arg) \max_\textbf(W) \frac(\textbf(W)^T \textbf( W)_(\ textrm(pca))^T \textbf(S)_\textbf(B) \textbf(W)_(\textrm(pca)) \textbf(W))(\textbf(W)^T \textbf(W) _(\textrm(pca))^T \textbf(S)_\textbf(W) \textbf(W)_(\textrm(pca)) \textbf(W)), $$ où $ \textbf(W) _(\textrm(pca))$ est une matrice de projection dans un espace de dimension inférieure (l'espace des composants principaux).

Généralement, l'ensemble d'apprentissage contient des images de visages dans plusieurs conditions d'éclairage de base, à partir desquelles d'autres conditions d'éclairage peuvent être obtenues à l'aide de combinaisons linéaires. Cette méthode offre une précision de reconnaissance élevée (environ 96(\%)) pour un large éventail de conditions d'éclairage, de différentes expressions faciales et de la présence ou de l'absence de lunettes. Cependant, des questions demeurent quant à savoir si cette méthode est applicable à la recherche de grandes bases de données et si la méthode peut fonctionner lorsque l'ensemble d'entraînement pour certains visages contient des images dans une seule condition d'éclairage. Pour la tâche de détection de visage à l'aide de LDA, les classes de visage et de non-visage sont divisées en sous-classes. La méthode ci-dessus est basée sur l’hypothèse de séparabilité linéaire des classes dans l’espace image. En général, cette hypothèse est incorrecte. Les méthodes de réseaux neuronaux offrent un outil pour construire des surfaces de division complexes.

Synthèse d'objets de classes linéaires.

Cette méthode permet de synthétiser de nouvelles images d'un objet (et notamment des images d'un visage) sous différents angles. Il existe un ensemble d'images de visages et une seule image d'un nouvel objet sous un certain angle. L'ensemble de formation se compose d'images d'objets de la même classe (classe de visage dans ce cas) que le nouvel objet, et comprend des images de différents visages, et pour chaque visage, il existe des images de celui-ci sous un large éventail d'angles. Pour un nouvel objet ayant une image $X^(A)$ dans la perspective $A$, une décomposition linéaire est effectuée en images d'objets de l'ensemble d'apprentissage dans la même perspective, avec calcul des coefficients $\alpha_i : X^A = \sum_(i=1 )^(q)\alpha_i X_i^A , $ où $q$ est le nombre d'objets dans l'ensemble d'apprentissage. La synthèse de l'image $X^(B)$ dans une nouvelle perspective $B$ pour un nouvel objet s'effectue en ajoutant des images de l'ensemble d'apprentissage en perspective $B$ avec les mêmes coefficients : $X^B = \sum_(i =1)^(q) \alpha_i X_i^B $. Ainsi, la méthode vous permet de synthétiser des images d'un nouvel objet sous différents angles à partir d'une image sous un seul angle sans utiliser de modèles tridimensionnels complexes. Cette méthode est prometteuse pour synthétiser des images sous de nouveaux angles sans utiliser de modèles tridimensionnels complexes, mais la question de la qualité et du nombre d'exemples dans l'ensemble de formation reste ouverte.

Modèles de visage profilés flexibles.

Dans ces procédés, la reconnaissance est effectuée sur la base d'une comparaison des contours du visage. Les contours sont généralement extraits pour les lignes de la tête, des oreilles, des lèvres, du nez, des sourcils et des yeux. Les contours sont représentés par des positions clés, entre lesquelles les positions des points appartenant au contour sont calculées par interpolation. Pour localiser les contours dans diverses méthodes Les informations a priori et les informations obtenues à la suite de l'analyse de l'ensemble de formation sont utilisées. En règle générale, les points clés sont placés manuellement sur un ensemble d'images de formation. Lors de la recherche des contours d'un nouveau visage, une méthode de recuit simulé est utilisée avec une fonction objective de deux composants. Pour le premier d'entre eux, le maximum est recherché lorsque les intensités des pixels extraits sur une ligne perpendiculaire au contour correspondent à celles similaires aux pixels de l'ensemble d'apprentissage ; pour le second, lorsque le contour coïncide avec la forme des contours. des exemples de formation. De cette manière, le contour des traits du visage est extrait. Pour comparer les images, on utilise les valeurs des composantes principales, calculées sur un ensemble de vecteurs représentant les coordonnées des points clés. La tâche principale de la reconnaissance des contours est la sélection correcte de ces contours. En général, cette tâche est comparable en complexité à la reconnaissance d'images.

Comparaison de graphiques élastiques.

Dans cette méthode (Elastic Bunch Graph Matching), le visage est représenté sous forme de graphique dont les sommets sont situés à des points clés du visage tels que les contours de la tête, des lèvres, du nez et leurs points extrêmes. Chaque face est étiquetée avec les distances entre ses sommets. À chacun de ces points, les coefficients de dilatation en termes de fonctions de Gabor sont calculés pour cinq fréquences différentes et huit orientations. L'ensemble de ces coefficients $\textbf(J) = $J_j$$ est appelé $\textit(jet)$ (jet). Les jets caractérisent des régions locales d'images et servent deux objectifs : premièrement, trouver des points de correspondance dans une région donnée dans deux images différentes ; deuxièmement, comparer deux zones correspondantes d’images différentes. Chaque coefficient $J_j = a_j \exp (i \phi_j)$ pour les points d'une zone d'images différentes est caractérisé par une amplitude $a_j$, qui change lentement avec la position du point, et une phase $\phi_j$ , qui tourne à une vitesse proportionnelle à la fréquence du vecteur de fonction de base d'onde. Ainsi, dans le cas le plus simple, pour rechercher des points ayant des caractéristiques similaires dans une nouvelle image, la phase n'est pas prise en compte dans la fonction de similarité : $$ S_a(\textbf(J), \textbf(J)") = \ frac(\sum_j a_ja_j^(\prime)) (\sqrt(\sum_j a_j^2 \sum_j a_j^(\prime 2))) .$$ La fonction de similarité avec un jet en position fixe et un autre en position variable est suffisamment fluide pour obtenir une convergence rapide et fiable lors de la recherche à l'aide de méthodes simples telles que la diffusion ou la descente de gradient. Des fonctions de similarité plus avancées impliquent des informations de phase. Pour différents angles, les points clés correspondants sont marqués manuellement sur l'ensemble d'apprentissage. De plus, pour le même visage pour représenter différentes variations de son image dans un seul et même graphique, pour chaque point on utilise plusieurs jets dont chacun peut correspondre à différentes caractéristiques locales d'un point donné, par exemple un œil ouvert et fermé. reconnaître un visage inconnu consiste à comparer le graphe de l'image du visage $G^I$ avec tous les autres graphiques de l'ensemble $B$ en utilisant la fonction de similarité $$ S_B (G^I , B)= \frac(1)(N) \sum_n \max_m S_(\phi)(J_n^I , J_n^(Bm))- \frac (\lambda)(E)\sum_e \frac((\Delta \textbf(x)_e^I - \Delta \textbf( x)_e^B)^2)((\Delta \textbf(x)_e^B )^2). $$

La somme de gauche caractérise la similarité des jets, calculée à l'aide d'une fonction sensible à la phase, la somme de droite est la correspondance topographique, qui est proportionnelle au carré de la différence de distances entre les sommets correspondants des images comparées, $N$ est le nombre de sommets, $E$ est le nombre de faces, $\lambda$ est le coefficient d'importance relative des informations topographiques.

Sous la forme présentée ci-dessus, la méthode est capable de reconnaître de manière assez fiable des changements d'angle jusqu'à 20$° ; aux grands angles, la précision de la reconnaissance diminue fortement ; la fonction de similarité s'avère plus sensible à l'angle qu'aux différences interclasses. Le développement ultérieur de la méthode consiste à extraire des coefficients d'importance sur la base de l'analyse de l'ensemble de formation. Pour chaque jet, le coefficient d'importance est calculé selon la méthode du simplexe, qui est ensuite utilisée dans la fonction de similarité. Les coefficients d'importance sont calculés à partir de la condition de maximiser la fonction de similarité pour la même personne et de la minimiser pour différentes personnes. Il existe également des variantes antérieures de cette méthode qui n'utilisent pas de points clés ni de structures graphiques initialement définis. Certains d'entre eux utilisent des réseaux de jets superposés à l'image à des fins de comparaison, Fig. 3. Des points de correspondance sont trouvés dans une image inconnue, puis un réseau déformé est construit à partir des points trouvés et le degré de distorsion est mesuré pour déterminer l'image la plus similaire. Dans d'autres procédés, les points d'extraction des jets forment initialement un réseau, puis les points les moins adaptés à la reconnaissance sont éliminés au cours du processus d'apprentissage.

Une grille élastique superposée à une image et sa version déformée

Méthodes basées sur les caractéristiques géométriques du visage.

L’une des toutes premières méthodes est l’analyse des caractéristiques géométriques du visage. Initialement, il était utilisé en médecine légale et y a été développé en détail. Puis des implémentations informatiques de cette méthode sont apparues. Son essence est de sélectionner un ensemble de points (ou zones) clés du visage, puis de sélectionner un ensemble de caractéristiques. Chaque caractéristique est soit la distance entre les points clés, soit le rapport de ces distances. Contrairement à la méthode de comparaison de graphes élastiques, ici les distances ne sont pas choisies sous forme d’arcs de graphe. Les ensembles de fonctionnalités les plus informatives sont identifiés expérimentalement.

Les points clés peuvent être les coins des yeux, les lèvres, le bout du nez, le centre de l’œil, etc. Fig. 4. Les zones rectangulaires peuvent servir de zones clés, notamment : les yeux, le nez, la bouche.

Lors du processus de reconnaissance, les caractéristiques d'un visage inconnu sont comparées aux caractéristiques stockées dans la base de données. La tâche consistant à trouver les points clés se rapproche de la complexité de la reconnaissance elle-même, et la recherche correcte des points clés dans l'image détermine en grande partie le succès de la reconnaissance. Par conséquent, l’image du visage d’une personne doit être exempte de toute interférence qui interfère avec le processus de recherche de points clés. De telles interférences incluent les lunettes, la barbe, les bijoux, les coiffures et le maquillage. L’éclairage doit de préférence être uniforme et identique pour toutes les images. De plus, l'image du visage doit avoir un angle frontal, éventuellement avec de légers écarts. L'expression du visage doit être neutre. Cela est dû au fait que la plupart des méthodes ne disposent pas de modèle permettant de prendre en compte ces changements.

Ainsi, cette méthode impose des exigences assez strictes en matière de conditions de prise de vue et nécessite un mécanisme fiable permettant de trouver les points clés pour le cas général. De plus, des méthodes plus avancées pour classer ou construire un modèle de changement sont nécessaires. En général, cette méthode n'est pas la plus optimale, mais pour certaines tâches spécifiques, elle reste prometteuse. Ces tâches incluent le contrôle des documents, lorsqu'il est nécessaire de comparer l'image d'une personne reçue à l'heure actuelle avec une photographie du document. Cependant, il n’existe aucune autre image de cette personne et, par conséquent, aucun mécanisme de classification basé sur l’analyse de l’ensemble de formation n’est disponible.

Points d'identification et distances : $\textit(a)$ - utilisé en examen médico-légal ; $\textit(b)$ - le plus souvent utilisé dans la construction de systèmes d'identification automatisés

Comparaison des modèles.

La correspondance de modèle implique la sélection de zones du visage dans l'image illustrée à la Fig. 5, puis en comparant ces zones pour deux images différentes. Chaque région correspondante augmente la mesure de similarité de l'image. C’est également l’une des premières méthodes historiques permettant de reconnaître une personne à partir d’une image faciale. Pour comparer les zones, des algorithmes simples tels que la comparaison pixel par pixel sont utilisés.

L’inconvénient de cette méthode est qu’elle nécessite beaucoup de ressources tant pour stocker les tracés que pour les comparer. Du fait que l'algorithme de comparaison le plus simple est utilisé, les images doivent être prises dans des conditions strictement établies : les changements notables d'angle, d'éclairage, d'expression émotionnelle, etc. ne sont pas autorisés.

Zones incluses dans un modèle de visage

Modèles de Markov cachés.

Les modèles Markov sont un outil puissant pour modéliser divers processus et reconnaissance de formes. De par leur nature, les modèles de Markov permettent de prendre directement en compte les caractéristiques spatio-temporelles des signaux, et ont donc été largement utilisés en reconnaissance vocale, et plus récemment - en images (notamment les images de visages). Chaque modèle $\lambda = \langle \textbf(A), \textbf(B), \boldsymbol\pi \rangle$, est un ensemble d'états $N$ $S = $S_1 , S_2 , \ldots , S_N\ ) $, entre lesquels les transitions sont possibles. A chaque instant, le système se trouve dans un état strictement défini. Les modèles de Markov $\textit(premier ordre)$ les plus courants supposent que l'état suivant dépend uniquement de l'état actuel. Lors de la transition vers chaque état, un symbole observable est généré qui correspond au signal physique provenant de la sortie du système simulé. L'ensemble des symboles pour chaque état $V = \(v_1 , v_2 , \ldots, v_M $$, nombre de symboles $M$. La sortie générée par le modèle peut également être continue. Il existe également des modèles dans lesquels l'ensemble des symboles pour tous les états est le même. Un symbole dans l'état $q_t = S_j$ au temps $t$ est généré avec probabilité $b_(j k) = P (v_(k) | q_i = S_j)$. L'ensemble de toutes ces probabilités constitue la matrice $\textbf(B)= $b_(j k)$$.

La matrice $\textbf(A) = ||a_(ij)||$ détermine la probabilité de transition d'un état à un autre : $a_(ij) = P (q_(i+1) = S_j | q_i = S_i) $, $1 \le i, j \le N$. On pense que $A$ ne dépend pas du temps. Si à partir de chaque état il est possible d'atteindre n'importe quel autre en une seule transition, alors tous $a_(ij) > 0$, et le modèle est appelé ergodique. Le modèle a une probabilité d'états initiaux $\boldsymbol\pi = $ \pi_i $$, où $\pi_i = P (q_1 = S_i)$. Habituellement, dans les processus réels, la séquence d'états est cachée à l'observation et reste inconnue, et seule la sortie du système est connue, la séquence de symboles observés $O = O_1 O_2 \ldots O_T$, où chaque observation $O_t$ est un symbole à partir de $V$ et $T$ - nombre d'observations dans la séquence. Par conséquent, ces modèles sont appelés modèles de Markov $\textit(hidden)$ (Modèles de Markov cachés, $\textit(HMM)$).

Le modèle $\boldsymbol\lambda = \langle \textbf(A), \textbf(B) , \boldsymbol\pi \rangle$ avec des paramètres ajustés peut être utilisé pour générer une séquence d'observations. Pour ce faire, un état initial est sélectionné aléatoirement, conformément aux probabilités initiales $\boldsymbol\pi$, puis à chaque étape la probabilité $\textbf(B)$ est utilisée pour générer le symbole observé, et la probabilité $\ textbf(A)$ est utilisé pour sélectionner la condition suivante. Probabilité $P$ de générer une séquence d'états $O$ par un modèle $\lambda$ : $$ P(O|Q, \lambda) = \prod_(t-1)^T b_(q_t) (O_t) $ $ où $Q = q_1 q_2 \ldots q_T$ - séquence d'états. Les observations sont supposées statistiquement indépendantes.

En reconnaissance de formes, les modèles de Markov cachés sont utilisés comme ceci. Chaque classe $i$ a son propre modèle $\lambda_i$. L'image reconnue (signal de parole, image, etc.) est représentée comme une séquence d'observations $O$. Ensuite, pour chaque modèle $\lambda_i$, la probabilité est calculée que cette séquence ait pu être générée par ce modèle particulier. Le modèle $\lambda_i$ avec la probabilité la plus élevée est considéré comme le plus approprié et l'image est affectée à la classe $j$.

À cet égard, plusieurs questions se posent, appelées les trois tâches principales des modèles de Markov cachés.

$O = O_1 O_2 \ldots O_T$ et le modèle ajusté $\boldsymbol\lambda = \langle\textbf(A), \textbf(B), \boldsymbol\pi\rangle$, comment estimer la probabilité $P(O |\lambda )$ généré par ce modèle pour une séquence d'observations donnée ? Cette tâche est appelée tâche de reconnaissance.

Avoir une séquence d'observations

$O = O_1 O_2 \ldots O_T$ et le modèle ajusté $\boldsymbol\lambda = \langle\textbf(A), \textbf(B), \boldsymbol\pi\rangle$, comment sélectionner une séquence d'états $Q = q_1 q_2 \ ldots q_T$ pour qu'il soit optimal (selon certains critères, ce problème est analytiquement insoluble) ? En d’autres termes, c’est la tâche de l’explication. Il est nécessaire pour la correction ultérieure des paramètres du modèle.

Comment ajuster les paramètres du modèle

$\lambda$ afin de maximiser $P(O|\lambda)$ ? Autrement dit, comment rendre le modèle plus cohérent avec sa classe dont l'une des images est une séquence d'observations donnée (ou plusieurs séquences différentes) ? C’est la tâche de l’apprentissage.

Le premier problème a une solution analytique exacte appelée procédure avant-arrière. Les deux problèmes suivants n’ont pas de solution analytique exacte. Pour résoudre le deuxième problème, l'algorithme de Viterbi est utilisé, pour le troisième problème, l'algorithme de Baum-Welch est utilisé. Ces deux méthodes sont des variantes de la descente de gradient et sont résolues à l'aide de méthodes d'optimisation.

Modèle de Markov linéaire

Afin de réduire les calculs, des modèles linéaires sont utilisés en reconnaissance vocale (Fig. 6. Dans de tels modèles, chaque état n'a qu'un seul état suivant, et un retour au même état est également possible. De tels modèles prennent en compte les caractéristiques temporelles du signal vocal : un certain ordre des sections de signal, leur position relative, la possibilité d'étirement ou de compression locale. Cela leur permet d’être utilisés en reconnaissance d’images.

L'essence des modèles de Markov bidimensionnels est que, contrairement aux HMM linéaires unidimensionnels, ils permettent de modéliser les distorsions de l'image et la position relative des sections non pas séparément horizontalement ou verticalement, mais simultanément dans les deux directions. Pour réduire la complexité de calcul, des HMM pseudo-2D (modèles de Markov cachés pseudo-2D, $\textit(P2D-HMM)$) sont utilisés. Un tel modèle se compose de plusieurs modèles linéaires verticaux du niveau inférieur et d'un modèle linéaire horizontal du niveau supérieur, dont l'entrée est constituée des sorties des modèles de niveau inférieur, Fig. 7. Chaque

Modèle de Markov caché pseudo-bidimensionnel

Extraction de sites d'échantillonnage d'observation

l'état d'un modèle de niveau supérieur comprend une séquence d'états du modèle de niveau inférieur correspondant. Les modèles de niveau inférieur ne sont pas liés les uns aux autres. Initialement, les modèles de niveau supérieur étaient verticaux. Dans les travaux ultérieurs, les modèles de niveau supérieur ont été rendus horizontaux (comme le montre la figure) afin que les modèles verticaux de niveau inférieur puissent prendre en compte le fait que les yeux pouvaient être à des hauteurs différentes. Ainsi, le modèle pseudo-bidimensionnel permet de prendre en compte les déformations locales et la position relative des zones d'image. Mais contrairement aux flux optiques et à d’autres méthodes d’adaptation des déformations, le modèle pseudo-bidimensionnel prend en compte la nature des déformations, et les HMM pseudo-bidimensionnels apprennent quelles peuvent être exactement les déformations possibles au cours du processus d’apprentissage. En d’autres termes, la zone correspondant à l’œil ne correspondra jamais, par exemple, à la zone où se trouverait la bouche.

Un exemple du fonctionnement du SMM. L'entrée du HMM est constituée de sections carrées d'images (Fig. 8). Il a été constaté que les régions extraites avec un chevauchement de 75 (\%) les unes avec les autres donnaient la meilleure précision de reconnaissance.

Pour HMM, l’initialisation initiale du modèle est importante. Toutes les images de l'ensemble de formation sont utilisées comme initialisation initiale de tous les modèles. Chaque modèle de classe est ensuite adapté à ses images.

L'inconvénient de HMM est que HMM n'a pas de capacité discriminante, c'est-à-dire que l'algorithme d'apprentissage maximise uniquement la réponse de chaque modèle à ses classes, mais ne minimise pas la réponse aux autres classes et ne met pas en évidence les caractéristiques clés qui distinguent une classe d'une autre. Ainsi, des classes similaires peuvent être difficiles à distinguer et, à mesure que la taille de la base de données augmente ou est utilisée dans un contexte plus large, le HMM peut devenir peu fiable.

Réseaux de neurones multicouches.

L'architecture d'un réseau neuronal multicouche (MNN) se compose de couches connectées séquentiellement, où le neurone de chaque couche est connecté avec ses entrées à tous les neurones de la couche précédente et aux sorties de la suivante. Un réseau neuronal avec deux couches de décision peut se rapprocher de n’importe quelle fonction multidimensionnelle avec n’importe quelle précision. Un réseau neuronal avec une seule couche de décision est capable de former des surfaces de séparation linéaires, ce qui réduit considérablement la gamme de problèmes qu'ils peuvent résoudre ; en particulier, un tel réseau ne sera pas en mesure de résoudre un problème de type « ou exclusif ». Un réseau neuronal avec une fonction d'activation non linéaire et deux couches décisives permet la formation de toutes les régions convexes dans l'espace de solution, et avec trois couches décisives - des régions de toute complexité, y compris les régions non convexes. Dans le même temps, le MNS ne perd pas sa capacité de généralisation. Les MNN sont formés à l'aide de l'algorithme de rétropropagation, qui est une méthode de descente de gradient dans l'espace des poids afin de minimiser l'erreur totale du réseau. Dans ce cas, les erreurs (plus précisément les valeurs de correction des poids) se propagent en sens inverse des entrées vers les sorties, à travers les poids reliant les neurones. L'application la plus simple d'un réseau neuronal monocouche (appelé mémoire auto-associative) consiste à entraîner le réseau à reconstruire les images alimentées. En fournissant une image de test en entrée et en calculant la qualité de l'image reconstruite, vous pouvez évaluer dans quelle mesure le réseau a reconnu l'image d'entrée. Les propriétés positives de cette méthode sont que le réseau peut restituer des images déformées et bruitées, mais elle ne convient pas à des fins plus sérieuses. MNN est également utilisé pour la classification directe d'images : l'entrée est soit l'image elle-même sous une forme quelconque, soit un ensemble de caractéristiques clés de l'image précédemment extraites ; en sortie, le neurone avec l'activité maximale indique l'appartenance à la classe reconnue (Fig. .9).

Le neurone ayant l'activité maximale (ici le premier) indique l'appartenance à la classe reconnue. Si cette activité est inférieure à un certain seuil, alors on considère que l'image soumise n'appartient à aucune des classes connues. Le processus d'apprentissage établit la correspondance des images fournies à l'entrée avec l'appartenance à une certaine classe. C’est ce qu’on appelle « l’apprentissage supervisé ». Appliquée à la reconnaissance humaine à partir d’une image faciale, cette approche convient parfaitement aux tâches de contrôle d’accès d’un petit groupe de personnes. Il permet au réseau de comparer directement les images elles-mêmes, mais à mesure que le nombre de classes augmente, le temps de formation et d'exécution du réseau augmente de façon exponentielle, et donc pour des tâches telles que la recherche personne similaire dans une grande base de données, nécessite l’extraction d’un ensemble compact de caractéristiques clés sur lesquelles effectuer la recherche.

En particulier, MNN peut être utilisé pour classer les images de visages en fonction de caractéristiques telles que les distances entre certaines parties spécifiques du visage (nez, bouche, yeux). Il existe également des systèmes hybrides, comme la combinaison avec un modèle de Markov. Dans le MNN classique, les connexions neuronales intercouches sont entièrement connectées et l'image est représentée comme un vecteur unidimensionnel, bien qu'elle soit bidimensionnelle. L'architecture du réseau neuronal convolutif vise à surmonter ces lacunes. Il utilise des champs récepteurs locaux (fournissent une connectivité bidimensionnelle locale des neurones), des poids partagés (fournissent la détection de certaines caractéristiques n'importe où dans l'image) et une organisation hiérarchique avec sous-échantillonnage spatial. Le réseau neuronal convolutif (CNN) offre une résistance partielle aux changements d'échelle, aux déplacements, aux rotations et aux distorsions. L'architecture d'un CNN se compose de plusieurs couches, chacune comportant plusieurs plans, et les neurones de la couche suivante ne sont connectés qu'à un petit nombre de neurones de la couche précédente à proximité de la zone locale (comme dans le système visuel humain). cortex). Les poids en chaque point d'un plan sont les mêmes (couche convolutive). La couche convolutive est suivie d'une couche qui réduit sa dimension par moyenne locale. Puis encore la couche convolutive, et ainsi de suite. De cette manière, une organisation hiérarchique est réalisée. Les couches ultérieures extraient des caractéristiques plus générales qui sont moins affectées par la distorsion de l'image. Le CNN est formé à l’aide de la méthode standard de rétropropagation. Une comparaison de MNS et CNN a montré des avantages significatifs de ce dernier tant en termes de rapidité que de fiabilité de la classification. Propriété utile L'avantage de CNN est que les caractéristiques générées aux sorties des couches supérieures de la hiérarchie peuvent être utilisées pour la classification à l'aide de la méthode du plus proche voisin (par exemple, en calculant la distance euclidienne), et le CNN peut extraire avec succès de telles caractéristiques pour des images qui ne sont pas dans l’ensemble de formation. Les CNN se caractérisent par une vitesse d’apprentissage et de fonctionnement élevée. Le test d'un CNN sur une base de données ORL contenant des images de visages présentant de légers changements d'éclairage, d'échelle, de rotations spatiales, de position et diverses émotions a montré une précision de reconnaissance d'environ 98 (\ %), et pour les visages connus, des variantes de leurs images ont été présentées qui n'étaient pas dans l'ensemble de formation. Ce résultat rend cette architecture prometteuse pour de futurs développements dans le domaine de la reconnaissance d’images d’objets spatiaux. Les MNN sont également utilisés pour détecter des objets d'un certain type. De plus, tout MNN entraîné peut, dans une certaine mesure, déterminer si les images appartiennent à « leurs » classes ; il peut être spécialement entraîné pour détecter de manière fiable certaines classes. Dans ce cas, les classes de sortie seront des classes qui appartiennent et n'appartiennent pas au type d'image donné.

Réseau neuronal multicouche pour la classification d'images

Réseaux d'ondelettes de Gabor (GWN).

Cette méthode est conçue pour le suivi des visages en temps réel à l'aide du modèle d'ondelettes de Gabor (GWT), qui est une combinaison linéaire discrète d'ondelettes de Gabor. Il est important de noter que la précision de la représentation des visages est régie par le nombre d'ondelettes de Gabor dans le GWN, ce qui permet de représenter plusieurs visages par un seul GWT. Cette représentation permet des transformations affines arbitraires et une estimation rapide des paramètres affines à l'aide de la méthode de descente de gradient. Ainsi, lors du suivi d'un visage, la méthode détermine également son orientation, mais avec des restrictions sur les rotations : ce sont principalement les rotations dans le plan et les rotations spatiales mineures autour de l'axe vertical qui sont autorisées.

Réseaux de neurones Hopfield.

Le Hopfield NN (HNS) est monocouche et entièrement connecté (il n'y a pas de connexions entre neurones sur eux-mêmes), ses sorties sont connectées aux entrées. Contrairement au MNS, le NSC est une relaxation, c'est-à-dire qu'étant installé dans une certaine position initiale, il fonctionne jusqu'à ce qu'il atteigne un état stable, qui sera sa valeur de sortie. Les NSC sont utilisés comme mémoire associative et pour résoudre des problèmes d'optimisation. Dans le premier cas, le réseau de neurones est entraîné sans enseignant (par exemple, selon la règle de Hebb), dans le second cas, les poids entre neurones codent initialement pour le problème à résoudre. Les NSC peuvent être synchrones, lorsque tous les neurones sont recalculés simultanément, et asynchrones, lorsqu'un neurone sélectionné au hasard est recalculé. Les méthodes Lyapunov sont utilisées pour étudier la dynamique du fonctionnement du système agricole national. Le NSC asynchrone converge toujours vers des points stables, et les attracteurs du NSC synchrone sont des points stationnaires stables et limitent les cycles de longueur deux. Ainsi, le NSC de l'état initial converge vers le minimum local le plus proche de l'énergie du réseau, l'état des neurones dans lequel se trouvera l'image restaurée pour les problèmes de reconnaissance, et la solution pour les problèmes d'optimisation. Pour rechercher un minimum global par rapport aux problèmes d'optimisation, des modifications stochastiques du NSC sont utilisées.

L'utilisation de NSH comme mémoire associative vous permet de restaurer avec précision les images pour lesquelles le réseau est formé lorsqu'une image déformée est introduite à l'entrée. Dans ce cas, le réseau « mémorisera » l’image la plus proche (au sens d’une énergie minimale locale) et la reconnaîtra. Ce fonctionnement peut également être pensé comme l’application séquentielle de la mémoire auto-associative. Contrairement à la mémoire auto-associative, NSH restituera l’image avec une parfaite précision.

Bien que le développement de systèmes d'identification basés sur des images de visages humains dure depuis plusieurs décennies, la tâche consistant à créer un algorithme d'identification efficace basé sur des images de visages humains est encore loin d'être terminée.

Pour la plupart des systèmes de reconnaissance automatique de visages modernes, la tâche principale est de comparer une image de visage donnée avec un ensemble d’images de visage provenant d’une base de données. Les caractéristiques des systèmes de reconnaissance automatique de visage dans ce cas sont évaluées en déterminant les probabilités de refus de reconnaissance erroné (pour une image d'un visage présente dans la base de données, une décision est prise comme visage non identifié) et de reconnaissance erronée. Outre les probabilités d'erreur, la robustesse aux perturbations de l'image causées par des combinaisons avec des arrière-plans complexes, la variabilité de l'éclairage, les changements de coiffure, etc. est souvent utilisée pour évaluer un système de reconnaissance automatique des visages.

Le choix d'un algorithme ou d'un groupe d'algorithmes d'identification faciale pour créer des systèmes pratiques de reconnaissance automatique des visages doit être basé sur un système d'évaluation des caractéristiques de performance d'un système particulier, correspondant aux restrictions associées aux conditions de fonctionnement de ce système particulier, et est déterminé directement au stade de la conception.

Le système de reconnaissance faciale biométrique devrait être inclus dans la norme « ville intelligente » pour les villes russes, que le ministère de la Construction a commencé à développer. Le chef adjoint du département, Andrei Chibis, en a parlé aux Izvestia. Il a noté qu'une telle technologie serait pratique à utiliser dans les transports publics : un passager monte dans le bus, le programme le reconnaît et débite l'argent du voyage sur son compte bancaire. Le ministère entend se familiariser avec l'expérience des villes chinoises et diffuser des technologies similaires en Russie.

Le ministère envisage d'inciter les entreprises chinoises, dont Huawei, à mettre en œuvre, avec Rostelecom, la technologie biométrique et l'analyse des événements dans les villes russes. Le vice-ministre de la Construction, du Logement et des Services communaux, Andrei Chibis, en a parlé aux Izvestia. Selon lui, en cas de succès, ce système constituera la base du standard « ville intelligente », un ensemble minimum de solutions pour améliorer le confort des villes. Le ministère a déjà commencé à élaborer la norme.

Des représentants du ministère prévoient de se rendre en Chine pour évaluer le fonctionnement des technologies modernes, y compris la biométrie.

Autant que je sache, il y a actuellement un débat sur l'introduction d'une telle technologie à Moscou. Évidemment, en raison de la nécessité d'utiliser des cartes, l'heure d'embarquement des passagers est retardée. Et l'algorithme de reconnaissance faciale fonctionne comme ceci : un passager entre dans le métro ou le bus, le programme le reconnaît et débite l'argent du voyage sur son compte bancaire, Andrei Chibis a donné un exemple.

Un nombre important de caméras ont déjà été installées dans de nombreuses villes, c'est-à-dire que l'infrastructure dans son ensemble a été créée, a souligné le responsable. La question concerne la réglementation et la mise en œuvre de projets pilotes. S'ils réussissent, la suite du processus sera rapide : « tout comme nous avons rapidement abandonné les jetons dans le métro, nous pouvons également nous éloigner des tourniquets ».

Le service de presse de Rostelecom a noté que l'identification des passagers des transports publics, y compris pour payer le voyage, est l'une des possibilités les plus évidentes d'utilisation du système.

Il existe des exemples concrets dans le monde et en Russie, la création de telles solutions est attendue dans un avenir proche, a confirmé l'entreprise aux Izvestia.

Le projet Smart City, dans le cadre duquel il est prévu de développer nouvelle technologie, conçu pour six ans. Selon Andrei Chibis, personne ne dit que pendant cette période, un système de reconnaissance faciale apparaîtra nécessairement partout, mais nous devons aller dans cette direction. « Ce n’est pas seulement une question de sécurité, mais aussi de confort. Nous étudierons cette technologie et, dans un avenir proche, nous déciderons de la possibilité de la mettre en œuvre - bien sûr, avant tout en termes de coût", a-t-il indiqué.

Alexander Khanin, PDG de VisionLabs, une société spécialisée dans la vision par ordinateur, note que le processus d'installation de caméras et de serveurs est techniquement simple, de sorte que dans un avenir proche, de tels systèmes pourront être mis en œuvre partout. Ils peuvent également être utilisés pour rechercher des personnes disparues, estime-t-il. Le coût de connexion à chaque caméra dépend du scénario d'utilisation et du type de caméra : de 200 roubles à plusieurs milliers.

Alexandre Bakhtine, chef du département des systèmes de télécommunications à l'Institut de technologie électronique de Moscou, a noté que les réseaux urbains sont prêts à transmettre de telles données. Cependant, au stade initial de l’introduction de nouvelles technologies, il existe toujours un risque de violation de la vie privée. Il existe de nombreux points où des informations peuvent être interceptées. Mais après les tests, le système est construit et fonctionne efficacement.

Un tomographe dans une clinique génère beaucoup plus d'informations qu'un flux vidéo provenant d'un bus. La question est de savoir qui l’analyse et à quelles fins. Je voudrais que la législation nous protège des employés qui utilisent des données personnelles de manière non autorisée », a déclaré Alexandre Bakhtine aux Izvestia.

Rostelecom admet que la circulation de ces données est un sujet très sensible. C'est pourquoi, comme dans d'autres pays, en Russie, un système biométrique unifié est en cours de création sous le contrôle de l'État. Dans un premier temps, en coopération avec la Banque centrale, il est mis en œuvre dans l'intérêt du secteur bancaire. Des expériences ont déjà été menées sur la reconnaissance faciale pour l'entrée sans contact dans les musées, et le système sera développé à l'avenir, est confiante l'entreprise.

En septembre 2017, les autorités de Moscou ont annoncé la mise en place d'un système de vidéosurveillance doté d'une fonction de reconnaissance faciale. Il a été rapporté que le réseau de la capitale comprend 160 000 caméras vidéo et couvre 95 % des entrées des immeubles résidentiels. Les visages sur les enregistrements sont numérisés afin que, si nécessaire, les données puissent être comparées aux informations de diverses bases de données - par exemple, les forces de l'ordre, lorsqu'il s'agit de rechercher un délinquant, indiquées sur le portail du maire de Moscou. Le système est capable d'identifier la personne dans la vidéo, son sexe et son âge.

La société d'État Rostec a utilisé la technologie de reconnaissance faciale lors de la Coupe du monde 2018. Grâce à son aide, il a par exemple été possible d'identifier un supporter à qui, par décision de justice, il était interdit d'assister à des événements sportifs. L'algorithme vous permet de reconnaître les visages avec une précision allant jusqu'à 99 %. La société d'État a noté que la recherche d'une personne spécifique parmi un milliard de personnes prend moins d'une demi-seconde.

De plus, par reconnaissance faciale nous comprendrons les étapes qui suivent la sélection d'un visage et sa normalisation, à savoir l'extraction des caractéristiques et la comparaison avec le standard. Nous présentons les principales méthodes connues utilisées pour résoudre ces deux problèmes.

Les méthodes d'extraction de fonctionnalités peuvent être divisées en deux groupes. Ce sont des méthodes utilisant des caractéristiques locales et des caractéristiques globales du visage. Lors de l'utilisation de caractéristiques locales, l'algorithme identifie des parties individuelles du visage (telles que les yeux, le nez, la bouche, etc.) et les utilise pour sélectionner ou reconnaître un visage. Lors de l'utilisation de caractéristiques globales, l'algorithme fonctionne avec l'ensemble du visage dans son ensemble.

Les méthodes qui fonctionnent avec les fonctionnalités locales incluent :

Filtres Gabor ;

méthode de comparaison de graphiques élastiques ;

modèles de contour du visage;

méthode des zones les plus informatives ;

modèles de Markov cachés ;

transformation de modèles ;

méthodes basées sur les caractéristiques géométriques du visage ;
méthodes basées sur la comparaison de normes ;
les réseaux de neurones.

Les méthodes utilisant des fonctionnalités globales sont :

méthodes discriminantes ;

Filtres Gabor ;
les réseaux de neurones.

Comme vous pouvez le constater, les mêmes méthodes peuvent être utilisées à la fois pour extraire les caractéristiques locales du visage et pour extraire les caractéristiques globales :

Filtres Gabor ;

les réseaux de neurones.

Tous les classificateurs peuvent être divisés dans les groupes suivants :

méthodes statistiques basées sur les principes des statistiques mathématiques ;

des méthodes basées sur la construction d'hypersurfaces séparatrices ;

méthodes basées sur le principe des potentiels ;

des méthodes basées sur la définition d'instances ;

méthodes développées sur la base de l’étude des réseaux de neurones biologiques.

Le nombre de méthodes existantes pour l’extraction et la classification de caractéristiques est illimité. Ensuite, nous ne considérerons que les méthodes les plus connues.

3.4.2. Méthodes basées sur l'analyse des caractéristiques locales

Toutes les méthodes de ce groupe, d'une manière ou d'une autre, localisent les zones caractéristiques du visage et, sur cette base, mettent en œuvre leur algorithme.

Modèles d'apparence flexibles

Certaines méthodes pour résoudre le problème de la reconnaissance faciale utilisent le concept de « modèles de visage élastiques » (modèle flexible), qui sont à leur tour des objets reconstruits à partir de composants principaux. Dans ces procédés, la reconnaissance est effectuée sur la base d'une comparaison des contours du visage. Les contours sont généralement extraits pour les lignes de la tête, des oreilles, des lèvres, du nez, des sourcils et des yeux. Les contours sont représentés par des positions clés, entre lesquelles les positions des points appartenant au contour sont calculées par interpolation. Pour localiser les contours, diverses méthodes utilisent à la fois des informations a priori et des informations obtenues à partir de l'analyse de l'ensemble d'apprentissage.

Dans le travail, les points clés correspondant aux contours ont été placés manuellement sur un ensemble d'images d'entraînement. Ces ensembles de points (les caractéristiques initiales) représentent les modèles de forme de visage (IMF) initiaux. Ensuite, ces caractéristiques sont réduites à l'aide de la méthode des composantes principales et un MFL moyenné est formé sur leur base. Cela crée la possibilité de modifier la forme du modèle de visage et, par conséquent, de créer un modèle élastique de la forme du visage (EMFL) en modifiant les paramètres dans l'espace des caractéristiques réduites. Au cours du processus de reconnaissance, l'EMFL est pour ainsi dire « étendu » sur l'image reconnue du visage, et les nouveaux paramètres de forme du modèle qui en résultent sont la clé de la classification de l'image reconnue.

Pour rechercher des contours sur le visage, il est proposé d'utiliser l'algorithme Active Shape Models. La tâche principale de la reconnaissance des contours est la sélection correcte de ces contours. En général, cette tâche est comparable en complexité à la reconnaissance d'images. De plus, l’utilisation de cette méthode à elle seule n’est pas suffisante pour la tâche de reconnaissance.

Riz. Localisation des points sur le visage à partir de l'ensemble d'entraînement

Riz. L'influence des principaux composants sur la forme du visage

Que dire si, rien qu'à Moscou, il existe déjà un réseau de plus de 150 000 caméras de vidéosurveillance extérieures. On ne peut pas se cacher d’eux, et cela fait réfléchir, mais l’ampleur de la « surveillance » n’est pas si grande. Le réseau utilise un puissant système de reconnaissance faciale, mais son fonctionnement nécessite beaucoup d'énergie, de sorte que seules 2 à 4 000 caméras fonctionnent en temps réel. La surveillance massive de la population n'est encore qu'effrayante, il vaut donc la peine de se concentrer sur les réels avantages de cette technologie. Mais tout d’abord.

Comment fonctionne le système de reconnaissance faciale ?

Avez-vous déjà réfléchi à la façon dont vous reconnaissez vous-même un visage et le reconnaissez ? Comment un ordinateur fait-il cela ? Bien entendu, les visages humains possèdent certaines propriétés faciles à décrire. La distance entre les yeux, la position et la largeur du nez, la forme des arcades sourcilières et du menton : vous remarquez tous ces détails inconsciemment lorsque vous regardez une autre personne. L'ordinateur fait tout cela avec une certaine efficacité et précision, car en combinant toutes ces métriques, il obtient une formule mathématique visage humain.

Alors, dans quelle mesure la reconnaissance faciale fonctionne-t-elle actuellement ? Plutôt bien, mais parfois il fait des erreurs. Si vous avez déjà rencontré un logiciel de reconnaissance faciale sur Facebook ou une autre plateforme, vous avez probablement remarqué qu'il existe autant de résultats amusants que précis. Pourtant, même si la technologie ne fonctionne pas avec une précision à 100 %, elle est suffisamment performante pour être largement utilisée. Et même vous rendre nerveux.

Paul Howie de NEC affirme que leur système de reconnaissance faciale scanne les visages à la recherche d'identifiants individuels :

« Par exemple, beaucoup de gens considèrent la distance entre les yeux comme une caractéristique unique. Ou cela pourrait être la distance entre le menton et le front et d’autres composants. En particulier, nous prenons en compte 15 à 20 facteurs considérés comme importants, ainsi que d'autres facteurs qui ne le sont plus. Une image 3D de la tête de la personne est créée, de sorte que même si elle est partiellement recouverte, nous pouvons toujours obtenir une correspondance exacte. Le système prend ensuite la signature faciale et la transmet à la base de données.

Faut-il s’inquiéter des logiciels de reconnaissance faciale ?

Tout d’abord, la reconnaissance faciale est une donnée. Les données peuvent être collectées et stockées, souvent sans autorisation. Une fois les informations collectées et stockées, elles sont ouvertes au piratage. Les plateformes logicielles de reconnaissance faciale n’ont pas encore connu de piratage majeur, mais à mesure que la technologie se propage, vos données biométriques se retrouvent entre les mains de plus en plus de personnes.

Il y a aussi des problèmes de propriété. La plupart des gens ne savent pas que lorsqu’ils s’inscrivent sur des plateformes de médias sociaux comme Facebook, leurs données appartiennent désormais à Facebook. Avec un nombre croissant d'entreprises utilisant la reconnaissance faciale, vous n'aurez bientôt même plus besoin de télécharger vos propres photos sur Internet pour vous retrouver compromis. Ils y sont déjà stockés, et ce depuis longtemps.

En parlant de logiciels, ils fonctionnent tous différemment, mais ils utilisent fondamentalement des méthodes et des réseaux de neurones similaires. Chaque visage possède de nombreux traits distinctifs (il est impossible de trouver deux visages identiques dans le monde, mais il y en a eu tellement tout au long de l’histoire de l’humanité !). Par exemple, le logiciel FaceIt définit ces fonctionnalités comme des nœuds. Chaque visage contient environ 80 points nodaux, semblables à ceux que nous avons évoqués précédemment : la distance entre les yeux, la largeur du nez, la profondeur des orbites, la forme du menton, la longueur de la mâchoire. Ces points sont mesurés et créent un code numérique – une « empreinte faciale » – qui est ensuite entré dans une base de données.

Dans le passé, la reconnaissance faciale reposait sur des images 2D pour comparer ou identifier d'autres images 2D à partir d'une base de données. Pour une efficacité et une précision maximales, l'image devait être celle d'un visage regardant directement la caméra, avec peu de dispersion lumineuse et aucune expression faciale particulière. Bien sûr, cela a très mal fonctionné.

Dans la plupart des cas, les images n’ont pas été créées dans un environnement adapté. Même un léger jeu de lumière pourrait réduire l’efficacité du système, entraînant des taux de défaillance élevés.

La 2D a été remplacée par la reconnaissance 3D. Cette tendance logicielle récente utilise un modèle 3D pour fournir une reconnaissance faciale très précise. En capturant une image 3D de la surface du visage d'une personne en temps réel, le logiciel met en évidence les caractéristiques distinctives - là où les tissus durs et les os sont les plus visibles, comme les courbes de l'orbite, du nez et du menton - pour identifier le sujet. Ces zones sont uniques et ne changent pas avec le temps.

Grâce à la profondeur et aux axes de mesure qui ne sont pas affectés par l'éclairage, la reconnaissance faciale 3D peut même être utilisée dans l'obscurité et reconnaître des objets sous différents angles (même de profil). Un tel logiciel passe par plusieurs étapes pour identifier une personne :

Détection: Prendre une image en numérisant numériquement une photo (2D) ou une vidéo existante pour produire une image en direct du sujet (3D).
Alignement: Après avoir identifié un visage, le système note la position, la taille et la pose de la tête.
La mesure: Le système mesure les courbes du visage avec une précision millimétrique et crée un modèle.
Représentation: Le système traduit le modèle en un code unique. Ce code donne à chaque modèle un ensemble de nombres représentant les caractéristiques et les traits du visage.
Comparaison: Si l'image est en 3D et que la base de données contient des images 3D, la comparaison se poursuivra sans modifier l'image. Mais si la base de données est constituée d’images bidimensionnelles, l’image tridimensionnelle est décomposée en différents composants (comme des photographies bidimensionnelles des mêmes traits du visage prises sous différents angles) et converties en images 2D. Et puis la correspondance est trouvée dans la base de données.
Vérification ou identification: Lors du processus de vérification, l'image est comparée à une seule image de la base de données (1:1). Si l'objectif est l'identification, l'image est comparée à toutes les images de la base de données, ce qui donne un certain nombre de correspondances possibles (1:N). Une méthode ou une autre est utilisée selon les besoins.

Où sont utilisés les systèmes de reconnaissance faciale ?

Dans le passé, les systèmes de reconnaissance faciale étaient principalement utilisés par les forces de l'ordre, car les autorités les utilisaient pour rechercher des visages aléatoires dans la foule. Certaines agences gouvernementales ont également utilisé des systèmes similaires pour assurer la sécurité et éliminer la fraude électorale.

Cependant, il existe de nombreuses autres situations dans lesquelles de tels logiciels deviennent populaires. Les systèmes deviennent moins chers et leur distribution augmente. Ils sont désormais compatibles avec les caméras et les ordinateurs utilisés par les banques et les aéroports. Les agences de voyages travaillent sur un programme « voyageurs chevronnés » pour fournir un contrôle de sécurité rapide aux passagers qui fournissent volontairement des informations. Les files d'attente dans les aéroports évolueront plus rapidement si les gens passent par un système de reconnaissance faciale qui compare les visages à une base de données interne.

D'autres applications potentielles incluent les guichets automatiques et les distributeurs automatiques de billets. Le logiciel peut vérifier rapidement le visage du client. Après autorisation du client, le guichet automatique ou le terminal prend une photo du visage. Le logiciel crée une empreinte faciale qui protège le client contre l'usurpation d'identité et les transactions frauduleuses : le guichet automatique ne donnera tout simplement pas d'argent à une personne ayant un visage différent. Vous n'avez même pas besoin d'un code PIN.

La magie? Les technologies!

Le développement de la technologie de reconnaissance faciale dans le domaine des virements bancaires pourrait être particulièrement important et intéressant. L'autre jour, la banque russe Otkrytie a présenté sa solution unique, développée sous la marque technologique Open Garage : transférer de l'argent à l'aide d'une photo dans l'application mobile Otkritie.Transfers. Au lieu de saisir une carte ou un numéro de téléphone, il vous suffit de prendre une photo de la personne à qui vous devez effectuer un virement. Le système de reconnaissance faciale comparera la photo avec celle de référence (effectuée lorsque la banque émet la carte) et demandera le prénom et le nom. Il vous suffit de sélectionner une carte et de saisir le montant. Ce qui est particulièrement important, c'est que les clients de banques tierces peuvent également utiliser cette fonction pour effectuer des virements vers les clients d'Otkrytie - l'expéditeur des virements peut utiliser une carte de n'importe quelle banque russe.

"L'utilisation de la photographie d'un client à la place d'un numéro de carte bancaire est une approche fondamentalement nouvelle des virements en ligne, basée sur l'utilisation d'un système de reconnaissance faciale par réseau neuronal, qui permet d'identifier un client grâce à ses données biométriques avec un haut degré de précision, » déclare le chef du département de développement des systèmes de partenariat de la Banque Otkritie, Alexey Matveev. - Le service ouvre des scénarios de vie complètement nouveaux permettant aux utilisateurs d'effectuer des transferts d'argent. Actuellement, aucun acteur des marchés financiers dans le monde n’offre un tel service à ses clients.»

Application mobile « Ouverture. Des traductions" sont possibles.