05:26 16 Dicembre 2018
Rete neurale

Oggetto identificato: come fanno le reti neurali a catturare i criminali?

CC BY 2.0 / OLCF at ORNL / Scaling Deep Learning for Science
Mondo
URL abbreviato
221

Le reti neurali autodidatte hanno scatenato nei sistemi di riconoscimento facciale una vera e propria rivoluzione.

In Cina stanno implementando un progetto statale di sicurezza su larga scala basato sull'analisi delle immagini ottenute da milioni di videocamere di sorveglianza. Sistemi simili sono impiegati negli aeroporti e nella metropolitana di Mosca. Sputnik vi racconta come sono fatti e di cosa sono capaci questi sistemi.

Un compito particolare per il cervello

Del riconoscimento di amici e nemici è responsabile una zona particolare della corteccia visiva del cervello umano (nel lobo occipitale) in cui sono posizionati i neuroni preposti al riconoscimento facciale.

Questi neuroni formano reti che elaborano le informazioni visive secondo una gerarchia e conservano le immagini. Se alcuni neuroni muoiono, la rete li sostituisce velocemente permettendo così al sistema di continuare a funzionare.

Raggiunto un luogo l'uomo come prima cosa fa una sorta di scanner dello spazio circostante alla ricerca di persone. I fotoni attraversano la retina e vengono trasformati in segnali elettrici che vanno al cervello. Qui l'immagine viene ridotta a simboli dai quali poi si viene a creare il quadro generale. Nella nostra memoria vengono conservate le immagini viste in passato e alcune rappresentazioni aprioristiche del mondo circostante. Per questo non ci stupiamo quando arriviamo in un posto nuovo o incontriamo degli sconosciuti. A noi sono noti tutti gli oggetti a livello di macrocategorie (tavolo, finestra, uomo anziano). La differenza la fanno solo i dettagli, il colore e le dimensioni.

È più o meno così che è costruito il sistema nervoso di una rana che gestisce in modo programmatico le informazioni visive. L'anfibio percepirà un piccolo rettangolo allungato come un verme e un grande quadrato come un predatore da cui mettersi al riparo. Anche i pesci sono in grado di riconoscere i congiunti.

Centinaia di segnali al posto dell'astrazione

Nell'elaborazione delle reti neurali i programmatori si sono basati sullo schema di funzionamento del cervello. Solo che al posto dei neuroni vi sono formule matematiche che impiegano valori digitali o logici. Queste formule-neuroni sono collegate in strati che in entrata ricevono dati e poi forniscono un risultato. Gli strati, invece, sono collegati in reti. Le reti neurali contengono decine e talvolta centinaia di strati.

Il sistema di riconoscimento facciale è composto da due parti. La prima, la rete neurale rilevatrice, accoglie il flusso di informazioni ripreso dalla videocamera e determina se vi sono persone. Una volta rilevate invia le informazioni riguardanti le persone alla rete neurale identificatrice che le confronta con una banca dati e rivela la presenza di corrispondenze.

Proprio come il cervello la rete neurale sfrutta i segnali. Ma descriverli nei termini a cui siamo abituati è impossibile. Viso tondo, sopracciglia sottili, capelli scuri, riga dei capelli a sinistra: sono concetti astratti che si formano dopo un'analisi gerarchica dei segnali visivi. Il processo vero e proprio di riconoscimento è molto più complicato perché si basa sull'analisi di una moltitudine di piccole caratteristiche. Così funziona anche l'intelligenza artificiale. Una fronte sporgente può essere descritta con 300 valori.

"È difficile dire quali simboli formino una rete neurale. È come un scatola nera: aprirla e vedere come funziona è un'operazione scientifica per niente facile. Sappiamo con certezza di avere un modello matematico che trasforma l'immagine delle persone in una lista di simboli. Facendo una cernita delle diverse opzioni cambiamo la struttura di questo modello per migliorarne il risultato finale", racconta a Sputnik Aleksej Cessarsky, vice direttore generale dell'azienda che produce il sistema Videotech.

Piegare e ricomporre

Il compito della rete neurale è quello di ridurre l'immagine a un insieme di simboli. La rete compie quest'azione con l'aiuto di formule matematiche che hanno la funzione di filtro. Si prende un riquadro di solito di 3x3 pixel e gli si sovrappone l'immagine del viso. Poi i 9 pixel del riquadro sono sostituiti da un solo pixel, solitamente quello più luminoso. Le dimensioni dell'immagine vengono ridotte di tre volte. Questa è un'operazione di convoluzione e la rete neurale implicata nel processo viene detta convoluzionale.

Con le immagini sottoposte a convoluzione la macchina funziona più facilmente. In tal modo si riesce a distinguere un viso dall'altro.

"Come filtro si può usare solo il colore rosso, il colore dell'angolo in alto a sinistra del riquadro. Vi sono filtri che evidenziano chiaramente i bordi e le linee orizzontali. Vi sono formule che con un insieme di simboli effettuano trasformazioni matematiche", spiega Cessarsky.

L'insieme di filtri, la loro consequenzialità, la struttura della rete neurale sono un know-how sul quale anche i programmatori dibattono.

Affinché la rete neurale riconosca correttamente i volti, bisogna fornirle un'ampia banca dati di immagini. È un processo lungo che ha alla base molta interazione. A seconda della dimensione della banca dati e delle risorse di calcolo possono volerci settimane e mesi. Passo dopo passo il sistema impara a riconoscere i volti in modo sempre più preciso. I programmatori controllano solo che i vettori dei simboli (cioè il risultato del lavoro della rete neurale) portino il maggior numero di informazioni e permettano di fare un confronto.

Per una rete neurale che è stata istruita l'età, il sesso e l'appartenenza religiosa di un volto non sono un problema.

"La rete neurale è in grado in pochi secondi di dire quale persona su dieci milioni si trovava nel campo visivo di 150000 telecamere. Un umano non potrà mai fare una cosa simile", osserva Cessarsky.

Come imbrogliare il sistema

"La cosa più semplice è coprire completamente il viso. Ma ci sono anche metodi più ingegnosi. Bisogna solo conoscere la struttura della rete neurale e i dati di cui essa dispone. Ad esempio, truccarsi in un certo modo, mettersi delle fasce, avere i punti neri possono in teoria aggirare il sistema. Ma prima di arrivare al sistema una faccia truccata in modo molto strano potrebbe suscitare sospetti nei passanti e attirare l'attenzione della polizia", spiega Artjom Kukharenko, fondatore della compagnia NtechLab che ha elaborato il sistema FindFace per trovare le persone in base alle foto dei profili pubblici su VKontakte.

Parrucche, baffi e occhiali non diminuiscono di molto la precisione del riconoscimento. Nemmeno il trucco da combattimento dei fan del calcio, ad esempio, riesce a fuorviare il sistema. Dopotutto una buona parte dei segnali si rifà alla conformazione del viso e non agli altri attributi. È più efficace non mascherarsi ma tentare di far impazzire il programma, afferma Cessarsky.

La rete neurale in sostanza è una complicata funzione che ottiene dei dati, li converte e fornisce un risultato. Possiede una ristretta gamma di simboli in entrata che danno un risultato totalmente diverso da quello consueto. È possibile scegliere un'immagine che influisce così pesantemente sul risultato della conversione da distaccarsi dall'immagine standard. Qualcosa come un carattere cinese che unito a un viso potrebbe confondere il sistema", spiega.

Secondo l'esperto la raccolta di queste immagini potenzialmente fonte di confusione è un compito complesso e faticoso che la maggior parte dei criminali non è in grado di portare a termine.

"Si tratta di un'attività più per studiosi che per persone normali", conclude Cessarsky.

Le reti neurali in città

"Una delle attività più richieste è il riconoscimento di persone indagate sulla base dell'analisi del flusso di informazioni raccolto dalle videocamere di sorveglianza cittadine, ad esempio a Mosca. La rete neurale in tempo reale confronta le persone entrate nel campo visivo delle videocamere con quelle presenti nelle banche dati delle forze dell'ordine. In caso di corrispondenze le informazioni sono inviate ai poliziotti che agiranno in base al protocollo. Ciò permette di aumentare il livello di sicurezza nella città", spiega Artyom Kukharenko.

A Mosca ci sono centinaia di migliaia di videocamere per strada. L'analisi delle registrazioni avviene manualmente e può durare ore o addirittura giorni. Se invece il compito è affidato al programma, quest'ultimo lo risolve nel giro di pochi secondi e con un'elevata precisione. Ad esempio per un ricerca su 500 milioni di foto pubblicate sul social network Vkontakte basta mezzo secondo.

Secondo Kukharenko la precisione del sistema dipende dalla dimensione della banca dati di immagini con la quale è necessario lavorare: una banca dati di 1000 immagini darà una precisione quasi del 100%; milioni di fotografie, invece, abbasseranno la precisione al 95%.

Anche le condizioni in cui si trovano le videocamere svolgono un preciso ruolo. La sovraesposizione alla luce e determinate angolazioni dell'immagine fanno diminuire la precisione, ma il sistema funzionerà comunque.

"Anche una verosimiglianza di riconoscimento al 60% è già un valore elevato", ha sottolineato Kukharenko.

La macchina riconosce le emozioni

Le reti neurali stanno già imparando a riconoscere le emozioni. In tal modo potrebbero diventare aiutanti intelligenti incorporati in macchine e dispositivi.

"I servizi diventano sempre più spersonalizzati quando è un programma a comunicare con il cliente. Si può insegnare al programma a valutare le emozioni e ad avere una reazione adatta alla situazione. Ad esempio se provate a compare qualcosa dalle macchinette e non sapete quale pulsante premere potreste infastidirvi e sferzare un pugno. La macchinetta, se in grado di riconoscere le emozioni, potrebbe cominciare a interagire con voi per aiutarvi", spiega Aleksej Kadejshvili, direttore tecnico della compagnia Vokord.

Un compito ancora più interessante è la creazione di un aiutante personale che affianchi una persona vera, conosca le sue emozioni e impari a reagire ad esse. Un programma del genere può essere integrato in un dispositivo o in una casa intelligente tramite l'aggiunta ai simboli riconoscibili non solo delle espressioni facciali ma anche della voce e dei movimenti.

Il funzionamento sarebbe più o meno il seguente: il programma verifica quanto i connotati della persona sono distorti rispetto ad un'espressione facciale neutra. A seconda del grado di distorsione determina quale emozione la persona stia provando. Tuttavia è ancora difficile formalizzare questo tipo di pratica perché la soggettività di ogni persona rende difficile il corretto riconoscimento.

"Alcune emozioni sono esternate in modo inequivocabile; altre, invece, possono essere poco chiare e queste sono difficili da riconoscere. Ciò complica molto il lavoro del sistema. Il risultato del riconoscimento facciale è chiaro: o la persona è quella giusta oppure no. In caso di errore bisogna correggere qualcosa nel sistema. Con le emozioni, invece, è diverso", spiega Kadejshvili.

L'approccio scientifico vorrebbe che gli studiosi riuscissero a definire come classificare le emozioni. Tuttavia, secondo Kadejshvili, si tratterebbe di un processo lungo, complicato e costoso. Per questo, i programmatori dei sistemi di riconoscimento emotivo impiegano un numero limitato di dati in uscita.

Vettore del progresso

Anche se le reti neurali hanno risultati migliori dell'uomo nel riconoscimento facciale, siamo ben lungi dalla perfezione.

"In due anni abbiamo triplicato la precisione del nostro algoritmo. Stiamo lavorando anche sulla velocità. Per i progetti più grandi sono necessarie molte risorse di calcolo. Per questo ci proponiamo di rendere il sistema ancor più efficiente e conveniente", sottolinea Artyom Kukharenko.

Oggi i sistemi di riconoscimento facciale sono richiesti per portare a termini compiti complessi: garantire la sicurezza dei cittadini e dei passeggeri sui trasporti pubblici, controllare gli accessi in grandi aziende o strutture sportive, cercare persone scomparse. Vi è anche una serie di compiti "al dettaglio": lotta ai furti, programmi di fidelizzazione.

"Il nostro algoritmo ci permette di riconoscere le emozioni, determinare il sesso e l'età, la presenza di baffi, barba, occhiali, ecc. È richiesto sul mercato al dettaglio. I dettaglianti desiderano ottenere un resoconto demografico dei visitatori nei propri negozi e capire le preferenze dei clienti per fornire un servizio di maggiore qualità", esemplifica Kukharenko.

"Il ventaglio di applicazione delle reti neurali è molto vasto. È più difficile dire in quali ambiti non sarà impiegata questa tecnologia nel prossimo futuro", precisa Kadejshvili.

Secondo l'esperto le reti neurali non funzionano a livello ottimale in tutte le situazioni. Ad esempio incontrano difficoltà in caso del cosiddetto regime non collaborativo, ovvero quando bisogna riconoscere il viso di persone che camminano nella folla e che non aiutano il sistema ad essere riconosciute. La precisione in questo caso è inferiore all'analisi di un selfie. Tuttavia ogni tre anni tutte le falle nei sistemi di riconoscimento facciale vengono sistemate, così questi sistemi diventeranno parte integrante della nostra vita come le fotocamere dei telefoni cellulari. 

Tags:
emozioni, cervello, reti neurali
RegolamentoDiscussione
Commenta via FacebookCommenta via Sputnik