Attenzione: questa pagina è una traduzione automatica di questa pagina originariamente in lingua inglese. Si prega di notare in quanto le traduzioni sono generate da macchine, non tutte le traduzioni saranno perfetti. Questo sito web e le sue pagine web sono destinati ad essere letto in inglese. Ogni traduzione del sito e le sue pagine web possono essere imprecise e inesatte, in tutto o in parte. Questa traduzione è fornita per comodità.

Il nuovo modello recupera i dati apprezzati persi dalle immagini e dai video

I ricercatori del MIT hanno sviluppato un modello che recupera i dati apprezzati persi dalle immagini ed il video che “sono stati crollati„ nelle dimensioni più basse.

Il modello potrebbe essere usato per ricreare il video dalle immagini moto-vaghe, o dai nuovi tipi di macchine fotografiche che catturano il movimento di una persona intorno agli angoli ma soltanto come righe unidimensionali vaghe.

Mentre più prova è necessaria, i ricercatori ritengono che questo approccio potrebbe qualche giorno potrebbe essere usato per convertire le 2D immagini mediche in più informativo -- ma più costoso -- scansioni dell'organismo 3D, in grado di avvantaggiare l'imaging biomedico nelle nazioni più difficili.

In tutti questi casi, i dati visivi hanno una dimensione -- a tempo o lo spazio -- quello completamente è perso. Se recuperiamo quella dimensione persa, può avere molte applicazioni importanti.„

Guha Balakrishnan

Balakrishnan è un postdoc nel laboratorio dell'informatica e di intelligenza artificiale (CSAIL) e primo autore su un documento che descrive il modello, che sta presentando alla conferenza internazionale della settimana prossima su dispositivo ottico del computer.

I dati visivi catturati sprofondano spesso dati delle dimensioni multiple di tempo e spazio in una o due dimensione, chiamate “proiezioni.„ I raggi x, per esempio, sprofondano dati tridimensionali circa le strutture anatomiche in un'immagine piana. O, consideri uno scatto dell'a lungo esposizione delle stelle che si muovono attraverso il cielo: Le stelle, di cui la posizione sta cambiando col passare del tempo, compaiono come strisce vaghe nello scatto tranquillo.

Inoltre, “le macchine fotografiche d'angolo,„ recentemente hanno inventato al MIT, individuano la gente mobile intorno agli angoli. Questi hanno potuto essere utili per esempio i pompieri che trovano la gente in edilizie brucianti. Ma le macchine fotografiche non sono esattamente facili da usare. Corrente producono soltanto le proiezioni che somigliano alle righe confuse e deformate, corrispondendo alla traiettoria ed alla velocità di una persona.

I ricercatori hanno inventato “un modello di deprojection visivo„ che usa una rete neurale “impara„ i reticoli che abbinano le proiezioni basso dimensionali alle loro immagini e video alto-dimensionali originali. Le nuove proiezioni date, il modello usano che cosa è imparato per ricreare tutti i dati originali da una proiezione.

Negli esperimenti, il modello ha sintetizzato i video fotogrammi accurati che mostrano la gente che cammina, estraendo le informazioni dalle singole, righe unidimensionali simili a quelle prodotte dalle macchine fotografiche d'angolo. Fotogrammi anche recuperati del modello i video dalle singole, proiezioni moto-vaghe delle cifre che muovono intorno uno schermo, dal gruppo di dati mobile popolare di MNIST.

Balakrishnan unentesi sul documento è: Amy Zhao, un dottorando nel dipartimento di ingegneria elettrica e di informatica (EECS) e CSAIL; I professor John Guttag, Fredo Durand e William T. Freeman di EECS; ed Adrian Dalca, un docente in radiologia alla facoltà di medicina di Harvard.

Bugne in pixel

Il lavoro iniziato come “problema fresco di inversione„ per ricreare movimento che causa il mosso nella fotografia dell'a lungo esposizione, Balakrishnan dice. In pixel di una proiezione esiste alcune bugne circa la sorgente alto-dimensionale.

Le macchine fotografiche digitali che catturano gli scatti dell'a lungo esposizione, per esempio, cumuleranno basicamente i fotoni durante tempo su ogni pixel. Nella cattura del movimento di un oggetto col passare del tempo, la macchina fotografica catturerà il valore medio dei pixel dicattura.

Poi, applica quei valori medii alle altezze ed alle larghezze corrispondenti di un'immagine tranquilla, che crea le strisce confuse dell'impronta della traiettoria dell'oggetto. Calcolando alcune variazioni nell'intensità del pixel, il movimento può essere ricreato teoricamente.

Poichè i ricercatori realizzati, quel problema è pertinenti in molte aree: I raggi x, per esempio, catturano l'altezza, la larghezza e le informazioni di profondità delle strutture anatomiche, ma usano una simile tecnica pixel-facente la media a profondità di crollo in una 2D immagine.

Macchine fotografiche d'angolo -- inventato nel 2017 da Freeman, da Durand e da altri ricercatori -- catturi i segnali luminosi riflessi intorno ad una scena nascosta che portano le informazioni bidimensionali sulla distanza di una persona dalle pareti e dagli oggetti. La tecnica pixel-facente la media poi sprofonda quei dati in un video unidimensionale -- basicamente, misure delle lunghezze differenti col passare del tempo in una singola riga.

I ricercatori hanno sviluppato un modello generale, in base ad una rete neurale dell'avvolgimento (CNN) -- un modello di apprendimento automatico che si trasforma in in una centrale elettrica per immagine-trattamento incarica -- quel cattura le bugne circa tutta la dimensione persa in pixel fatti la media.

Sintetizzazione dei segnali

Nell'addestramento, i ricercatori hanno alimentato migliaia di CNN di paia delle proiezioni e delle loro sorgenti alto-dimensionali, chiamate “segnali.„ Il CNN impara i reticoli del pixel nelle proiezioni che abbinano quelle nei segnali. La potenza del CNN è una struttura chiamata “un autoencoder di variazione,„ che valuta come la corrispondenza degli output di CNN i sui input attraverso una certa probabilità statistica.

Dal quel, il modello impara “uno spazio„ di tutti i segnali possibili che potrebbero produrre una proiezione data. Ciò crea, in pratica, un tipo di cianografia affinchè come vada da una proiezione a tutti i segnali di corrispondenza possibili.

Una volta indicate le proiezioni precedentemente non viste, il modello notano i reticoli del pixel e seguono le cianografie a tutti i segnali possibili che potrebbero produrre quella proiezione. Poi, sintetizza le nuove immagini che combinano tutti i dati dalla proiezione e tutti i dati dal segnale. Ciò ricrea il segnale alto-dimensionale.

Per un esperimento, i ricercatori hanno raccolto un gruppo di dati di 35 video di 30 persone che camminano in un'area specificata. Sono sprofondato tutti i fotogrammi nelle proiezioni che hanno usato per preparare e verificano il modello. Da un insieme della tenuta-fuori di sei proiezioni non viste, il modello ha ricreato esattamente 24 fotogrammi dell'andatura della persona, giù alla posizione dei loro cosciotti e della dimensione della persona mentre hanno camminato verso o a partire dalla macchina fotografica.

Il modello sembra imparare, per esempio, che i pixel che ottengono più scuri e più ampi con tempo probabilmente corrispondano ad una persona che cammina più vicino alla macchina fotografica.

“È quasi come magia che possiamo recuperare questo dettaglio,„ Balakrishnan dice.

I ricercatori non hanno verificato il loro modello sulle immagini mediche. Ma ora stanno collaborando con i colleghi di Cornell University per recuperare le informazioni anatomiche 3D dalle 2D immagini mediche, quali i raggi x, senza i costi aggiunti -- quale può permettere all'imaging biomedico più dettagliato nelle nazioni più difficili.

Medici principalmente preferiscono le scansioni 3D, come quelli catturati con le scansioni di CT, perché contengono le informazioni mediche molto più utili. Ma le scansioni di CT sono generalmente difficili e costose da acquistare.

Se possiamo convertire i raggi x in scansioni di CT, quello cacciagione-stava cambiando piuttosto. Potreste catturare i raggi x e spingerlo con il nostro algoritmo e vedere appena tutte le informazioni perse.„

Guha Balakrishnan