Avertissement : Cette page est une traduction automatique de cette page à l'origine en anglais. Veuillez noter puisque les traductions sont générées par des machines, pas tous les traduction sera parfaite. Ce site Web et ses pages Web sont destinés à être lus en anglais. Toute traduction de ce site et de ses pages Web peut être imprécis et inexacte, en tout ou en partie. Cette traduction est fournie dans une pratique.

Le modèle neuf récupère des caractéristiques précieuses détruites des images et des vidéos

Les chercheurs de MIT ont développé un modèle qui récupère des caractéristiques précieuses détruites des images et le vidéo qui « ont été effondrés » dans des cotes inférieures.

Le modèle pourrait être employé pour recréer le vidéo des images mouvement-tremblées, ou des types neufs d'appareils-photo qui captent le mouvement d'une personne autour des coins mais seulement en tant que lignes unidimensionnelles vagues.

Tandis que plus de contrôle est nécessaire, les chercheurs pensent que cette approche pourrait pourrait être employée un jour pour convertir les 2D images médicales en plus instructif -- mais plus cher -- échographies du fuselage 3D, qui pourraient bénéficier l'imagerie médicale dans des pays plus faibles.

Dans tous ces cas, la caractéristique visuelle a une cote -- à temps ou l'espace -- cela est complet détruit. Si nous récupérons cette cote perdue, elle peut avoir beaucoup d'applications importantes. »

Guha Balakrishnan

Balakrishnan est un postdoc dans le laboratoire de l'informatique et d'artificial intelligence (CSAIL) et le premier auteur sur un article décrivant le modèle, qui est présenté à la Conférence Internationale de la semaine prochaine sur la visibilité d'ordinateur.

La caractéristique visuelle captée s'effondre souvent des caractéristiques des cotes multiples de temps et espace dans un ou deux cotes, « projections appelées. » Rayons X, par exemple, caractéristiques en trois dimensions d'effondrement au sujet des structures anatomiques dans une image plate. Ou, considérez une long-exposition tirée des étoiles déménageant en travers du ciel : Les étoiles, dont la position change au fil du temps, apparaissent en tant que traînées tremblées dans le coup de feu immobile.

De même, « les appareils-photo faisants le coin, » ont récent inventé au MIT, trouvent les gens mobiles autour des coins. Ceux-ci ont pu être utiles pour par exemple des sapeurs-pompiers trouvant des gens dans les constructions brûlantes. Mais les appareils-photo ne sont pas exact conviviaux. Actuel ils produisent seulement les projections qui ressemblent aux lignes troubles et pas droites, correspondant à la trajectoire et à la vitesse d'une personne.

Les chercheurs ont inventé un modèle « de deprojection visuel » qui emploie un réseau neuronal « apprennent » les configurations qui apparient les projections inférieur-dimensionnelles à leurs images et vidéos haut-dimensionnels originels. Les projections neuves données, le modèle emploie ce qu'on l'apprend à recréer toutes les caractéristiques originelles d'une projection.

Dans les expériences, le modèle a synthétisé les images vidéo précises montrant des gens marchant, en extrayant l'information des lignes uniques et unidimensionnelles assimilées à ceux produites par les appareils-photo faisants le coin. Les images vidéo également récupérées de modèle des projections uniques et mouvement-tremblées des chiffres déménageant autour un écran, de l'ensemble de données mobile populaire de MNIST.

Balakrishnan de jointure sur le papier sont : Amy Zhao, un étudiant de troisième cycle dans le service du génie électrique et de l'informatique (EECS) et CSAIL ; Professeurs d'EECS John Guttag, Fredo Durand, et William T. Freeman ; et Adrian Dalca, un membre de la faculté en radiologie à la Faculté de Médecine de Harvard.

Indices en pixels

Le travail commencé comme « problème frais d'inversion » pour recréer le mouvement qui entraîne le flou de mouvement dans la photographie de long-exposition, Balakrishnan dit. En pixels d'une projection là existent quelques indices au sujet de la source haut-dimensionnelle.

Les appareils photo numériques captant des coups de feu de long-exposition, par exemple, totaliseront fondamentalement des photons sur une période de temps sur chaque pixel. En captant le mouvement d'un objectif au fil du temps, l'appareil-photo prendra la valeur moyenne des pixels de mouvement-retenue.

Puis, il s'applique ces valeurs moyennes aux hauteurs et aux largeurs correspondantes d'une image fixe, qui produit les traînées troubles de signature de la trajectoire de l'objectif. En prévoyant quelques variations de l'intensité de pixel, le mouvement peut théoriquement être recréé.

Car les chercheurs réalisés, ce problème est approprié dans beaucoup d'endroits : Les rayons X, par exemple, saisissent la hauteur, la largeur, et l'information de profondeur des structures anatomiques, mais ils emploient une technique de pixel-établissement d'une moyenne assimilée à la profondeur d'effondrement dans une 2D image.

Appareils-photo faisants le coin -- inventé en 2017 par Freeman, Durand, et d'autres chercheurs -- captez les signes légers réfléchis autour d'une scène cachée qui diffusent des informations bidimensionnelles sur la distance d'une personne des parois et des objectifs. La technique de pixel-établissement d'une moyenne s'effondre alors cette caractéristique dans un vidéo unidimensionnel -- fondamentalement, mesures de différentes longueurs au fil du temps dans une ligne unique.

Les chercheurs ont établi un modèle général, basé sur un réseau neuronal circonvolutionnaire (CNN) -- un modèle d'apprentissage automatique qui est devenu une centrale électrique pour des tâches à traitement d'images -- ce capte des indices au sujet de n'importe quelle cote perdue en pixels ramenés à une moyenne.

Synthésisation des signes

Dans la formation, les chercheurs ont alimenté les milliers de CNN de paires de projections et de leurs sources haut-dimensionnelles, « signes appelés. » Le CNN apprend des configurations de pixel dans les projections qui apparient ceux dans les signes. Actionner le CNN est un cadre appelé « un autoencoder variationnel, » qui évalue à quel point la correspondance de sorties de CNN ses entrées en travers d'une certaine probabilité statistique.

Du ce, le modèle apprend un « espace » de tous les signes possibles qui pourraient avoir produit une projection donnée. Ceci produit, essentiellement, un type de modèle pour que la façon aille d'une projection à tous les signes assortis possibles.

Une fois montrées les projections précédemment invisibles, le modèle note les configurations de pixel et suit les modèles à tous les signes possibles qui pourraient avoir produit cette projection. Puis, elle synthétise les images neuves qui combinent toutes les caractéristiques de la projection et toutes les caractéristiques du signe. Ceci recrée le signe haut-dimensionnel.

Pour une expérience, les chercheurs ont rassemblé un ensemble de données de 35 vidéos de 30 personnes marchant dans un endroit spécifique. Ils se sont effondrés tous les bâtis dans les projections qu'ils avaient l'habitude de former et vérifient le modèle. D'un ensemble de prise-à l'extérieur de six projections invisibles, le modèle a exactement recréé 24 bâtis de la démarche de la personne, vers le bas dans la position de leurs pattes et de la taille de la personne pendant qu'ils marchaient vers ou à partir de l'appareil-photo.

Le modèle semble apprendre, par exemple, que les pixels qui deviennent plus foncés et plus larges avec du temps correspondent vraisemblablement à une personne marchant plus près de l'appareil-photo.

« C'est presque comme la magie que nous pouvons récupérer ce petit groupe, » Balakrishnan dit.

Les chercheurs n'ont pas vérifié leur modèle sur des images médicales. Mais ils collaborent maintenant avec des collègues d'Université de Cornell pour récupérer les informations anatomiques 3D des 2D images médicales, telles que des rayons X, sans des coûts ajoutés -- ce qui peut activer une imagerie médicale plus détaillée dans des pays plus faibles.

Les médecins préfèrent en grande partie les échographies 3D, comme ceux captés avec des échographies de CT, parce qu'ils contiennent l'information médicale bien plus utile. Mais il est généralement difficile et chère acquérir des échographies de CT.

Si nous pouvons convertir des rayons X en échographies de CT, cela jeu-changerait en quelque sorte. Vous pourriez juste prendre un rayon X et le pousser par notre algorithme et voir toute l'information perdue. »

Guha Balakrishnan