Aviso: Esta página é uma tradução automática da página original em inglês. Por favor note uma vez que as traduções são geradas por máquinas, não tradução tudo será perfeita. Este site e suas páginas da Web destinam-se a ler em inglês. Qualquer tradução deste site e suas páginas da Web pode ser imprecisas e imprecisos no todo ou em parte. Esta tradução é fornecida como uma conveniência.

O modelo novo recupera os dados valiosos perdidos das imagens e dos vídeos

Os pesquisadores do MIT desenvolveram um modelo que recuperassem os dados valiosos perdidos das imagens e o vídeo que “foram desmoronados” em umas mais baixas dimensões.

O modelo poderia ser usado para recrear o vídeo das imagens movimento-borradas, ou dos novos tipos de câmeras que capturam o movimento de uma pessoa em torno dos cantos mas somente como linhas de uma dimensão vagas.

Quando mais teste for necessário, os pesquisadores pensam que esta aproximação poderia um dia poderia ser usada para converter 2D imagens médicas em mais informativo -- mas mais caro -- o corpo 3D faz a varredura, que poderia beneficiar a imagem lactente médica em umas nações mais deficientes.

Em todos estes casos, os dados visuais têm uma dimensão -- a tempo ou espaço -- isso é perdido completamente. Se nós recuperamos essa dimensão perdida, pode ter muitas aplicações importantes.”

Guha Balakrishnan

Balakrishnan é um postdoc no laboratório da informática e da inteligência artificial (CSAIL) e primeiro autor em um papel que descreve o modelo, que está sendo apresentado na conferência internacional da próxima semana sobre a visão de computador.

Os dados visuais capturados desmoronam frequentemente dados das dimensões múltiplas do tempo e do espaço em uma ou dois dimensões, chamadas “projecções.” Os raios X, por exemplo, desmoronam dados tridimensionais sobre estruturas anatômicas em uma imagem lisa. Ou, considere uma longo-exposição disparada das estrelas que movem-se através do céu: As estrelas, cuja a posição está mudando ao longo do tempo, aparecem como raias borradas no tiro imóvel.

Igualmente, “as câmeras de canto,” inventaram recentemente no MIT, detectam povos moventes em torno dos cantos. Estes podiam ser úteis para por exemplo os sapadores-bombeiros que encontram povos em construções ardentes. Mas as câmeras não são exactamente de fácil utilização. Actualmente produzem somente as projecções que se assemelham a linhas obscuras, squiggly, correspondendo à trajectória e à velocidade de uma pessoa.

Os pesquisadores inventaram “um modelo do deprojection visual” que usasse uma rede neural “aprendesse” os testes padrões que combinam projecções baixo-dimensionais a seus imagens e vídeos alto-dimensionais originais. As projecções novas dadas, o modelo usam-se o que se aprende recrear todos os dados originais de uma projecção.

Nas experiências, o modelo sintetizou os quadros video exactos que mostram os povos que andam, extraindo a informação das únicas, linhas de uma dimensão similares àquelas produzidas pelas câmeras de canto. Os quadros video igualmente recuperados do modelo das únicas, projecções movimento-borradas dos dígitos que movem ao redor uma tela, do conjunto de dados movente popular de MNIST.

Balakrishnan de junta no papel é: Amy Zhao, um aluno diplomado no departamento da engenharia elétrica e da informática (EECS) e CSAIL; Professores John Guttag, Fredo Durand, e William T. Freeman de EECS; e Adrian Dalca, um membro da faculdade na radiologia na Faculdade de Medicina de Harvard.

Indícios nos pixéis

O trabalho começado como “um problema fresco da inversão” recrear o movimento que causa o borrão de movimento na fotografia da longo-exposição, Balakrishnan diz. Nos pixéis de uma projecção existe alguns indícios sobre a fonte alto-dimensional.

As câmaras digitais que capturam tiros da longo-exposição, por exemplo, agregarão basicamente fotão durante um período de tempo em cada pixel. Em capturar o movimento de um objeto ao longo do tempo, a câmera tomará o valor médio dos pixéis decaptura.

Então, aplica aqueles valores médios às alturas e às larguras correspondentes de uma imagem imóvel, que crie as raias obscuras da assinatura da trajectória do objeto. Calculando algumas variações na intensidade do pixel, o movimento pode teòrica ser recreado.

Porque os pesquisadores realizados, esse problema são relevantes em muitas áreas: Os raios X, por exemplo, capturam a altura, a largura, e a informação da profundidade de estruturas anatômicas, mas usam uma técnica decálculo da média similar à profundidade do colapso em uma 2D imagem.

Câmeras de canto -- inventado em 2017 por Freeman, por Durand, e por outros pesquisadores -- capture os sinais claros refletidos em torno de uma cena escondida que levam a informação bidimensional sobre a distância de uma pessoa das paredes e dos objetos. A técnica decálculo da média desmorona então esses dados em um vídeo de uma dimensão -- basicamente, medidas de comprimentos diferentes ao longo do tempo em uma única linha.

Os pesquisadores construíram um modelo geral, com base em uma rede neural circunvolucional (CNN) -- um modelo deaprendizagem que seja transformado uma central eléctrica para imagem-processar encarrega-se -- esse captura indícios sobre toda a dimensão perdida em pixéis calculados a média.

Sintetizando sinais

No treinamento, os pesquisadores alimentaram os milhares do CNN de pares de projecções e de suas fontes alto-dimensionais, chamados “sinais.” O CNN aprende testes padrões do pixel nas projecções que combinam aquelas nos sinais. Pôr o CNN é uma estrutura chamada “um autoencoder variacional,” que avalia como bom o CNN outputs o fósforo suas entradas através de alguma probabilidade estatística.

Do esse, o modelo aprende um “espaço” de todos os sinais possíveis que poderiam ter produzido uma projecção dada. Isto cria, essencialmente, um tipo de modelo para que como vá de uma projecção a todos os sinais de harmonização possíveis.

Quando mostradas as projecções previamente despercebidas, o modelo notam os testes padrões do pixel e seguem os modelos a todos os sinais possíveis que poderiam ter produzido essa projecção. Então, sintetiza as imagens novas que combinam todos os dados da projecção e todos os dados do sinal. Isto recreia o sinal alto-dimensional.

Para uma experiência, os pesquisadores recolheram um conjunto de dados de 35 vídeos de 30 povos que andam em uma área especificada. Desmoronaram todos os quadros nas projecções que se usaram para treinar e testam o modelo. De um grupo da posse-para fora de seis projecções despercebidas, o modelo recreou exactamente 24 quadros do porte da pessoa, para baixo à posição de seus pés e do tamanho da pessoa enquanto andaram para ou longe da câmera.

O modelo parece aprender, por exemplo, que os pixéis que obtêm mais escuros e mais largos com tempo correspondem provavelmente a uma pessoa que anda mais perto da câmera.

“É quase como a mágica que nós podemos recuperar este detalhe,” Balakrishnan diz.

Os pesquisadores não testaram seu modelo em imagens médicas. Mas estão colaborando agora com os colegas da Universidade de Cornell para recuperar a informação 3D anatômica das 2D imagens médicas, tais como raios X, sem custos adicionados -- qual pode permitir uma imagem lactente médica mais detalhada em umas nações mais deficientes.

Os doutores preferem na maior parte as varreduras 3D, tais como aqueles capturados com varreduras do CT, porque contêm uma informação médica distante mais útil. Mas as varreduras do CT são geralmente difíceis e caras de adquirir.

Se nós podemos converter raios X às varreduras do CT, aquele jogo-estaria mudando um tanto. Você poderia apenas tomar um raio X e empurrá-lo com nosso algoritmo e ver toda a informação perdida.”

Guha Balakrishnan