Los neuroengineers de Columbia crean el nuevo sistema para traducir pensamientos a discurso

En un primer científico, los neuroengineers de Columbia han creado un sistema que traduce pensamiento a discurso inteligible, reconocible. Vigilando alguien la actividad cerebral, la tecnología puede reconstruir las palabras que una persona oye con claridad sin precedente. Esta ruptura, que aprovecha la potencia de los sintetizadores de discurso y de la inteligencia artificial, podría llevar a las nuevas maneras para que las computadores comuniquen directamente con el cerebro. También pone la base para la gente de ayuda que no puede hablar, por ejemplo ésos viviendo con como esclerosis lateral amiotrófica (ALS) o recuperándose de recorrido, recupere su capacidad de comunicar con el mundo exterior.

Estas conclusión fueron publicadas hoy en partes científicos.

“Nuestras voces ayudan a conectarnos con nuestros amigos, familia y el mundo alrededor de nosotros, que es porqué perder la potencia de su voz debido al daño o a la enfermedad es tan devastador,” dijo a Nima Mesgarani, doctorado, el autor mayor del papel e investigador principal en el instituto del comportamiento del cerebro de Mortimer B. Zuckerman Mind de la Universidad de Columbia. “Con estudio de hoy, tenemos una manera potencial de restablecer esa potencia. Hemos mostrado que, con la tecnología correcta, los pensamientos de esta gente se podrían decodificar y entender por cualquier radioyente.”

Las décadas de investigación han mostrado eso cuando la gente habla -- o aún imagínese el hablar -- las configuraciones indicadores de la actividad aparecen en su cerebro. La configuración distinta (pero reconocible) de señales también emerge cuando escuchamos alguien hablamos, o nos imaginamos el escuchar. Los expertos, intentando registrar y decodificar estas configuraciones, ven un futuro en el cual los pensamientos no necesiten seguir ocultados dentro del cerebro -- sino que por el contrario podía ser traducido a discurso verbal a voluntad.

Pero lograr esta hazaña ha probado desafiar. Los esfuerzos tempranos de decodificar señales del cerebro del Dr. Mesgarani y otros se centraron en los modelos de ordenador simples que los espectrogramas analizados, que son representaciones visuales de frecuencias sanas.

Pero porque esta aproximación no ha podido producir cualquier cosa que se asemejaba a discurso inteligible, las personas del Dr. Mesgarani giraron en lugar de otro a un codificador vocal, un algoritmo de la computador que puede sintetizar discurso después de ser entrenado en grabaciones de hablar de la gente.

“Ésta es la misma tecnología usada por el eco del Amazonas y Apple Siri para dar reacciones verbales a nuestras preguntas,” dijo al Dr. Mesgarani, que es también profesor adjunto de la ingeniería eléctrica en la escuela de asiento de Fu de Columbia de la ingeniería y de la ciencia aplicada.

Para enseñar al codificador vocal para interpretar a la actividad cerebral, el Dr. Mesgarani combinó hacia arriba con Ashesh Dinesh Mehta, Doctor en Medicina, doctorado, neurocirujano en el instituto de la neurología de los socios del médico de la salud de Northwell y co-autor del papel de hoy. El Dr. Mehta trata a los pacientes de la epilepsia, algunos de los cuales debe experimentar cirugías regulares.

“Trabajando con el Dr. Mehta, preguntamos a pacientes de la epilepsia que experimentaban ya la neurocirugía para escuchar las sentencias habladas por diversa gente, mientras que medimos configuraciones de la actividad cerebral,” dijimos al Dr. Mesgarani. “Estas configuraciones de los nervios entrenaron al codificador vocal.”

Después, los investigadores pidieron que a ésos los mismos pacientes escucharan los locutores que recitaban dígitos entre 0 a 9, mientras que las señales de registración del cerebro que se podrían entonces funcionar con a través del codificador vocal. El sonido producido por el codificador vocal en respuesta a esas señales era analizado y limpiado por las redes neuronales, un tipo de inteligencia artificial que imita la estructura de neuronas en el cerebro biológico.

El resultado final era una voz de robótico-sondeo que recitaba una serie de números. Para probar la exactitud de la grabación, el Dr. Mesgarani y sus personas encargaron a individuos escuchar la grabación y denunciar lo que oyeron.

“Encontramos que la gente podría entender y relanzar los sonidos el cerca de 75% del tiempo, que está bien muy por encima de cualquier tentativa anterior,” dijimos al Dr. Mesgarani. La mejoría en inteligibilidad era especialmente evidente al comparar las nuevas grabaciones a las tentativas anteriores, espectrograma-basadas. “El codificador vocal sensible y las redes neuronales potentes representaron los sonidos que los pacientes habían escuchado originalmente con la exactitud asombrosamente.”

El Dr. Mesgarani y sus personas proyecta probar palabras y sentencias más complicadas después, y quieren funcionar con las mismas pruebas en las señales del cerebro emitidas cuando una persona habla o se imagina el hablar. Final, esperan que su sistema podría ser parte de un implante, similar a esos desgastados de algunos pacientes de la epilepsia, que traduce los pensamientos del portador directamente a palabras.

“En este decorado, si el portador me piensa “necesite un cristal de agua, “nuestro sistema podría tomar las señales del cerebro generadas por ese pensamiento, y las gira en sintetizado, discurso verbal,” dijo al Dr. Mesgarani. “Esto sería un cambiador del juego. Daría a cualquier persona que ha perdido su capacidad de hablar, si con daño o enfermedad, la ocasión renovada de conectar con el mundo alrededor de ellos.”

Fuente: https://zuckermaninstitute.columbia.edu/