Aviso: Esta página é uma tradução automática da página original em inglês. Por favor note uma vez que as traduções são geradas por máquinas, não tradução tudo será perfeita. Este site e suas páginas da Web destinam-se a ler em inglês. Qualquer tradução deste site e suas páginas da Web pode ser imprecisas e imprecisos no todo ou em parte. Esta tradução é fornecida como uma conveniência.

Os pesquisadores estudam como o sistema auditivo consegue o reconhecimento de voz exacto

Para que os seres humanos consigam o reconhecimento de voz exacto e comuniquem-se um com o outro, o sistema auditivo deve reconhecer categorias distintas de sons - tais como palavras - de um córrego entrante contínuo dos sons. Esta tarefa torna-se complicada quando considerando a variabilidade nos sons produziu por indivíduos com acentos, passos, ou entonações diferentes.

Em um papel recente das comunicações da natureza, Tong Liu de Shi, um candidato da tecnologia biológica PhD na universidade da escola de Pittsburgh Swanson da engenharia, detalhes um modelo computacional que explore como o sistema auditivo aborda esta tarefa complexa. A pesquisa é conduzida por Srivatsun Sadagopan, professor adjunto da neurobiologia, cujos estudos de laboratório a percepção de sons complexos na escuta realística condiciona.

“A palavra” de “A pode ser pronunciada em maneiras diferentes por vozes diferentes, mas você pode ainda considerar todas estas declarações em uma categoria (uma palavra específica) com um significado distinto,” disse Sadagopan. “Neste estudo, nós examinamos como o cérebro consegue este usando os atendimentos animais como um sistema de modelo extremamente simplificado. As espécies animais vocais tais como sagüis, macaques, e cobaias produzem diversos tipos de atendimentos que levam “significados comportáveis distintos, “mas igualmente enfrentam o problema que os animais diferentes produzem estes atendimentos com muita variabilidade.”

O papel publicado, “características óptimas para a categorização auditiva” (DOI: 10.1038/s41467-019-09115-y), focos em vocalizations do sagüi comum. Xiaoqin Wang, professor da engenharia biomedicável na Universidade Johns Hopkins, desde que um grande grupo de vocalizations do sagüi que capturaram a vasta gama de variabilidade nestes sons. A teoria de informação então usada da equipe e um algoritmo de busca “ávido” para encontrar as características de cada tipo do vocalization que ocorreram consistentemente apesar de toda a variabilidade. Sua estratégia era seleccionar um grupo de características que maximizaram comum o desempenho, mas evita as características que eram demasiado similares entre si.

“Nós alimentamos a nosso algoritmo um banco de atendimentos do sagüi e pedimo-lo que para encontrar as características as mais informativas e consistentemente as mais reconhecíveis,” explicou Liu. “A saída final era um grupo “da maioria de características informativas” que seja característico a um tipo de atendimento particular - bem como as características de distinção de uma face (por exemplo encontrando os olhos ou um nariz em uma imagem). Detectando a presença ou a ausência destas características as mais informativas em sons entrantes, o modelo pode identificar o tipo do vocalization com precisão muito alta.”

Depois que as características foram mostradas para ser eficazes no modelo teórico, a equipe retornou aos animais para testar se o cérebro de facto procurava estas características informativas. Encontraram resultados interessantes quando compararam dados de seu modelo às respostas neurais gravadas do córtice auditivo do sagüi por Sadagopan quando era um aluno diplomado no laboratório de Xiaoqin Wang.

“A evidência neural apoia nosso modelo, que os meios ele podem ser usados como um alicerce sólido para os estudos futuros,” disse Liu. “Nosso modelo dá previsões poderosas e exactas do que o cérebro está escutando nos vocalizations. Esta pesquisa tem aplicações na tecnologia de avanço do reconhecimento de voz e em prótese auditivas, e eu planeio usar este trabalho para compreender melhor como o cérebro pode isolar sons relevantes em espaços aglomerados.”