O AI no espaço médico deve com cuidado ser testado para o desempenho através da vasta gama de populações

As ferramentas da inteligência (AI) artificial treinadas para detectar a pneumonia em raios X de caixa sofreram diminuições significativas no desempenho quando testadas em dados dos sistemas exteriores da saúde, de acordo com um estudo conduzido na Faculdade de Medicina de Icahn na montagem e publicado em uma edição especial da medicina de PLOS na aprendizagem e nos cuidados médicos de máquina. Estes resultados sugerem que a inteligência artificial no espaço médico deva com cuidado ser testada para o desempenho através de uma vasta gama de populações; se não, os modelos de aprendizagem profundos não podem executar como exactamente como esperado.

Porque o interesse no uso de estruturas do sistema informático chamou redes neurais circunvolucionais (CNN) para analisar a imagem lactente médica e fornecer um diagnóstico assistido por computador cresce, os estudos recentes sugeriram que a classificação da imagem do AI não pudesse generalizar aos dados novos assim como não retratasse geralmente.

Pesquisadores na Faculdade de Medicina de Icahn no monte Sinai avaliado como o AI modela a pneumonia identificada em 158.000 raios X de caixa através das três instituições médicas: os institutos de saúde nacionais; O hospital do monte Sinai; e hospital da universidade de Indiana. Os pesquisadores escolheram estudar o diagnóstico da pneumonia em raios X de caixa para seus ocorrência comum, significado clínico, e predominância na comunidade de pesquisa.

Em três de cinco comparações, o desempenho de CNNs em diagnosticar doenças em raios X dos hospitais fora de sua própria rede era significativamente mais baixo do que em raios X do sistema original da saúde. Contudo, CNNs podia detectar o sistema do hospital onde um raio X foi adquirido com um alto nível da precisão, e enganado em sua tarefa com carácter de previsão baseada na predominância da pneumonia na instituição do treinamento. Os pesquisadores encontraram que a dificuldade de usar modelos profundamente de aprendizagem na medicina é que usam um número maciço de parâmetros, fazendo a que desafia para identificar as variáveis específicas que conduzem previsões, tais como os tipos de varredores do CT usados em um hospital e na qualidade da definição da imagem lactente.

“Nossos resultados devem dar a pausa àquelas que consideram o desenvolvimento rápido de plataformas da inteligência artificial sem rigorosa avaliar seu desempenho no real-mundo que os ajustes clínicos reflexivos de onde estão sendo distribuídos,” dizem Eric superior Oermann autor, DM, instrutor na neurocirurgia na Faculdade de Medicina de Icahn no monte Sinai. “Os modelos de aprendizagem profundos treinados para executar o diagnóstico médico podem generalizar bem, mas este não pode ser tomado para concedido desde que as populações pacientes e as técnicas de imagem lactente diferem significativamente através das instituições.”

“Se os sistemas do CNN devem ser usada para o diagnóstico médico, devem ser costurados para considerar com cuidado perguntas clínicas, ser testados para uma variedade de encenações do real-mundo, e com cuidado ser avaliados para determinar como impactam o diagnóstico exacto,” dizem primeiro autor John Zech, uma estudante de Medicina na Faculdade de Medicina de Icahn no monte Sinai.

As construções desta pesquisa em papéis publicaram no começo desse ano na medicina da radiologia e da natureza dos jornais, que colocou a estrutura para aplicar a visão de computador e técnicas de aprendizagem profundas, incluindo algoritmos do processamento de linguagem natural, porque identificar conceitos clínicos em relatórios da radiologia para o CT faz a varredura.

Advertisement