Alvo da aprendizagem de máquina e da inteligência artificial desenvolver os algoritmos do computador que melhoram com experiência. Estes algoritmos podem ser usados para ajudar com a análise das séries de dados enormes que incluem dados de arranjar em seqüência genomic.
Crédito de imagem: Gorodenkoff/Shutterstock
Métodos da aprendizagem de máquina
Os métodos da aprendizagem de máquina são executados em três fases. Um pesquisador de aprendizagem desenvolve um algoritmo que suspeitem conduzam à aprendizagem bem sucedida.
Mais tarde, o algoritmo é fornecido com uma grande coleção de dados. Os dados incluem resultados negativos e positivos, assim que o algoritmo pode aprender distinguir entre os dois. Os resultados são sabidos como uma etiqueta, e o algoritmo processa estes e armazena-os como um modelo.
Última, os dados unlabelled novos são dados ao algoritmo e usam o modelo para prever as etiquetas para o grupo de dados novo. Se a aprendizagem era bem sucedida, a seguir as etiquetas previstas para o grupo de dados novo estarão correctas.
Este método está referido como a aprendizagem supervisionada e pode ser usado para considerar se o algoritmo pode aprender reconhecer um valor específico de um grupo de dados.
Os métodos de aprendizagem Unsupervised não fornecem o algoritmo os exemplos etiquetados ao auxílio que aprende mas dão os dados brutos do algoritmo na esperança que pode encontrar uma estrutura dentro da série de dados.
O pesquisador de aprendizagem deve usar-se o que já sabe sobre os dados para construir um modelo com carácter de previsão e para aplicar este ao algoritmo.
Aplicações da aprendizagem de máquina à genética
Os algoritmos de aprendizagem da máquina podem ser usados para analisar grandes grupos de dados arranjando em seqüência genomic. Supervisionado aprender métodos para a identificação do gene exige a entrada das seqüências etiquetadas do ADN que especificam o começo e terminam lugar do gene.
O algoritmo usa então este modelo para aprender as propriedades gerais dos genes tais como testes padrões ADN-arranjando em seqüência e o lugar de codons de parada.
Após este treinamento, o modelo pode usar estas propriedades instruídas para identificar genes adicionais das séries de dados novas que se assemelham aos genes no grupo do treinamento.
Para que os algoritmos de aprendizagem profundos trabalhem com sucesso, as funções de perda (que indicam como exacto uma previsão é) e as funções de risco (que indicam a perda média através do treinamento ajustado) são usadas dentro do modelo para ajustar para as previsões falsas do algoritmo.
Quando os dados de formação não estão disponíveis, os métodos de aprendizagem unsupervised estão usados. Um exemplo de quando este pode ser necessário é durante a interpretação de dados genomic heterogêneos.
A alteração do Histone, a acessibilidade da cromatina, e o factor da transcrição que liga ao longo do genoma podem fornecer a informação em relação à actividade do genoma. Esta informação pode então ser usada para criar um grupo de etiquetas.
Ambos os métodos podem ser usados para descobrir genes do interesse e da outra informação sobre um genoma arranjado em seqüência.
Avanços recentes nas genéticas usando a aprendizagem de máquina
A análise componente principal (PCA) é um exemplo de unsupervised aprendendo qual é usada para descobrir a força de relacionamentos desconhecidos entre indivíduos.
O APC toma uma mistura de genótipo diferentes (com extensibilidade muito alta) e produz um sumário da baixo-dimensão que revele como os genótipo se aglomeram.
O APC tem sido usado previamente para mostrar como os relacionamentos entre indivíduos europeus espelham a geografia.
Os métodos supervisionados da aprendizagem de máquina foram usados recentemente para discriminar entre as regiões genomic que experimentam refinando a selecção e as aquelas que não tiveram nenhuma limitação selectiva. Isto foi descoberto usando somente dados genomic da população.
Este estudo descobriu as regiões do candidato do genoma que foram enriquecidas altamente nos domínios reguladores dos genes que são importantes para a revelação apropriada do sistema nervoso central.
A presença das regiões do candidato perto de um gene pode prever mudanças humano-específicas da expressão no cérebro.
Perspectivas e o futuro da aprendizagem de máquina na genética
Em conclusão, a aprendizagem de máquina é um assunto muito complexo e vasto. Os algoritmos podem ser criados que permitem uma análise distante mais exacta dos dados do que muitos outros métodos que existem.
O método da aprendizagem de máquina que é usada dependerá da natureza dos dados que estão disponíveis e o que os pesquisadores estão tentando descobrir.
Mais pesquisa na aprendizagem de máquina e na inteligência artificial fornecerá umas maneiras mais exactas de analisar no futuro os dados genomic, que conduzirão a mais descobertas.
Fontes:
Further Reading