Aviso: Esta página é uma tradução automática da página original em inglês. Por favor note uma vez que as traduções são geradas por máquinas, não tradução tudo será perfeita. Este site e suas páginas da Web destinam-se a ler em inglês. Qualquer tradução deste site e suas páginas da Web pode ser imprecisas e imprecisos no todo ou em parte. Esta tradução é fornecida como uma conveniência.

Os pesquisadores publicam conjunto de dados novos para melhorar modelos da aprendizagem de máquina do comboio para a descoberta da droga

Os Polymorphs são as moléculas que têm o regime molecular diferente da embalagem apesar das composições quimicas idênticas. Em um papel recente, os pesquisadores em GlaxoSmithKline (GSK) e o centro de dados Crystallographic de Cambridge (CCDC) combinaram seu proprietário (GSK) e publicaram os conjunto de dados (CCDC) para melhorar modelos da aprendizagem de máquina (ML) do comboio para prever polymorphs estáveis para usar-se em candidatos novos da droga.

Que são as diferenças chaves entre os conjunto de dados de CCDC e de GSK?

As curas de CCDC e mantêm a base de dados estrutural de Cambridge (CSD). Para o século passado, os cientistas pelo mundo inteiro contribuíram estruturas de cristal publicadas, experimentais à CDD, que tem agora sobre 1,1 milhão estruturas. Os autores do papel usaram um subconjunto da droga da CDD combinada com as estruturas de GSK. As estruturas de GSK foram recolhidas em fases diferentes do encanamento farmacêutico e não são limitadas aos produtos introduzidos no mercado. Co-author o Dr. Jason Cole, research fellow superior na equipe da investigação e desenvolvimento de CCDC, explicada porque as estruturas recolhidas em fases diferentes do encanamento da descoberta da droga são tão importantes.

“Na descoberta da droga da fase inicial, uma estrutura de cristal pode ajudar a racionalizar efeitos conformational, por exemplo, ou caracterize a química de uma entidade química nova onde outras técnicas conduzam à ambigüidade,” Cole disse. “Mais tarde no processo, quando uma entidade química nova é estudada como uma molécula do candidato, as estruturas de cristal são críticas porque informam a selecção do formulário e podem mais tarde ajudar em superar a formulação e em marcar edições.”

Esta informação pode ajudar pesquisadores a dar a prioridade a seus esforços; o tempo da economia e vive potencial abaixo da estrada.

“Compreendendo uma escala das estruturas de cristal, cientistas pode igualmente avaliar o risco de um formulário dado ser instável a longo prazo,” Cole disse. “Uma caracterização completa da paisagem estrutural conduz à confiança em tomar um formulário para a frente.”

Como fazem ML modela na ciência farmacêutica tiram proveito dos conjunto de dados múltiplos?

As séries de dados industriais reflectem mais do que apenas a ciência; reflectem escolhas culturais dentro de uma organização dada.

“Você encontrará somente co-cristais se você procura co-cristais,” Cole disse, como um exemplo. “A maioria de empresas preferem formular um livre, ou desatado, droga. Se pode supr que os tipos de estruturas em um grupo industrial reflectem decisões conscientes para procurarar por formulários de tipos dados, visto que menos limites são colocados nos pesquisadores que contribuem à CDD.”

O ML modela o benefício de duas coisas chaves: volume dos dados e especificidade dos dados. É por isso acoplar o volume e a variedade de dados na CDD com séries de dados proprietárias é tão útil.

As “grandes quantidades de dados conduzem a umas previsões mais seguras,” Cole disse. Os “dados que são o mais directamente relevantes ao problema conduzem a umas previsões mais exactas. Nas previsões que usam o software de CCDC, nós seleccionamos um subconjunto das entradas as mais relevantes que seja grande bastante dar a confiança. O grupo de GSK é limitado para ter compostos altamente relevantes a outros compostos em sua carteira comercial. Assim o software da construção de modelos pode usar estes.”

Os pesquisadores industriais que trabalham com dados altamente relevantes podem ser executado em edições quando não têm bastante para gerar modelos seguros.

“Considere que o software da CDD escolhe tipicamente ao redor dois mil estruturas dos 1,1 milhões na CDD,” Cole disse. “O grupo industrial é minúsculo pela comparação, mas você poderia escolher por exemplo 40 ou 50 estruturas altamente relevantes. Você teria os insuficientes dados para construir um bom modelo com o aquele sozinho, mas os compostos adicionados da CDD suplementam a série de dados. Essencialmente, incluindo os grupos de GSK e de CDD nós obtemos o melhor de ambos os mundos: todas as estruturas industriais altamente relevantes e um grupo de estruturas bastante relevantes da CDD junto para construir um modelo de alta qualidade.”

Por que os polymorphs apresentam um risco à indústria farmacêutica?

O regime diferente da embalagem significa que um polymorph pôde mais ser serido para a entrega terapêutica, quando um outro formulário do mesmo composto não pôde. Os pesquisadores usam bases de dados da estrutura de cristal para fazer previsões baseadas sobre o conhecimento sobre se uma droga nova potencial está compreendida de um bom, formulário estável que os fabricantes possam fazer, armazenar, e entregar em uma maneira terapêutica. Os autores em GSK e em CCDC terminaram uma análise robusta das estruturas de cristal da molécula pequena que contêm resultados da difracção de raio X de GSK e suas empresas da herança pelos 40 anos passados. Combinaram então aqueles resultados com um subconjunto da droga das estruturas da CDD de CCDC, que contem sobre 1,1 milhão estruturas de cristal orgânicas e metal-orgânicas da pequeno-molécula dos pesquisadores pelo mundo inteiro.

Source:
Journal reference:

Kalash, L.N., et al. (2021) First global analysis of the GSK database of small molecule crystal structures. CrystEngComm. doi.org/10.1039/D1CE00665G.