Avertissement : Cette page est une traduction automatique de cette page à l'origine en anglais. Veuillez noter puisque les traductions sont générées par des machines, pas tous les traduction sera parfaite. Ce site Web et ses pages Web sont destinés à être lus en anglais. Toute traduction de ce site et de ses pages Web peut être imprécis et inexacte, en tout ou en partie. Cette traduction est fournie dans une pratique.

Les chercheurs publient des ensembles de données neufs pour améliorer des modèles d'apprentissage automatique de train pour la découverte de médicaments

Les polymorphes sont des molécules qui ont différents agencements moléculaires d'emballage en dépit des compositions chimiques identiques. Dans un papier récent, les chercheurs à la GlaxoSmithKline (GSK) et le centre de calculs cristallographique de Cambridge (CCDC) ont combiné leurs ensembles de données (CCDC) de propriété industrielle (GSK) et publiés pour améliorer des modèles d'apprentissage automatique (ML) de train pour prévoir les polymorphes stables pour employer dans les candidats neufs de médicament.

Quelles sont les différences principales entre les ensembles de données de CCDC et de GSK ?

Les curés de CCDC et met à jour la base de données structurelle de Cambridge (CSD). Pour le siècle antérieur, les scientifiques partout dans le monde ont contribué les structures cristallines publiées et expérimentales à la CDD, qui a maintenant plus de 1,1 millions de structures. Les auteurs du papier ont employé un sous-ensemble de médicament de la CDD combinée avec des structures de GSK. Les structures de GSK ont été rassemblées à différentes étapes du pipeline pharmaceutique et ne sont pas limitées aux produits lancés sur le marché. M. co-auteur Jason Cole, chargé de recherches supérieur sur l'équipe de la recherche et développement de CCDC, expliquée pourquoi les structures recueillies à différentes étapes du pipeline de découverte de médicaments sont si importantes.

« Dans la découverte de médicaments de stade précoce, une structure cristalline peut aider à rationaliser des effets conformationnels, par exemple, ou caractérisez la chimie d'une substance active neuve où d'autres techniques ont mené à l'ambiguïté, » Cole a dit. « Plus tard dans le procédé, quand une substance active neuve est étudiée comme molécule de candidat, les structures cristallines sont critiques car elles avisent le choix de forme et peuvent plus tard faciliter en surmontant la formulation et en marquant sur tablette des éditions. »

Cette information peut aider des chercheurs à donner la priorité à leurs efforts ; le temps de sauvetage et vit potentiellement en bas de la route.

« En comprenant une gamme des structures cristallines, scientifiques peut également évaluer le risque d'une forme donnée être instable à long terme, » Cole a dit. « Une pleine caractérisation de l'horizontal structurel mène à la confiance en prenant une forme vers l'avant. »

Comment font ml modélise en science pharmaceutique tirent bénéfice des ensembles de données multiples ?

Les ensembles de données industriels réfléchissent plus que juste la science ; ils réfléchissent des choix culturels dans un organisme donné.

« Vous trouverez seulement des Co-cristaux si vous recherchez des Co-cristaux, » Cole avez dit, comme exemple. « La plupart des compagnies préfèrent préparer un libre, ou défait, médicament. On peut supposer que les types de structures dans un jeu d'industriel réfléchissent des décisions conscientes pour rechercher des formes des types donnés, alors que moins limites sont mises sur les chercheurs qui contribuent à la CDD. »

Le ml modélise l'avantage de deux choses principales : volume de caractéristiques et spécificité de caractéristiques. C'est pourquoi accoupler le volume et la variété de caractéristiques à la CDD avec les ensembles de données de propriété industrielle est si utile.

« Un grand nombre de caractéristiques mènent à des prévisions plus confiantes, » Cole a dit. Les « caractéristiques qui sont le plus directement appropriées au problème mènent à des prévisions plus précises. Dans les prévisions qui emploient le logiciel de CCDC, nous sélectons un sous-ensemble des entrées les plus appropriées qui est assez grand pour donner la confiance. Le jeu de GSK est lié pour avoir les composés hautement appropriés à d'autres composés dans leur portefeuille commercial. Ainsi le logiciel de modélisation peut employer ces derniers. »

Les chercheurs industriels travaillant avec des caractéristiques hautement appropriées peuvent faire fonctionner dans des éditions quand ils n'ont pas assez pour produire des modèles confiants.

« Considérez que le logiciel de CDD sélectionne type environ deux mille structures des 1,1 millions à la CDD, » Cole a dit. « Le jeu d'industriel est minuscule par comparaison, mais vous pourriez sélectionner par exemple 40 ou 50 structures hautement appropriées. Vous auriez des caractéristiques insuffisantes pour établir un bon modèle avec cela seul, mais les composés ajoutés de la CDD complètent l'ensemble de données. Essentiellement, en incluant les jeux de GSK et de CDD nous tirons le meilleur des mondes : toutes les structures industrielles hautement appropriées et un ensemble de structures tout à fait appropriées de CDD ensemble pour établir un modèle de haute qualité. »

Pourquoi les polymorphes présentent-ils un risque à l'industrie pharmaceutique ?

Les différents agencements d'emballage signifient qu'un polymorphe pourrait davantage approprié à la distribution thérapeutique, alors qu'une autre forme du même composé ne pourrait pas. Les chercheurs emploient des bases de données de structure cristalline pour effectuer des prévisions basées sur la connaissance au sujet de si un médicament neuf potentiel est composé d'une bonne, stable forme que les constructeurs peuvent effectuer, enregistrer, et fournir d'une façon thérapeutique. Les auteurs à GSK et à CCDC ont complété une analyse robuste des structures cristallines de petite molécule contenant des résultats de diffraction des rayons X de GSK et ses compagnies d'héritage pendant les 40 dernières années. Ils ont alors combiné ces résultats avec un sous-ensemble de médicament de structures de la CDD de CCDC, qui contient plus de 1,1 millions de structures cristallines organiques et métallo-organiques de petite molécule des chercheurs partout dans le monde.

Source:
Journal reference:

Kalash, L.N., et al. (2021) First global analysis of the GSK database of small molecule crystal structures. CrystEngComm. doi.org/10.1039/D1CE00665G.