Dans le cadre du GdR, une réflexion est portée sur trois grandes thématiques scientifiques incluant :
Une synergie des trois thèmes est attendue. Le GdR Big Data en Chimie souhaite ainsi promouvoir l’utilisation et la valorisation des Données massives en Sciences Chimiques par le biais de nouvelles méthodologies, modèles et publications.
Thème 1 : Bases de données
Les bases de données représentent une activité importante du GdR. Elles sont incontournables car elles rassemblent les connaissances à partir desquelles de nouveaux modèles de prédiction (QSAR, QSPR, apprentissage supervisé ou non, etc.) peuvent être générés. Les ressources proposées par les membres du GdR sont diverses : liste des petites molécules cristallisées avec leur protéines cibles, listes des sites actifs droguables, données pharmacocinétiques et pharmacodynamiques de médicaments approuvés, inhibiteurs de kinases en cours de développement, profilage des petites molécules à partir des « Big Data » issues de la chémogénomique… Ainsi, de vastes quantités d’information sont aujourd’hui disponibles et continuent d’être générées avec un effort de plus en plus important mis sur l’optimisation de l’utilisation de ces données par l’application des principes FAIR (données trouvables, accessibles, interopérables et réutilisables).
Le tableau ci-après donne une liste des bases de données accessibles par le web et classées par ordre alphabétique du correspondant :
Base de données | Correspondant | Unité, Ville | Description |
K. Audouze | Inserm U1124, Paris | Effets des produits chimiques sur la santé humaine | |
P. Bonnet | CNRS UMR7311, Orléans | Inhibiteurs de Kinases en cours de développement clinique | |
AdmetNetwork | P. Bonnet | CNRS UMR7311, Orléans | Interactive network of ADMEt databases |
D. Douguet | CNRS UMR7275, Nice | Structure, métabolites actifs et données PK/PD des médicaments approuvés par la FDA | |
K. Tran | UGCN, Montpellier | Collection des petites molécules synthétisées dans les laboratoires publics français | |
B. Iorga | CNRS UPR 2301, Gif-sur-Yvette | Paramètres pour champs de force de petites molécules drug-like | |
M. Montes | Cnam | Ligands et structures des récepteurs nucléaires | |
M. Montes | Cnam | Ligands et structures des récepteurs nucléaires - Données d'affinité des molécules actives et inactives | |
X. Morelli P. Roche | CNRS UMR7258, Marseille | Complexes protéine-protéine avec inhibiteurs | |
J.-M. Nuzillard | CNRS UMR 7312 Reims | Predicted carbon-13 NMR data of Natural Products | |
M. Pupin | CNRS UMR 9189, Lille | Peptides non ribosomaux | |
J.-Y. Le Questel | CNRS UMR6230, Nantes | Basicité de liaisons H de composés organiques | |
D. Rognan | CNRS UMR 7200, Strasbourg | Molécules drug-like commercialement disponibles | |
D. Rognan | CNRS UMR 7200, Strasbourg | Sites de liaisons ‘droguables’ des protéines de la PDB | |
D. Rognan | CNRS UMR 7200, Strasbourg | Fragments issus de complexes protéine-ligand de la PDB | |
O. Sperandio | Institut Pasteur, Paris | Structure et activités de modulateurs d’interaction protéine-protéine | |
P. Tuffery | CNRS UMR 8251, Paris | Peptides de génomes de procaryotes | |
O. Taboureau | CNRS UMR 8251, Paris | Profilage pharmacologique de molécules | |
A. Varnek | CNRS UMR 7140, Strasbourg | Collection de plus de 2 millions de molécules biologiquement actives |
Thème 2 : développement d’algorithmes, de méthodes et d’outils pour l’acquisition, le traitement et l’analyse des données afin de rationnaliser, simuler et prédire les propriétés des molécules
Les données collectées dans les bases de données précédentes (Thème 1) sont analysées et traitées par des méthodes chémoinformatiques. Ce thème 2 concerne donc le développement de nouvelles approches en Chémoinformatique ainsi que des outils logiciels correspondants. Il s'agit de nouveaux descripteurs moléculaires, de techniques de comparaison de molécules entre elles, de méthodes d’apprentissage machine, de méta-méthodes, de modélisation SAR/QSAR/QSPR des propriétés de molécules, de réactions et de matériaux. Le développement des modèles prédictifs de propriétés "stratégiques" communs à tous les projets chimiques reste un axe de recherche important : prédiction de la solubilité, de la lipophilie, des points d’ébullition et de fusion, de la viscosité, de la réactivité, etc. Ces modèles prédictifs sont, par exemple, utilisés lors de criblages virtuels ultra rapides (au plus, de l’ordre de la minute par composé) permettant d’obtenir une information théorique pertinente sur toute une chimiothèque.
Certains participants du GdR ont déjà mis en œuvre leurs concepts dans des logiciels aujourd'hui utilisés et reconnus sur la scène internationale. D’autres ont déjà établis de nombreuses interactions avec des équipes expérimentales travaillant sur le design de nouveaux solvants "verts" (liquides ioniques), de complexants et extractants des radionucléides ou de systèmes supramoléculaires. L’élaboration de nouvelles molécules constitutives des arômes et des parfums ainsi que la description des modes d’action permettant leur perception constituent un autre axe de développement d’outils chémoinformatiques dédiés. Certains problèmes particulièrement difficiles demandent de nombreuses innovations techniques comme, par exemple, la modélisation de mélanges non-additifs et de spectres. Des bouleversements dans le domaine de la chimie de synthèse sont aussi attendus avec l’apparition d’algorithmes convaincants dédiés à la rétrosynthèse.
De nouvelles méthodes prédictives pour bio-profiler les composés chimiques sont également très attendues soit pour alerter sur des effets secondaires potentiels voire des effets indésirables de candidats-médicaments soit comme une alternative à l’utilisation d’animaux en laboratoire pour évaluer les risques chimiques (toxicité, écotoxicité) des molécules utilisées dans les produits de consommation (adjuvants alimentaires, emballages, produits ménagers, cosmétiques, jouets, textiles…). Ce dernier axe de recherche a été renforcé sous l’impulsion du règlement européen REACH pour « Registration, Evaluation, Autorisation and restriction of CHemicals » entré en vigueur en 2007. Pour toutes ces initiatives, une attention particulière sera portée à l’utilisation de nouvelles technologies très prometteuses telles que l’intelligence artificielle et le Deep Learning quand cela s’avèrera pertinent.
Le tableau ci-après donne une liste d'outils développés par les participants :
Nom | Mots-clés | Description | Langage | Type d’accès :
| Référence | Contact |
Epock | calcul du volume de poches, visualisation | Outil d'analyse de trajectoires efficace pour calculer le volume de poches | Lien pour télécharger : https://epock.bitbucket.io/downloads.html Site web : | Epock: rapid analysis of protein pocket dynamics, Benoist Laurent, Matthieu Chavent, Tristan Cragnolini, Anna Caroline E. Dahl, Samuela Pasquali, Philippe Derreumaux, Mark S.P. Sansom, Marc Baaden, Bioinformatics, 2014. doi: 10.1093/bioinformatics/btu822 | Laboratoire de Biochimie Théorique (LBT) benoist.laurent@gmail.com | |
UnityMol | visualisation moléculaire, docking, réalité virtuelle | Outil de visualisation moléculaire développé dans un moteur de jeu avec possibilité de simulations moléculaires interactives | Lien pour télécharger : https://sourceforge.net/projects/unitymol/files/ Site web : | Z. Lv, A. Tek, F. Da Silva, C. Empereur-mot, M. Chavent and M. Baaden: Game on, Science - how video game technology may help biologists tackle visualization challenges, PLoS ONE, 2013, 8(3):e57990. doi:10.1371/journal.pone.0057990 | Laboratoire de Biochimie Théorique (LBT) unitymol@gmail.com | |
MolTarPred | Target prediction, Polypharmacology prediction | Predicts the molecular targets of small molecules | Serveur web : | Centre de Recherche en Cancérologie de Marseille (CRCM) pedro.ballester@inserm.fr | ||
Target Prediction Benchmark | Target prediction, Polypharmacology prediction | Benchmark and a simple target prediction method to use as a performance baseline | Python 2.7 | Lien pour télécharger : | https://www.frontiersin.org/articles/10.3389/fchem.2016.00015/full | Centre de Recherche en Cancérologie de Marseille (CRCM) pedro.ballester@inserm.fr |
USR-VS | 3D molecular similarity, virtual screening | Screens 93.9 million 3D conformers and returns those similar to that of the user | Serveur web : | Centre de Recherche en Cancérologie de Marseille (CRCM) pedro.ballester@inserm.fr | ||
RF-Score-VS | Docking, virtual screening | A machine-learning scoring function to re-score Smina-generated poses | Python 2.7 | Lien pour télécharger : | Centre de Recherche en Cancérologie de Marseille (CRCM) pedro.ballester@inserm.fr | |
Drug synergy prediction models | Drug synergy, cancer cell lines | XGBoost and Random Forest QSAR models to predict the synergy of drugs on NCI-60 cell lines | Python 3 | Lien pour télécharger : http://ballester.marseille.inserm.fr/NCI-Alm-Predictors.zip (NB: includes 1.6GB of stored models) | https://www.frontiersin.org/articles/10.3389/fchem.2019.00509/full | Centre de Recherche en Cancérologie de Marseille (CRCM) pedro.ballester@inserm.fr |
MolDesc | Molecular descriptors | SB&C Platform providing: Tool to compute molecular properties or ADMETox properties | Django, Docker, Python | Serveur web : | Institut de Chimie Organique et Analytique (ICOA) pascal.bonnet@univ-orleans.fr | |
F2D | Fragments Kinase inhibitors | SB&C Platform providing: in silico fragment based drug design protocol to find new kinase inhibitors | Django, Docker, Python | Serveur web : | To be published | Institut de Chimie Organique et Analytique (ICOA) pascal.bonnet@univ-orleans.fr |
METAPREDICT | ADMETox | SB&C Platform providing: Tool to compute ADMETox properties based on QSAR models | Django, Docker, Python | Serveur web : | To be published | Institut de Chimie Organique et Analytique (ICOA) pascal.bonnet@univ-orleans.fr |
VSprep | Database preparation | A KNIME Workflow for the Preparation of Molecules for Virtual Screening | Knime and third party applications | On request | Gally, J.-M. ; Bourg, S. ; Fogha, J. ; Do Q.T. ; Aci-Sèche, S. ; Bonnet, P. Gally, J.-M. ; Bourg, S. ; Do Q.T. ; Aci-Sèche, S. ; Bonnet, P. | Institut de Chimie Organique et Analytique (ICOA) pascal.bonnet@univ-orleans.fr |
Kinomine | Kinases | SB&C Platform providing: A tool to search and extract chemical and biological kinase knowledge | Django, Docker, Python | Serveur web : | To be published | Institut de Chimie Organique et Analytique (ICOA) pascal.bonnet@univ-orleans.fr |
LEA3D | de novo drug design virtual screening using functions such as: docking (PLANTS program), shape similarity (SENSAAS program) and/or molecular properties | Outil de criblage virtuel et de design de petites molécules | Serveur web : | Douguet D., e-LEA3D: a computational-aided drug design web server, Nucleic Acids Res., 2010, 38, Suppl:W615-21. doi:10.1093/nar/gkq322 | Institut de Pharmacologie Moléculaire et Cellulaire (IPMC) douguet@ipmc.cnrs.fr | |
SENSAAS | Molecular alignment Molecular similarity Shape similarity | Alignment moléculaire basé sur la forme 3D | Python3.7 | Serveur web : https://chemoinfo.ipmc.cnrs.fr/SENSAAS Lien pour télécharger: | Douguet D. and Payan F., SENSAAS: Shape-based Alignment by Registration of Colored Point-based Surfaces, Molecular Informatics, 2020, 8, 2000081. doi:10.1002/minf.202000081 | Institut de Pharmacologie Moléculaire et Cellulaire (IPMC) douguet@ipmc.cnrs.fr |
RetroPath2.0 | Retrosynthèse | Outil de rétrosynthèse | Lien pour télécharger : | Delépine B, et al. RetroPath2.0: A retrosynthesis workflow for metabolic engineers. Metabolic Engineering, 45: 158-170, 2018. | doi:10.1016/j.ymben.2017.12.002 Koch M, et al. Molecular structures enumeration and virtual screening in the chemical space with RetroPath2.0. Journal of Cheminformatics, 9(1): 64, 2017 doi: 10.1186/s13321-017-0252-9 | INRAE - Microbiologie des Systèmes et de Synthèse (MSS) Jean-Loup.Faulon@inrae.fr | |
2P2P-inspector | Interfaces protéine-protéine | Analyse d'interfaces protéine-protéine et protéine-ligand | Serveur web : | Basse MJ, et.al.: 2P2Idb v2: Update of a Structural Database Dedicated to Orthosteric Modulation of Protein-Protein Interactions. Database Update 2016; DOI: 10.1093/database/baw007 Basse MJ ,et.al.: 2P2Idb: A Structural Database Dedicated to Orthosteric Modulation of Protein-Protein Interactions. Nucleic Acid Research 2013; 41:D824-827. Pubmed ID: 23203891 | CNRS UMR7258, Marseille xavier.morelli@inserm.fr philippe.roche@inserm.fr | |
ChemoDOTS | Fragment-based Drug Design | génération de chimiothèque focalisées à partir d’un fragment activé | Serveur web : | Hoffer et al. CovaDOTS: In Silico Chemistry-Driven Tool to Design Covalent Inhibitors Using a Linking Strategy. JCIM 2019, 59 (4), 1472-1485. DOI: 10.1021/acs.jcim.8b00960 | CNRS UMR7258, Marseille xavier.morelli@inserm.fr philippe.roche@inserm.fr | |
RetroRules | Réaction enzymatique | Règles de réactions enzymatiques | Serveur web : | Duigou T, et al. RetroRules: a database of reaction rules for engineering biology. Nucleic Acids Research, 47(D1): D1229-1235, 2019. doi: 10.1093/nar/gky940 | INRAE - Microbiologie des Systèmes et de Synthèse (MSS) Jean-Loup.Faulon@inrae.fr | |
Galaxy-SynBioCAD | Portail Galaxy pour les biotechnologies | Outils pour le design de voies métaboliques et construction génétiques | Serveur web : | du Lac M., et al. Galaxy-SynBioCAD: Synthetic Biology Design Automation tools in Galaxy workflows, bioRxiv, 2020 doi: 10.1101/2020.06.14.145730 | INRAE - Microbiologie des Systèmes et de Synthèse (MSS) Jean-Loup.Faulon@inrae.fr | |
@TOME V3 | Comparative modeling Ligand interactions | A pipeline for comparative modeling of protein-ligand complexes | Serveur web : | Pons JL and Labesse G, Nucleic Acids Research, 2009. doi:10.1093/nar/gkp368 | Centre de Biochimie Structurale (CBS) labesse@cbs.cnrs.fr | |
EDMON V3 | Nuclear hormone receptors endocrine-disrupting chemicals interactions | Tool to estimate binding affinities | Serveur web : | Delfosse et al., PNAS, 2012. doi:10.1073/pnas.1203574109 | Centre de Biochimie Structurale (CBS) labesse@cbs.cnrs.fr | |
CoSiAn | 2D and 3D molecular similarity | Combinatorial similarity analysis | Serveur web : | Centre de Biochimie Structurale (CBS) labesse@cbs.cnrs.fr | ||
UDock | Docking | Docking protéine-protéine interactif temps réel | C++/OpenGL | Lien pour télécharger : | Levieux G et al, FD169: UDock, the protein docking entertainment system. Faraday Discuss. 2014, 169 (1): 425-441. doi:10.1039/C3FD00147D | Laboratoire Genomique, Bioinformatique et applications (GBA) matthieu.montes@cnam.fr |
Screening Explorer | Predictiveness curves ROC AUC pAUC | Webservice d'analyse de données de criblage | Serveur web : | Empereur-mot C et al. Screening Explorer – An interactive tool for the analysis of screening results. J Chem Inf Model. 2016; 56(12): 2281-2286. doi:10.1021/acs.jcim.6b00283 | Laboratoire Genomique, Bioinformatique et applications (GBA) matthieu.montes@cnam.fr | |
LSD | De novo élucidation structurale, petites molécules organiques | Outil d’analyse structurale automatique des petites molécules organiques à partir des spectres de RMN 1D et 2D | C | Serveur web : | Nuzillard J.-M., Plainchont B., Tutorial for the structure elucidation of small molecules by means of the LSD software, | Institut de Chimie Moléculaire de Reims (CSN) jean-marc.nuzillard@gmail.com |
PyLSD | De novo élucidation structurale, petites molécules organiques | Outil d’analyse structurale automatique des petites molécules organiques à partir des spectres de RMN 1D et 2D | Python | Lien pour télécharger : | Institut de Chimie Moléculaire de Reims (CSN) jean-marc.nuzillard@gmail.com | |
IChem Shaper / Shaper2 SiteAlign FuzCav FingerPrintLib pymolFP Fresno | Protein-ligand interactions Shape-based alignment of pharmacophore-annotated VolSite cavities Interaction fingerprints Scoring function | Lien pour télécharger : | Laboratoire d'Innovation Thérapeutique (LIT) rognan@unistra.fr | |||
Chem-REST | Chemical databases, REST protocole, Datasets for machine learning models | Chemical Repository of Existing Structures and their computed properTies | Serveur web : | Institut Pasteur - Structural Bioinformatics - Chemoinformatics and proteochemometric olivier.sperandio@pasteur.fr | ||
Frog AMMOS MTiOpenScreen | Conformer generation Energy minimization of protein-ligands complexes Docking Virtual screening | Services at RPBS Web Portal | Serveur web : https://bioserv.rpbs.univ-paris-diderot.fr/services.html#drugs-protein_inter | Labbé CM et al., MTiOpenScreen: a web server for structure-based virtual screening. Nucleic Acids Res. 2015, 43(W1):W448-54. doi: 10.1093/nar/gkv306 Lagarde N et al., Online structure-based screening of purchasable approved drugs and natural compounds: retrospective examples of drug repositioning on cancer targets. Oncotarget. 2018 17;9(64):32346-32361. doi: 10.18632/oncotarget.25966 Labbé CM et al., AMMOS2: a web server for protein-ligand-water complexes refinement via molecular mechanics. Nucleic Acids Res. 2017, 45(W1):W350-W355. doi:10.1093/nar/gkx397 | Unité de Biologie Fonctionnelle et Adaptative (BFA) pierre.tuffery@univ-paris-diderot.fr Chimie médicinale et recherche translationnelle maria.miteva@inserm.fr | |
ISIDA S4MPLE | Molecular descriptors QSPR model builder Generative Topographics Map (GTM) Flexible docking and peptide folding Reactivity analysis Prediction tools (physico-chemical properties, REACH endpoints) | ISIDA Package is a suite of cheminformatics tools | Lien pour télécharger : Serveur web : | Laboratoire de Chémoinformatique varnek@unistra.fr | ||
FAF-Drugs4 | Drug design Free ADME-Tox Filtering Tool | Préparation de chimiothèques | Python, C | Serveur web : | Lagorce D, Bouslama L, Becot J, Miteva MA, Villoutreix BO. Bioinformatics. 2017 Nov 15;33(22):3658-3660. doi:10.1093/bioinformatics/btx491 | Bruno.villoutreix@inserm.fr |
FastTargetPred | Target prediction Polypharmacology prediction | Predicts the molecular targets of small molecules | Python3, C | Lien pour télécharger : | Chaput et al., FastTargetPred: a program enabling the fast prediction of putative protein targets for input chemical databases. Bioinformatics. 2020 Aug 15;36(14):4225-4226. doi:10.1093/bioinformatics/btaa494 | Bruno.villoutreix@inserm.fr |
Thème 3 : Analyse, modélisation et prédiction des activités biologiques des molécules
Une forte composante de ce GdR s’attache à étudier spécifiquement les interactions entre les molécules et le vivant comme par exemple par l’utilisation du criblage virtuel. Le criblage virtuel ou in silico visant à la découverte de molécules thérapeutiques est un axe de recherche très développé tant dans le milieu académique que dans le monde industriel – principalement dans les sociétés pharmaceutiques et les « start-up » biotechnologiques. Les criblages virtuels sont généralement en support aux criblages réels car il est rare qu’une collection de petites molécules soit testée intégralement notamment en raison du coût du criblage expérimental. Un pré-filtrage des chimiothèques réelles (ou théoriques) permet de concentrer les efforts de recherche et d‘identification des molécules aux propriétés recherchées dans un sous domaine de l’espace chimique. Dans le cas de la ‘drug discovery’, il s’agit de sélectionner les molécules possédant les propriétés désirables, généralement déduites des molécules thérapeutiques connues, et d’écarter celles ayant des caractéristiques indésirables (instabilité, réactivité, agrégation). D’autres criblages virtuels ‘structure-based’ ou ‘ligand-based’ sont généralement associés selon les connaissances sur la cible thérapeutique ou sur des ligands déjà connus, respectivement. Il s’agit d’un axe où les différents participants ont une expertise internationalement reconnue et fortement complémentaire dans ces périmètres d’application.
D’autres domaines d’interface chimie-biologie ont émergé cette dernière décennie comme la Chémogénomique et les approches protéomiques de type ABPP (Activity-Based Protein Profiling). La Chémogénomique se réfère généralement à des ensembles de données d’activité de molécules comme celles que l’on consulte par exemple dans PubChem ou ChEMBL. L’accroissement des données de Chémogénomique suscite la recherche de nouvelles méthodes en Chémoinformatique adaptées pour traiter et analyser ces Big Data, données souvent hétérogènes, afin d’inférer de nouvelles hypothèses sur les mécanismes moléculaires du vivant, de profiler les molécules et/ou de développer de nouveaux agents thérapeutiques. Ainsi, les bases de données en Chémogénomique apportent une dimension supplémentaire au criblage virtuel en y ajoutant les connaissances sur les interactions des molécules avec le vivant. Ces informations peuvent être sous la forme d’effets secondaires observés pour des médicaments approuvés, d’activités mesurées dans des tests biologiques au niveau moléculaire sur l’activité des protéines ou au niveau phénotypique (test cellulaire, tissulaire, organoïde ou in vivo (par exemple les effets secondaires, indésirables ou toxiques)) et/ou obtenus par analyse protéomique, génomique, transcriptomique, metabolomique… Ces bases de données sont exploitées 1) pour inférer de nouvelles hypothèses sur les mécanismes d’actions des molécules par l’intégration et l’analyse de l’ensemble des données biologiques et 2) pour générer des modèles prédictifs de la bio-activité des petites molécules et de bio-profiler de grandes collections de molécules.
Un autre objectif commun à la chimie et à la biologie est de découvrir et de caractériser des petites molécules sondes de qualité offrant la possibilité de perturber, d’étudier et de comprendre les systèmes moléculaires, cellulaires et physiologiques du vivant. Essentiellement non-covalentes, ces sondes sont des outils communément utilisés par les biologistes pour caractériser très spécifiquement les mécanismes biologiques et pour valider la fonction des cibles protéiques. Environ 400 composés ont ainsi été validés et répertoriés (http://www.chemicalprobes.org).
En parallèle, d’autre sondes chimiques, covalentes cette fois, sont développées grâce à la « click-chemistry » bioorthogonale, compatible avec les systèmes biologiques, et souvent analysées par les approches protéomiques ABPP (Activity-Based Protein Profiling). Ainsi, de nouvelles familles de réactions chimiques dédiées sont découvertes et développées pour des applications de bioconjugaison. Cette technique permet de valider l’engagement des ligands pour leur cible protéique, d’évaluer leur sélectivité et d’identifier les « off-targets » dans un contexte cellulaire (ou tissulaire) ou encore d’identifier de nouvelles cibles avec des cavités droguables. Elle permet aussi d’évaluer la poly-pharmacologie des agents thérapeutiques et ces informations alimentent, par conséquent, les bases de données de la Chémogénomique. Ces nouveaux champs de la recherche scientifique seront abordés dans ce thème 3.
Les deux premiers thèmes, bases de données et développement de nouvelles méthodes chémoinformatiques, sont indissociables de ce thème.