À ce jour, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), l’agent pathogène causal de la maladie à coronavirus 2019 (COVID-19), a causé plus de 93,21 millions d’infections dans le monde. En se propageant à travers différentes populations, il subit des adaptations qui affectent parfois sa transmissibilité et d’autres caractéristiques biologiques.
Une pré-impression intéressante sur le bioRxiv * Le serveur décrit l’utilisation de l’apprentissage en profondeur avec la technologie de reconnaissance d’image pour retracer l’émergence de variantes avec une aptitude virale accrue. Une meilleure forme physique conduit à une expansion rapide de ces lignées dans les zones où elles sont introduites. Ce type d’étude pourrait faciliter le développement d’anticorps et de vaccins plus efficaces pour aider à contenir la pandémie.
Sommaire
Importance des études d’adaptation
Une étape importante dans la compréhension de toute pandémie causée par un nouvel agent pathogène consiste à identifier les changements qui se produisent dans le génome de l’organisme au fil du temps et comment ces évolutions reflètent les changements dans son comportement. Cela aide à choisir les cibles d’intervention. Le rythme intense des recherches sur la pandémie COVID-19 en cours a conduit à l’agrégation de milliers de séquences complètes d’ARN viral, provenant de plusieurs populations et régions.
L’étude actuelle vise à exploiter cette base de données d’informations génomiques virales pour identifier, tout d’abord, l’apparition d’un changement génomique dans le SRAS-CoV-2 à la suite d’une pression de sélection globale, ou sélection régionale, avec des altérations au fil du temps. Les pressions de sélection sont des agents agissant sur le virus de l’extérieur, qui affectent sa capacité de survie positivement ou négativement en altérant ou en améliorant des traits particuliers. L’étude de populations virales sélectionnées sur une période donnée pourrait aider à découvrir les changements de virulence ou d’immunogénicité associés à ces processus adaptatifs génétiques.
Approches phylogénétiques utilisant l’apprentissage profond
Les chercheurs se sont appuyés sur des méthodes phylogénétiques pour faire leurs inférences, sans utiliser de données de recombinaison. Leur approche est différente des méthodes plus conventionnelles qui résument les données de séquence sous forme numérique ou graphique, afin d’identifier comment les variants de nucléotides sont distribués dans des situations sans pression de sélection. Dans de telles situations à évolution neutre, on suppose que la recombinaison libre se produit, la population restant constante.
Dans l’étude actuelle, les chercheurs ont opté pour des techniques phylogénétiques qui nécessitent de nombreux événements répétitifs dans un intervalle de temps spécifique afin de capturer les événements en excès au-delà des limites de l’évolution neutre. Cela signifie qu’ils ne sont souvent utilisés qu’avec des génomes qui présentent un taux de mutation élevé ou qui ont de longues traces de mutation.
Les chercheurs ont utilisé la capacité des méthodes d’apprentissage en profondeur pour capturer des changements génétiques complexes dans des outils de prédiction basés sur des simulations, afin qu’ils n’aient pas à énoncer des paramètres clairement définis. Déjà, l’apprentissage en profondeur a été appliqué à la génétique des populations pour obtenir des prédictions de divers paramètres génétiques, tels que le taux de recombinaison et la sélection, ainsi que l’analyse des données germinales. Ils peuvent utiliser des paramètres de reconnaissance d’image pour analyser l’adaptation virale, utilisant ainsi les informations dans les alignements d’haplotypes.
Analyse d’haplotypes basée sur l’image
L’étude est basée sur un réseau de neurones convolutifs (CNN) combiné à une approche de réseau de neurones récurrents (RNN). Appelée inférence évolutive guidée par haplotype basée sur l’image (ImHapE), cette plateforme leur a permis d’identifier la sélection de manière quantitative dans l’expansion des populations virales, en utilisant des données de séquençage génomique. Cette approche en quatre étapes a été modifiée pour augmenter sa vitesse tout en conservant sa capacité à capturer les différences de fitness dans différentes populations dans lesquelles la sélection opère à des forces différentes. Ils ont simulé une croissance exponentielle de la population, le taux de croissance des populations sélectionnées positivement étant plus élevé à mesure que la condition physique augmentait. La condition physique est définie comme «une réduction du taux de mortalité telle qu’une aptitude (1 + s) de 2 équivaut à une réduction de 50% du taux de mortalité virale dans la population virale bénéfique».
Une fois leur modèle CNN / RNN formé et validé sur leur population simulée, ils l’ont appliqué à deux ensembles de données mondiales réelles sur le virus. La première provenait de la base de données GISAID (Global Initiative on Sharing All Influenza Data), recueillie entre mars et juillet 2020. La seconde était des données COG UK, collectées entre avril et décembre 2020. Les mutations des deux bases de données ont été appelées en utilisant le génome de référence de Wuhan. et un génome de référence d’Angleterre, respectivement.
Ils ont ajusté leur taux de mutation pour correspondre aux 23 mutations estimées par génome par an que le génome du SRAS-CoV-2 est estimé subir. Ils ont également regroupé les échantillons de virus en fonction de la région et des moments.
Augmentation de la forme physique des nouvelles variantes
Ils ont constaté que le virus subissait une sélection positive dans chaque population, comme le montre une valeur supérieure à 1, mais son aptitude était différente dans différentes régions. Une sélection positive a été observée même après avoir compensé la croissance démographique.
En Europe et en Amérique du Nord, l’aptitude a diminué au fil du temps, suite à la fixation du variant D614G, mais était plus élevée en juillet qu’au début. La condition physique en mars et juillet était de 1,05 contre 1,42 en Europe et de 1,27 contre 1,40 en Amérique du Nord.
En utilisant les données UK COG, ils ont découvert que la sélection positive présentait une large gamme de variations au début de l’épidémie. Cependant, la condition physique est passée de 1,05 à la semaine 29 à 1,34 à la semaine 49. Le début d’une meilleure forme physique était associé à l’expansion simultanée de la lignée B1.177 à la semaine 29, la nouvelle variante B.1.1.7 s’étendant après la semaine 46.
La lignée B. 1.177 est définie par une mutation A222V dans la protéine de pointe. Il s’est répandu en Europe, mais on ne sait pas si cela est lié à un avantage phénotypique, tel qu’une transmissibilité accrue. La nouvelle variante, B.1.1.1.7, semble être associée à une meilleure forme physique après la semaine 46, ce qui indique qu’elle est plus en forme que les autres lignées en circulation au Royaume-Uni à l’heure actuelle.
Le profilage des données continental et COG UK est un excellent exemple de la façon dont les outils CNN / RNN basés sur la simulation peuvent suivre les différences sélectives entre les clones viraux presque en temps réel.
Quelles sont les implications?
Ces résultats montrent comment cet outil est utile pour suivre les populations virales soumises à une pression de sélection, et ainsi faire des inférences sur les différences de virulence et d’infectivité liées à la sélection. Cet outil polyvalent est prêt à être affiné et développé pour étudier l’adaptation dans les génomes.
Notre cadre général peut être adapté et appliqué à toute population non recombinante où des informations sur les haplotypes alignés sont disponibles, telles que les tissus somatiques ou les cancers.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas examinés par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, orienter la pratique clinique / les comportements liés à la santé, ou traités comme des informations établies.
Référence du journal:
Ouelette, TW et coll. (2021). Utilisation d’alignements d’haplotypes basés sur des images pour cartographier l’adaptation globale du SRAS-CoV-2. bioRxiv préimpression. doi: https://doi.org/10.1101/2021.01.13.426571. https://www.biorxiv.org/content/10.1101/2021.01.13.426571v1
Une étude de Penn State examine comment les télomères d'une personne sont affectés par la restriction calorique