Le coronavirus du syndrome respiratoire aigu sévère 2 (SARS-CoV-2) qui a émergé à Wuhan, la capitale de la province du Hubei, en Chine, s'est maintenant propagé rapidement à plus de 187 pays et territoires à travers le monde, créant une panique mondiale. Il a touché plus de 3,65 millions de cas et fait plus de 256 000 morts.
Le génome du virus fait l'objet d'études intensives depuis le début de l'épidémie afin de développer des applications diagnostiques, thérapeutiques et vaccinales.
Maintenant, une nouvelle étude publiée sur le serveur de préimpression bioRxiv rend compte d'une analyse à grande échelle des génomes du SRAS-CoV-2 et révèle une géo-distribution clonale et de riches variations génétiques.
Nouveau coronavirus SARS-CoV-2 Micrographie électronique à balayage colorisée d'une cellule VERO E6 (violette) présentant des projections cellulaires allongées et des signes d'apoptose, après infection par des particules de virus SARS-COV-2 (roses), qui ont été isolées à partir d'un échantillon de patient. Image capturée au NIAID Integrated Research Facility (IRF) à Fort Detrick, Maryland. Crédits: NIAID
Le coronavirus SARS-CoV-2 est un virus à ARN simple brin enveloppé de sens positif et membre d'une grande famille appelée coronavirus, qui a été classé en trois groupes. Deux d'entre eux sont responsables d'infections chez les mammifères), comme le coronavirus de type SRAS de la chauve-souris, le coronavirus du syndrome respiratoire du Moyen-Orient (MERS-CoV). De nombreuses études récentes ont suggéré que le SARS-CoV-2 a divergé du coronavirus de type SARS Bat.
La taille du génome du SRAS-CoV2 est d'environ 30 kb et sa structure génomique a suivi les caractéristiques des gènes connus du coronavirus; la polyprotéine ORF1ab également connue sous le nom de polyprotéine réplicase couvre plus des 2 tiers de la taille totale du génome, les protéines structurelles, y compris la protéine de pointe, la protéine de membrane, la protéine d'enveloppe et la protéine de nucléocapside.
La caractérisation des mutations virales peut aider à découvrir les mécanismes de la maladie, de l'évasion immunitaire et de la résistance aux antiviraux. Cela peut également aider à retracer la propagation du virus dans différents types.
Plus tôt, une étude de 103 génomes a montré la présence de deux types principaux, le type L et le type S, ce dernier étant plus proche de la souche d'origine. Une autre étude portant sur 32 souches de Chine, de Thaïlande et des États-Unis a révélé une diversité génomique croissante au fil du temps.
Sommaire
Comment l'étude a-t-elle été réalisée?
La présente étude a examiné plus de 3 000 souches de SRAS-CoV-2 pour suivre l'accumulation de mutations au fil du temps. Ils ont également analysé les données pour rechercher une pression sélective, à la fois négative et positive, pour savoir quels résidus pourraient être utilisés pour concevoir des cibles de traitement. L'analyse génomique comparative du SARS-CoV-2 a été utilisée pour créer une base de données pour d'autres recherches.
Les séquences génétiques ont été collectées dans les banques de données GISAID et NCBI, en utilisant uniquement des génomes complets, de 59 pays. La source la plus fréquente était l'Amérique, suivie de l'Angleterre, de l'Islande et de la Chine. Toutes les souches provenaient des 3 premiers mois de l'épidémie, la majorité remontant à mars.
La première tâche a été de préparer un profil des mutations non synonymes et de trouver leur fréquence relative dans chaque population. Les mutations non synonymes ont ensuite été analysées séparément.
Qu'a trouvé l'étude?
Les chercheurs ont découvert qu'il y avait plus de 700 mutations, dont près des deux tiers ont entraîné une modification de la séquence d'acides aminés de la protéine. Les autres se trouvaient dans les régions intergéniques. Il y avait 39 mutations non synonymes avec une prévalence supérieure à 0,06%, ou au moins 20 des génomes analysés.
Ces mutations ont été trouvées dans 6 gènes, à savoir la polyprotéine réplicase (ORF1ab), la protéine de pointe, la glycoprotéine membranaire, la phosphoprotéine nucléocapside, ORF3 et ORF8. Le nombre le plus important de mutations non synonymes était dans le gène ORF1ab, qui code pour 16 protéines non structurales.
Parmi ceux-ci, NSP3, NSP12 et NSP2 ont un nombre élevé de mutations, numérotées respectivement 117, 61 et 61. Le gène lui-même présente plus de la moitié des mutations fréquentes, avec 22 mutations dans l'ARN polymérase ARN-dépendante, l'hélicase, la protéinase, l'endo-ARNase, l'exonucléase et les domaines transmembranaires. Les erreurs de réplication doivent être corrigées rapidement et avec précision, et NSP2 et NSP3 sont nécessaires pour que cela se produise.
Il y avait dix mutations de hotspot dans des domaines hypervariables, trouvées à une fréquence supérieure à 0,10. Une mutation particulièrement fréquente était la mutation D614G dans le gène codant pour la protéine de pointe dans 44% des génomes. Une autre mutation majeure du hotspot était la L84S à ORF8, dans 32%. Quatre d'entre eux étaient dans le gène ORF1ab représenté dans 11% à 17% des génomes dans chaque cas.
Cartographie des géolocalisations
Seulement une centaine du grand nombre de génomes analysés étaient de type sauvage, principalement d'origine chinoise. Pourtant, les génomes du virus mutant provenaient de partout, étant observés dans près de 3 000 souches de génotypes variés.
Le plus grand nombre de mutations a été enregistré aux États-Unis, avec 316 mutations. Cela comprenait des mutations singleton spécifiques aux États-Unis (ne se produisant qu'une seule fois dans une population), observées dans un quart de toutes les mutations, tandis que les mutations chinoises représentaient la moitié de ce nombre. Presque tous les génomes américains ont eu une ou plusieurs des sept mutations.
Les mutations singleton résultent de la souche unique qui a divergé de la souche d'origine en raison de facteurs de passage environnementaux, hôtes et en série, en raison des inexactitudes introduites par l'enzyme transcriptase inverse.
Parmi les 59 pays qui ont contribué aux génomes mutants, 26 présentaient des mutations singleton. La plupart des génomes ont eu de multiples mutations.
Trois de ces mutations ont été trouvées sur tous les continents, à savoir la G251V (dans ORF3a), L84S (dans ORF8) et S5932F (dans ORF1ab), à l'exception de l'Afrique et de l'Australie. En revanche, il y en avait 3 autres (F924F, L4715L (en orf1ab) et D614G (en pointe) ainsi qu'une variante intergénique qui était présente dans toutes les souches sauf en Asie.
Encore une fois, des mutations communes ont été observées dans les souches algériennes et européennes, comme dans les génomes européens et néerlandais, qui ont montré dix mutations récurrentes. Les génomes africains et australiens ont partagé des mutations à quatre positions et deux positions par les génomes asiatiques.
La variabilité la plus importante a été observée en Australie, en Nouvelle-Zélande et aux États-Unis.
Suivi des mutations au fil du temps
Les chercheurs ont constaté un taux constant d'accumulation de mutations au fil du temps, mais les souches collectées en dernier ont montré une petite augmentation par rapport au reste. En revanche, davantage de mutations sont apparues fin janvier et début avril. Les mutations les plus fréquentes ont été observées fin février pour la première fois.
Traçage phylogénétique
Lorsque les mutations ont été utilisées pour aligner phylogénétiquement les souches virales, 3 clades ont été distingués, plusieurs souches étroitement apparentées étant trouvées dans différents pays. Cela peut être utilisé pour identifier comment et quand les transferts viraux se sont produits, ainsi que les voies de propagation. L'arbre phylogénétique montre également que le virus a atteint les États-Unis par plusieurs voies à plusieurs reprises, le premier génome introduit étant similaire à la souche qui a provoqué la deuxième vague de cas en Chine.
Pression sélective
Les chercheurs ont découvert que le gène ORF1ab était soumis à une pression sélective en raison du taux élevé de mutations. Le gène de la protéine de pointe a également montré le même phénomène. Dans les deux cas, une sélection purifiante était apparente, comme l'indique l'analyse.
Il y avait 8 sites avec une pression de sélection négative et 3 avec une pression de sélection positive dans le gène ORF1ab. Avec le gène de pointe, il y avait 7 et 1 sites sous pression sélective négative et positive.
La modélisation montre un seul site sélectionné négativement sur le domaine de liaison au récepteur, indiquant un manque de forte pression sélective sur cette partie du génome.
Analyser la variation du génome au sein et entre les espèces
Les chercheurs ont construit un pan-génome à partir des près de 1 200 ensembles de protéines codés dans les 115 génomes accessibles au public sur le site Web du NCBI. De ceux-ci, 83 génomes appartenaient au SARS-CoV-2.
Il y avait 94 grappes de protéines, dont dix étaient partagées entre le SARS-CoV-2 et trois autres bêta-coronavirus – le SARS-CoV et deux bat CoV.
En quoi les mutations sont-elles importantes?
Les mutations génèrent des variations dans le génome, permettant aux virus d'échapper aux défenses de l'hôte et aux cibles de médicaments antiviraux. Le SRAS-CoV-2 est relativement lent à muter, ce qui peut faciliter le développement de vaccins efficaces.
Des mutations dans le domaine de type protéine associée aux endosomes de la protéine NSP2 peuvent rendre le nouveau coronavirus plus facilement transmissible que les virus épidémiques antérieurs de ce virus.
La fréquence des mutations récurrentes et non synonymes dans les protéines non structurales NSP12 à NSP15 qui sont essentielles pour la correction des erreurs de réplication du virus peut présenter des difficultés dans le développement de vaccins basés sur ces gènes qui sont des cibles potentielles.
Dans la plupart des situations, la variation génomique entraîne une augmentation de la propagation virale et de la capacité de provoquer des maladies, en raison de l'accumulation de mutations qui augmentent la virulence du virus. Les mutations des pointes peuvent présenter des changements de pathogénicité, les mutations V367F, par exemple, provoquant une affinité accrue de la protéine avec le récepteur ACE2.
De plus, l'étude de la variation génomique entre souches permet de visualiser l'occurrence de la mutation dans le temps et le lieu. Les résultats actuels, par exemple, montrent que la distribution des polymorphismes mononucléotidiques (SNP) n'est pas aléatoire, mais domine dans les gènes qui sont essentiels pour le virus.
Des mutations concomitantes sont également courantes. La «mutation fondatrice» survenue aux États-Unis a donné lieu à de multiples mutations singleton. D'un autre côté, de nombreuses mutations spécifiques se retrouvent dans les souches circulant en Espagne, en Italie et aux États-Unis, ce qui explique le taux élevé de propagation rapide et la gravité de la maladie.
Le site de sélection négatif au domaine Mac1 sur NSP3 n'est pas essentiel pour la réplication de l'ARN mais peut être nécessaire pour l'évasion immunitaire. Il pourrait également être impliqué dans la réplication virale en présence d'une influence de l'hôte.
Les sites sélectionnés négativement pourraient entraver le fonctionnement viral, ce qui indique leur utilité dans la conception de médicaments ou de vaccins, car ceux-ci sont plus susceptibles d'être conservés et donc de rester inchangés.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne sont pas considérés comme concluants, guident la pratique clinique / les comportements liés à la santé, ou sont traités comme des informations établies.