Hoch

Nachricht

HeimHeim / Nachricht / Hoch

Dec 06, 2023

Hoch

Nature Communications Band 13, Artikelnummer: 5619 (2022) Diesen Artikel zitieren 13.000 Zugriffe 15 Zitate 223 altmetrische Metrikdetails Die Seidenraupe Bombyx mori ist ein wichtiges Wirtschaftsinsekt für

Nature Communications Band 13, Artikelnummer: 5619 (2022) Diesen Artikel zitieren

13.000 Zugriffe

15 Zitate

223 Altmetrisch

Details zu den Metriken

Die Seidenraupe Bombyx mori ist ein wichtiges Wirtschaftsinsekt für die Produktion von Seide, der „Königin der Stoffe“. Die derzeit verfügbaren Genome schränken das Verständnis seiner genetischen Vielfalt und die Entdeckung wertvoller Allele für die Zucht ein. Hier sequenzieren wir 1.078 Seidenraupen gründlich neu und stellen Long-Read-Genome für 545 Vertreter zusammen. Wir erstellen einen hochauflösenden Pan-Genom-Datensatz, der nahezu den gesamten genomischen Inhalt der Seidenraupe darstellt. Wir stellen fest, dass die Seidenraupenpopulation eine hohe Dichte an genomischen Varianten aufweist und identifizieren 7308 neue Gene, 4260 (22 %) Kerngene und 3.432.266 nicht-redundante Strukturvariationen (SVs). Wir enthüllen Hunderte von Genen und SVs, die zur künstlichen Selektion (Domestizierung und Zucht) von Seidenraupen beitragen können. Darüber hinaus konzentrieren wir uns auf vier Gene, die jeweils für zwei ökonomische (Seidenausbeute und Seidenfeinheit) und zwei ökologisch adaptive Merkmale (Eierdiapause und aposematische Färbung) verantwortlich sind. Zusammengenommen werden unsere genomischen Ressourcen im Populationsmaßstab funktionelle Genomstudien und eine Verbesserung der Zucht von Seidenraupen fördern.

Genomdaten haben die Entwicklung der biologischen Forschung in den letzten zwei Jahrzehnten erheblich beschleunigt. In jüngster Zeit hat sich der Schwerpunkt der Genomforschung von einem einzelnen Referenzgenom auf einen pangenombasierten Ansatz verlagert, der bessere Einblicke in den gesamten genomischen Inhalt einer Art bietet1,2,3,4,5,6. Unter Ausnutzung der hocheffizienten Erkennung von Strukturvarianten (SVs; >50 bp) und sinkender Kosten haben Sequenzierungstechnologien der dritten Generation (TGS) begonnen, Sequenzierungstechnologien der nächsten Generation (NGS) bei der Konstruktion von Pangenomen zu ersetzen. In jüngster Zeit wurden immer mehr Pangenome auf Basis langer Lesevorgänge einer einzelnen Pflanzen- oder Tierart konstruiert, darunter Sojabohne7, Tomate8, Reis9, Apfel10, Raps11, Drosophila12,13, Schmetterling14 und Mensch15,16, was Einblicke in die Intraspezies ermöglicht genomische Variation und ihre Beiträge zur Merkmalsbestimmung.

Seidenraupe, Bombyx mori, ist ein wirtschaftlich wichtiges Insekt, das vor etwa 5000 Jahren von seinem wilden Vorfahren, B. mandarina, domestiziert wurde17. Das Referenzgenom der Seidenraupe (ca. 450 MB) wurde erstmals im Jahr 2004 veröffentlicht und anschließend zweimal aktualisiert, was funktionelle Genomstudien an Seidenraupen und anderen Insekten erheblich erleichtert18,19,20,21. Bis heute wurden mehr als einhundert Akzessionen von Seidenraupen mithilfe der NGS-Technologie22 neu sequenziert. Aufgrund der Knappheit wilder Seidenraupen und technischer Einschränkungen in den vorherigen Studien könnten jedoch viele merkmalsassoziierte Standorte fehlen und darüber hinaus müssen SVs noch erforscht werden.

Hier sequenzieren wir 1078 Seidenraupenstämme gründlich neu, generieren Long-Read-Assemblys für 545 Akzessionen dieser Stämme und konstruieren ein hochauflösendes Pan-Genom. Wir identifizieren Hunderte von SVs und Genen, die möglicherweise der Domestizierung und Zucht von Seidenraupen zugrunde liegen. Wir stellen außerdem vier Beispiele vor, die den Nutzen dieser Genome zur Entschlüsselung der genetischen Variation im Zusammenhang mit Schlüsselmerkmalen veranschaulichen. Diese umfassenden Ressourcen zum Seidenraupengenom werden die Grundlagenforschung und präzise Züchtung von Seidenraupen erleichtern und Pan-Genom-Studien an anderen Arten aufklären.

Um die gesamte genomische Vielfalt innerhalb der Seidenraupe (einschließlich B. mori und B. mandarina) zu erforschen, haben wir möglichst umfassend 1078 Seidenraupenproben gesammelt, darunter 205 lokale Stämme, 194 verbesserte Sorten und 632 genetische Bestände heimischer Seidenraupen (B. mori). und 47 wilde Seidenraupen (B. mandarina) (Abb. 1, Abb. 2a, Ergänzende Daten 1). Insgesamt wurden 31,52 Tb NGS-Reads mit einer durchschnittlichen Sequenzierungstiefe von ~65× pro Probe erhalten (Supplementary Data 1). Unter Verwendung von NGS-Daten der 1078 Seidenraupen und vier zuvor freigesetzter Wildseidenraupengenome23,24 wurden 43.012.261 Einzelnukleotidpolymorphismen (SNPs) und 9.344.375 kleine Insertionen oder Deletionen (Indels, <50 bp) identifiziert. Die SNP- und Indel-Dichte betrug ein SNP pro 11 bp und ein Indel pro 49 bp, was auf einen hohen Grad an genomischer Diversität bei Seidenraupen hinweist.

Die enorm vielfältigen Phänotypen der Seidenraupen werden in allen Entwicklungsstadien gezeigt, von den Eiern über die Larven und Puppen (einschließlich Kokons und Puppen) bis hin zu den Erwachsenen (im Uhrzeigersinn vom Nordwestquadranten aus).

a Geografische Verbreitung von 1082 Seidenraupen. b Phylogenetischer Baum basierend auf genomweiten SNPs von 1082 Proben. Die Kladen im grünen Kreis repräsentieren die lokalen Stämme aus dem Mittel- und Unterlauf des Gebiets des Gelben Flusses. Die gleiche Farbe der Kreise und Linien in a und b stellt denselben Seidenraupenhaufen dar. CHN-I (lila), verbesserte Stämme in China; JPN-I (hellblau), verbesserte Stämme in Japan; China-Lokal (blau), lokale Stämme in China; Europe-Local (orange), lokale Stämme in Europa; Japan-Lokal (gelb), lokale Stämme in Japan; Tropen-Lokal (rot), lokale Stämme in der tropischen Region (Provinzen Guangdong und Guangxi in China, Südasien und Südostasien); Wild (schwarz), wilde Seidenraupe; Genetischer Bestand (grau); Unbekannt-Lokal (hellgrau), lokale Stämme ohne geografische Informationen.

Hauptkomponentenanalysen (PCA) basierend auf SNPs des gesamten Genoms der 1082 Genomen zeigten, dass PC1 Individuen in wilde und häusliche Gruppen aufteilt, während PC2 Individuen im Allgemeinen basierend auf ihrer geografischen Herkunft weiter in Gruppen aufteilt (ergänzende Abbildung 1a). Darüber hinaus zeigte die phylogenetische Analyse, wie bei der PCA, dass die 1082 Stämme in die Wildgruppe gegenüber der heimischen Population eingeteilt und weiter in die Subcluster China-lokal, Europa-lokal, Tropisch-lokal und die verbesserten Stämme in China (CHN-I) unterteilt sind. und in Japan (JPN-I) (Abb. 2b). Bemerkenswert ist, dass die genetischen Stammstämme innerhalb der verschiedenen Unterklassen der heimischen Seidenraupengruppe weit verbreitet sind (Abb. 2b) und daher die Vielfalt der domestizierten Seidenraupen weitgehend abdecken. Unsere Ergebnisse zeigen die Existenz von vier Hauptuntergruppen (wild, China-lokal, CHN-I und JPN-I), wie die zuvor berichteten Ergebnisse22, liefern aber auch drei neue Erkenntnisse. Erstens werden die in Europa heimischen Stämme in zwei unterschiedliche Unterklassen unterteilt, von denen einige in der Nähe der in China vorkommenden und andere in der Nähe der in Japan vorkommenden Ressourcen liegen (in der vorherigen Studie nicht vorhanden), was darauf hindeutet, dass nach der Einführung der chinesischen Seidenraupe in Europa die Seidenraupe entstand Handel fand auch zwischen Japan und Europa statt. Zweitens sind die verbesserten Stämme stark in zwei Gruppen konzentriert, CHN-I und JPN-I, was die schmale genetische Basis kommerzieller Seidenraupen widerspiegelt (Abb. 2b), während die genetischen Stammstämme eine umfangreiche genetische Vielfalt aufweisen und einige besonders wertvolle Züchtungen beherbergen Merkmale wie Krankheitsresistenz, hervorragende Fressleistung oder besondere Seideneigenschaften. Diese Ergebnisse legen nahe, dass die Ausbeutung und Nutzung dieser reichlich vorhandenen genetischen Ressourcen für die zukünftige Seidenraupenzucht von wesentlicher Bedeutung ist. Drittens die lokalen Stämme aus dem Mittel- und Unterlauf des Gelben Flusses, die sich an der Basalposition der heimischen Seidenraupengruppe befinden (Abb. 2b), was darauf hindeutet, dass Seidenraupen von diesem einzigen geografischen Standort aus domestiziert wurden, eine Schlussfolgerung, die durch archäologische Beweise zusätzlich gestützt wird25 ,26,27,28.

Um einen Überblick über den genomischen Inhalt von Seidenraupen zu geben, wurden 545 Vertreter jeder Gruppe, die den phylogenetischen Baum gleichmäßig abdecken, ausgewählt, um eine Long-Read-Sequenzierung (Nanoporenplattform) und eine Genomassemblierung durchzuführen (Abb. 3a, ergänzende Abb. 1b). Wir haben insgesamt 24,06 Tb TGS-Lesedaten mit einer durchschnittlichen Sequenzierungstiefe von 97 × und einer durchschnittlichen Leselänge von 23 kb erhalten (Abb. 3b, c). De-novo-Assemblierungen dieser 545 Genome ergaben eine durchschnittliche Genomgröße von 457,9 MB, eine durchschnittliche Contig-N50-Größe von 7,6 MB (etwa die Hälfte der durchschnittlichen Länge eines Seidenraupenchromosoms) und etwa zwei Contigs auf Chromosomenebene pro Genom (Abb. 3d). . Darüber hinaus machten repetitive Elemente 46–49 % des Genoms aus, durchschnittlich 47 % (Abb. 3e, Ergänzende Daten 2). Unter den repetitiven Elementen waren Nicht-LTR-Transposons, einschließlich langer eingestreuter Elemente (LINEs) und kurzer eingestreuter Elemente (SINEs), am häufigsten und machten 23–28 % der Genome aus, mit einem Durchschnitt von 26 %, was einem solchen Wert entspricht im Referenzgenom. Der BUSCO-Bewertungswert und das Zuordnungsverhältnis der NGS-Reads zu den zusammengesetzten Genomen betrugen durchschnittlich 98 % und 99 %, einschließlich Einzelkopie-, duplizierter und fragmentierter Gene (Abb. 3f, Zusatzdaten 2), was darauf hinweist, dass die zusammengesetzten Genome vorhanden sind hohe Vollständigkeit.

a Die Strategie der Genomsequenzierung und -assemblierung. b Die durchschnittliche Long-Read-Coverage-Verteilung zwischen den Stämmen. c Die durchschnittliche Leselängenverteilung zwischen den Stämmen. d Die Verteilung der Contig-N50-Länge zwischen den Genomen. e Die proportionale Verteilung von Wiederholungssequenzen. f BUSCO-Bewertungswerte. g Bewertung des Pan-Gen-Plateaus. Die schwarzen Kurven werden mit tatsächlichen Daten angepasst und die gelben gepunkteten Kurven werden durch das Modell y = A + BeCx extrapoliert. Die aus 80, 90 und 100 Genomen gewonnenen Pan-Gene sind ähnlich. h Anzahl der Pan-Gene (grün) und Core-Gene (orange) mit erhöhter Probenzahl. i Vergleiche der Genzahlen zwischen wilden, lokalen, verbesserten und genetischen Bestandsgruppen. j Häufigkeit der Genzahl. Das Kreisdiagramm zeigt den Anteil der Kern-, Softcore-, entbehrlichen und privaten Gene in diesen Genomen. k, l-Gene mit signifikanter Häufigkeitsdifferenz zwischen wild-lokalen (k) und lokal-verbesserten Vergleichen (l). In den beiden Vergleichen werden Gene mit signifikant erhöhter (rot) oder verringerter (blau) Häufigkeit entweder in der Domestizierung (k) oder in der Verbesserung (l) mit unterschiedlichen Farben dargestellt.

Um die gesamte Landschaft der Seidenraupengene zu bewerten, haben wir zunächst abgeschätzt, wie viele Genome ausreichen, um den gesamten Gensatz der Seidenraupen zu erfassen, und zwar mithilfe eines schrittweisen, überlagerten Ansatzes (siehe Methode). Wir fanden heraus, dass die aus 80, 90 und 100 Genomen erhaltenen Pan-Gene ähnlich waren und ein Plateau bei n = 80 erreichte (Abb. 3g, ergänzende Abb. 1c). Somit sind die in den 100 annotierten Genomen enthaltenen Pan-Gene (14 wilde, 41 lokale, 15 verbesserte und 30 genetische Bestandsgenome) repräsentativ für die Art. Diese Genome enthalten durchschnittlich 16.234 Gene, 687 Transfer-RNAs, 123 Ribosomen-RNAs, 13 kleine Kern-RNAs und 6432 microRNAs (Abb. 3h, i, Ergänzende Daten 3). In den 100 Genomen wurden insgesamt 19.411 Orthogruppen proteinkodierender Gene identifiziert, darunter 4260 (22 %) Core (von allen 100 Proben gemeinsam genutzt), 6501 (34 %) Softcore (von > 90 % der Proben, aber nicht allen gemeinsam genutzt) und 8535 (44 %) entbehrliche (von mehr als einer, aber ≤ 90 % Proben geteilte) und 115 (1 %) private (nur in einer Probe vorhandene) Gene (Abb. 3j, ergänzende Abb. 1d, ergänzende Daten 4). Kerngene wiesen die niedrigsten dN/dS-Werte auf, wobei 98 % der Gene eine InterPro-Domäne enthielten (ergänzende Abbildung 1e, f). Sie wurden in höheren Konzentrationen und in mehr Geweben exprimiert als entbehrliche und private Gene (ergänzende Abbildung 1g, h). GO-Anmerkungen zeigten, dass Kerngene im Vergleich zu den anderen drei Gruppen an Genen für die Aktivität des Transkriptionsregulators und für die Aktivität des DNA-bindenden Transkriptionsfaktors angereichert sind (ergänzende Abbildung 1i, j). Wir fanden außerdem heraus, dass die Orthogruppen der Seidenraupen-Kerngene die größte Verteilung und die höchste Sequenzidentität unter 24 Insekten von 10 Ordnungen im Vergleich zu denen der Softcore- und entbehrlichen Gene aufwiesen (ergänzende Abbildung 1k, l, ergänzende Daten 5). Diese Ergebnisse legen nahe, dass die Funktionen von Kerngenen stärker konserviert sind und dass sie möglicherweise eine wichtige Rolle bei der Genregulation spielen.

Von diesen 19.411 Orthogruppen fehlen 7308 (38 %) im Gensatz des vorherigen Referenzgenoms21 und wurden daher neu identifiziert. Etwa 83 % (5807) der neu identifizierten Gene weisen GO-Begriffe oder Transkriptionsnachweise auf (Supplementary Data 4), und ~ 99 % der neuen Orthogruppen sind in mehr als zwei Genomen vorhanden (Supplementary Abb. 1m), was darauf hindeutet, dass dies tatsächlich der Fall ist vorhanden und sind informativ für weitere funktionelle Genomstudien bei Seidenraupen. Die Verteilungsanalyse zeigte, dass 251 und 241 Orthogruppen im Vergleich zwischen wildlokalen und lokal verbesserten Populationen eine signifikante Häufigkeitsänderung (FDR < 0,0001 und fache Änderung > 2) aufwiesen (Abb. 3k, l). Von diesen Genen wurden 72 % und 82 % neu identifiziert, was darauf hindeutet, dass die neu identifizierten Gene möglicherweise eine Rolle bei der Domestizierung und Zucht von Seidenraupen spielen.

Um ein hochauflösendes Seidenraupen-Pan-Genom zu konstruieren, haben wir die langen Lesevorgänge jedes der 545 Genome dem Referenzgenom zugeordnet21 und einen Durchschnitt von 120.216 SVs pro Genom erhalten (Abb. 4a). Die durchschnittliche SV-Anzahl im Genom wilder Seidenraupen ist deutlich höher (p <0,0001, t-Test) als bei heimischen Seidenraupen (Supplementary Data 2). Einfügungen (INS) und Deletionen (DEL) (als PAVs, Anwesenheits-/Abwesenheitsvariationen bezeichnet) machen ~99 % der SVs aus (Ergänzungsdaten 2, Abb. 4b). Um die Qualität der identifizierten SVs zu validieren, überprüften wir die zuvor experimentell verifizierten SVs in unseren sequenzierten Stämmen und stellten fest, dass alle neun gemeldeten SVs in unseren identifizierten SVs29, 30, 31, 32, 33, 34, 35, 36, 37 (Ergänzung) vorhanden waren Daten 6). Als nächstes wählten wir zufällig 50 SVs aus, um eine Polymerasekettenreaktion (PCR) durchzuführen, was 48 neu identifizierte SVs (96 %) bestätigte (Ergänzende Abbildung 2, Ergänzende Daten 7). Diese Ergebnisse deuten darauf hin, dass der SV-Anruf im Allgemeinen zuverlässig war. Alle SVs wurden zusammengeführt, um 3.432.266 nicht-redundante SVs (nrSVs) zu erzeugen, wobei die Mehrheit (96 %) kürzer als 15 kb war und ein großer Anteil (81 %) seltene Allele (Allelfrequenzen unter 0,05) auftrat (Abb. 4b, Ergänzung). Abb. 3a, b) zeigt einen offenen Seidenraupen-Pan-SV (Abb. 4c, ergänzende Abb. 3c) und eine hohe SV-Dichte (ein SV pro 134 bp) in der Seidenraupenpopulation (Abb. 4d).

eine SV-Anzahl von Insertionen (INS), Deletionen (DEL), Duplikationen (DUP) und Inversionen (INV) in jedem der 545 Genome. Die Anteile von DUP und INV sind zu niedrig, um in der Grafik beobachtet zu werden. b Allelfrequenz von nrSVs aus 545 Proben. c Pan-SV- und Core-SV-Zählungen mit zusätzlichen Genomen. d Verbreitungskarte genetischer Variationen in 1082 Genomen. (i) Chromosomen. (ii) Gendichte. (iii) SNP- und (iv) Indel-Dichten in 1082 Genomen. (v) Nicht-redundante SVs-Dichte von 545 TGS-Genomen. (vi) Dichte nicht redundanter SVs von 537 Nur-NGS-Genomen. (vii) TE-Dichte. e Komponenten transponierbarer Elemente (TEs) in Sequenzen von Einfügung (INS), Löschung (DEL), Inversion (INV) und Duplikation (DUP). f Korrelationen der TGS-SV- und TE-Zählungen. TGS-SV- und TE-Nummern wurden in ununterbrochenen 500-kb-Fenstern gezählt. Es besteht eine signifikante lineare Beziehung zwischen den SV- und TE-Verteilungen auf den Chromosomen (lineare Regression, R2 = 0,53, Pearsons r = 0,7281, p = 3,426e-145, F-Test). Quelldaten werden als Quelldatendatei bereitgestellt.

Die durchschnittliche SV-Anzahl pro Genom bei Seidenraupen ist unseres Wissens nach etwa 60 und sechsmal höher als bei Drosophila12,13,38 und Menschen15,16. Eine primäre Erklärung könnte sein, dass das Seidenraupengenom eine höhere Dichte (2075 Kopien pro MB pro Genom) an transponierbaren Elementen (TEs) aufweist als Drosophila39 (229 Kopien pro MB pro Genom) und Mensch40 (1222 Kopien pro MB pro Genom). TEs gelten als Hauptverursacher genomischer SVs. Tatsächlich stellten wir fest, dass TEs den größten Anteil (67 %) der SV-Sequenzen in Seidenraupengenomen ausmachten (Abb. 4e). Darüber hinaus korrelierte die Verteilung der SVs auf den Chromosomen signifikant mit der Verteilung der TEs (R2 = 0,53, p < 0,0001) (Abb. 4f). Eine andere mögliche Erklärung könnte sein, dass SV-Ereignisse mit einer hohen Mutationsrate auftreten, was sich im Auftreten eines hohen Anteils (47 %) mehrerer SV-Allele (im Bereich von 2 bis 135 nrSVs an einer einzelnen Stelle) in allen Seidenraupen widerspiegelt (Ergänzung). Abb. 3d, e). Darüber hinaus sind heimische Seidenraupen toleranter gegenüber schädlichen oder leicht schädlichen Mutationen (seltene Allele, Allelhäufigkeit <0,05), da sie vollständig vom Menschen abhängig sind und einem schwachen natürlichen Selektionsdruck unterliegen. Diese Spekulation wird weiter durch unsere Feststellung gestützt, dass der Anteil seltener Allel-SVs bei heimischen Seidenraupen (70 %) höher ist als bei wilden Seidenraupen (56 %).

Wir haben ein graphbasiertes Pan-Genom erstellt, indem wir alle PAVs in das lineare Referenzgenom integriert haben. Wir ordneten die Short-Reads jedes Long-Read-Sequenzierungsstamms dem Pan-Genom zu und stellten fest, dass die Durchschnittswerte der Präzisions-, Recall- und F1-Scores 0,88, 0,74 und 0,80 betrugen, was darauf hindeutet, dass die SVs auf der Basis von Long-Reads identifiziert wurden Lesevorgänge sind zuverlässig. Darüber hinaus führte die Zuordnung der kurzen Lesevorgänge der verbleibenden 537 NGS-sequenzierten Genome zum Pan-Genom zur Identifizierung von 454.671 SVs, die 59.037 neue SVs enthielten (ergänzende Abbildung 3f). Das auf NGS-Daten basierende Verteilungsmuster von SVs auf Chromosomen stimmt mit dem von TGS-Daten identifizierten SVs überein (Abb. 4d, ergänzende Abb. 3g). Diese Ergebnisse legen nahe, dass das Pan-Genom als umfassende Referenz zur Analyse genomischer Variationen in den kurz sequenzierten Genomen verwendet werden könnte.

Um die Auswirkungen von SVs auf die Genexpression zu untersuchen, analysierten wir zunächst ihre relativen Genompositionen. Wir fanden heraus, dass sich 55 % der SVs in potenziellen Expressionsregulationsregionen (einschließlich der Introns und der ±5 kb flankierenden Regionen eines Gens, wie in dieser Studie analysiert) oder in der kodierenden Sequenz (CDS) von Referenzgenen in der gesamten Seidenraupenpopulation befinden. Unter diesen SVs fanden wir ~93 % (1.762.169) in potenziellen Expressionsregulationsregionen (ergänzende Abbildung 3h), während die anderen 7 % (130.669) das CDS von 12.661 Genen (75 % der Referenzgene) beeinflussten. Als nächstes untersuchten wir die Genexpression mithilfe von RNA-seq-Daten von 84 Proben von vierzehn Stämmen, die 178.309 SVs in potenziellen Expressionsregulationsregionen enthielten und 26.188 SV-Genpaare bildeten (für jedes Paar mindestens drei Stämme mit und drei Stämme ohne SV). Unter diesen Paaren enthalten 2396 SV-Genpaare (9, 2 %) insgesamt 1560 Gene, die in mindestens einem Gewebe eine unterschiedliche Expression (FDR <0, 001) zwischen Stämmen mit und ohne entsprechende SVs zeigen (ergänzende Abbildung 3h).

Die Identifizierung der künstlich ausgewählten Gene und SVs, die der Domestizierung und Zucht von Seidenraupen zugrunde liegen, wird das Verständnis und die Verbesserung wünschenswerter Merkmale von Seidenraupen erleichtern. Wir haben den Population Divergence Index (FST), Neutralitätstests (Tajima's D) und einen bevölkerungsübergreifenden Composite Likelihood Ratio Test (XP-CLR) unter Verwendung von SNP-Markern berechnet. Wir definierten die Schnittpunkte von FST, Tajimas D und XP-CLR als selektive Sweep-Regionen und identifizierten 468 (2,8 % der Gene des Gesamtgenoms) domestizierungsassoziierte Gene (Abb. 5a, Zusatzdaten 8a), die 264 neu identifizierte Domestizierungsgene enthielten. assoziierte Gene im Vergleich zu früheren Studien22,41,42. Diese 468 Gene sind hinsichtlich des Aminosäurestoffwechsels, des Stickstoffstoffwechsels und des zirkadianen Rhythmus angereichert, was wahrscheinlich auf die Selektion des Menschen hinsichtlich des Wachstums und der Entwicklung von Seidenraupen, der Synthese von Seidenprotein und der Anpassung an die Umwelt zurückzuführen ist (ergänzende Abbildung 4a). Wir verglichen außerdem die Allelhäufigkeiten von SVs zwischen wilden und lokalen Seidenraupen und identifizierten 5353 domestizierungsassoziierte SVs (die signifikant unterschiedliche Häufigkeiten zwischen wilden und lokalen Gruppen aufwiesen) (Abb. 5b). Insgesamt wurden 872 domestizierungsassoziierte SVs in oder in der Nähe von domestizierungsassoziierten Genen gefunden, die überwiegend (95 %) in ihren potenziellen Expressionsregulationsregionen verteilt waren (Supplementary Data 8a).

Ein FST zeigt ein selektives Signal bei der Domestizierung von Seidenraupen. Die zuvor berichteten inländischen Gene, die mit der Seidenproduktion (AS, GS, GDH und GOGAT), dem zirkadianen Rhythmus (CLOCK, CRY2), der Entwicklung (EO) und der Körperfarbe (TH) assoziiert sind, sind markiert und zeigen ein offensichtliches selektives Signal. TH (Tyrosinhydroxylase), GS (Glutaminsynthetase 2), CLOCK (Circadian Locomoter Output Cycle Protein Kaput), GDH (Glutamatdehydrogenase), CRY2 (Cryptochrom 2), GOGAT (Glutamatsynthase), AS (Asparaginsynthetase) und EO ( Ecdysonoxidase). b Häufigkeitsverteilung von SVs in der Domestizierung (in wilden und lokalen Gruppen); Punkte stellen SVs dar. Wir haben 5.353 SVs (rote Punkte) identifiziert, die möglicherweise eine Rolle bei der Domestizierung von Seidenraupen gespielt haben, da sie Unterschiede in ihren AFs zwischen wilden und heimischen Seidenraupen aufweisen (FDR < 0,0001, Faltungsänderung >2). c Selektive Regionen von CHN-I (rot, chinesische verbesserte Stämme) und JPN-I (blau, japanische verbesserte Stämme), die aus dem Züchtungsprozess resultieren.

Als nächstes führten wir vergleichende Analysen zwischen verbesserten und lokalen Stämmen durch, um züchtungsassoziierte Gene zu identifizieren. CHN-I und JPN-I sind die verbesserten Gruppen, die derzeit zur Erzeugung von Heterosis (oder Hybridkraft) verwendet werden. Wir identifizierten 126 (CHN-I) und 116 (JPN-I) verbesserungsassoziierte Regionen mit 106 und 92 verbesserungsassoziierten Genen (Abb. 5c, Zusatzdaten 8b). Im Vergleich zu einer früheren Studie22 wurden 185 verbesserungsassoziierte Gene neu identifiziert. Interessanterweise teilten sich die beiden verbesserten Gruppen nur etwa 3 % dieser mit der Verbesserung verbundenen Regionen (Abb. 5c), was darauf hindeutet, dass die Zucht in CHN-I und JPN-I unabhängig verlief. Diese Ergebnisse enthüllen Teile der genetischen Grundlagen der Seidenraupen-Heterose und bieten potenzielle Ansatzpunkte für eine Verbesserung der Seidenraupenzucht. Um verbesserungsassoziierte SVs zu identifizieren (insbesondere solche, die signifikant unterschiedliche Häufigkeiten zwischen verbesserten und lokalen Gruppen aufweisen), verglichen wir die Allelhäufigkeiten von SVs zwischen lokalen und verbesserten Seidenraupen. Wir haben 3574 und 3516 verbesserungsassoziierte SVs bei lokalen Vergleichen mit CHN-I und lokalen gegenüber JPN-I-Vergleichen festgestellt (ergänzende Abbildung 4b). In den genomischen und flankierenden (± 5 Kb) Regionen verbesserungsassoziierter Gene identifizierten wir 312 verbesserungsassoziierte SVs, von denen sich die meisten (99, 7 %) innerhalb der potenziellen Expressionsregulationsregionen dieser Gene befinden (Supplementary Data 8b).

Die künstliche Selektion von Seidenraupen hat sich auf wirtschaftlich wichtige Seidenmerkmale wie Ertrag oder Qualität der Seide konzentriert. Bisher sind jedoch nur wenige ursächliche Gene und Loci für diese kommerziell wertvollen Merkmale charakterisiert. Mithilfe des hochauflösenden Pan-Genoms haben wir die Gene und Variationen untersucht, die zu diesen wünschenswerten Zuchtmerkmalen beitragen.

Der Seidenertrag wird weitgehend von der Anzahl und Endoreplikation der Seidendrüsenzellen beeinflusst, die die Seidenproteine ​​synthetisieren. Unter den mit der Verbesserung verbundenen Genen stellten wir fest, dass der am Fortschreiten des Zellzyklus beteiligte Transkriptionsfaktor BmE2F1 während der Zucht ein signifikantes Selektionssignal zeigt (Abb. 6a, ergänzende Abb. 5a). Das BmE2F1-Gen beherbergt vier verbesserungsassoziierte SVs, darunter eine Deletion und drei Insertionen in seiner cis-regulatorischen Region und seinen Introns (Abb. 6b, ergänzende Abb. 5b). Die Allelfrequenzen dieser vier SVs sind bei verbesserten Seidenraupen (FDR <0, 0001, Faltungsänderung> 2) signifikant höher als bei lokalen Seidenraupen (ergänzende Abbildung 5b). Der Seidenertrag der Stämme, die die vier verbesserungsassoziierten SVs beherbergen, ist deutlich höher als der der Stämme ohne diese SVs (ergänzende Abbildung 5c). Darüber hinaus reduziert der CRISPR-cas9-vermittelte Knockout von BmE2F1 die Anzahl der Seidendrüsenzellen um 7,68 % und die Seidenausbeute um 22 %. Im Gegensatz dazu erhöht die transgene Überexpression von BmE2F1 die Anzahl der Seidendrüsenzellen um 23 % und den Seidenertrag um 16 % (Abb. 6c, d, ergänzende Abb. 5d, e). Diese Ergebnisse deuten darauf hin, dass das BmE2F1-Gen an der Bestimmung der Anzahl der Seidendrüsenzellen beteiligt ist und dadurch die Seidenausbeute beeinflusst.

a, b Die genomische Region von BmE2F1 zeigt eine Signatur einer positiven Selektion (a) mit vier SVs (rote Punkte), die eine signifikante Häufigkeitsdivergenz (b) zwischen lokalen und CHN-I-Seidenraupen zeigen. c Embryonale Seidendrüsenkerne, gefärbt mit DAPI (blaue Fluoreszenz). d Zellzahl der Seidendrüsen der BmE2F1-Knockout-Linie (KO), der BmE2F1-Überexpressionslinie (OE) und der Wildtyp-Linien (WT, Dazao) (linkes Histogramm). Gewicht der Kokonhülle (CSW) und Kokons der Linien BmE2F1 KO, BmE2F1 OE und WT (rechtes Histogramm und Bild der Kokons). Die Daten werden als Mittelwert ± SD angezeigt. Maßstabsleiste, 1 cm. Student-T-Test (zweiseitig). e Seide mit feinem und grobem Denier unter einem Rasterelektronenmikroskop. f Eine 11,1-kb-Insertion im Intron und eine 6,2-kb-Downstream-Insertion des BmChit-β-GlcNAcase-Gens in den Fineness-Stämmen Chunfeng und Suxiu. g CRISPR-cas9-vermittelter Knockout von BmChit-β-GlcNAcase erzeugte gröbere Seide. Student-T-Test (zweiseitig). In Boxplots geben horizontale Linien innerhalb der Boxen die Mediane an, Boxgrenzen geben das 1. und 3. Quartil an und Whiskers zeigen die Minima und Maxima an. Quelldaten werden als Quelldatendatei bereitgestellt.

Feine Seide hat in der Seidenraupenzucht einen höheren wirtschaftlichen Wert, die genetische Grundlage der Faserfeinheit ist jedoch unbekannt. Wir haben zuvor herausgefunden, dass ein Teil der Spinndüse, der Seidenpresse, mit der Feinheit zusammenhängt43. Hier führten wir eine RNA-Seq der Seidenpresse in vier Stämmen durch, darunter zwei feine Seidenstämme (Suxiu, Chunfeng) und zwei grobe Seidenstämme (Xiafang, Qiubai) (Abb. 6e) und identifizierten 40 differentiell exprimierte Gene (DEGs) (ergänzende Abb . 6a). Wir haben die Variationen in den genomischen Regionen dieser DEGs gescannt, um SVs zu identifizieren, die für die feinen Seidenstämme im Vergleich zu den groben Seidenstämmen einzigartig und in der gesamten Seidenraupenpopulation selten sind. Wir fanden eine 11,1 kb große Introninsertion und eine 6,2 kb große Downstream-Insertion des chitooligosaccharidolytischen Beta-N-Acetylglucosaminidase-Gens (BmChit β-GlcNAcase) in den Stämmen Chunfeng und Suxiu (Abb. 6f). Wir fanden heraus, dass das BmChit-β-GlcNAcase-Gen in feinen Seidenstämmen (Suxiu, Chunfeng) deutlich stärker exprimiert wird und in der Seidenpresse im Wanderstadium (das zu Beginn des Spinnens auftritt) einen Expressionspeak aufweist (ergänzende Abb. 6b, c). Der durch CRISPR-cas9 vermittelte Knockout des BmChit-β-GlcNAcase-Gens führte zu gröberer Seide (Abb. 6g, ergänzende Abb. 6d). Alle diese Ergebnisse legen nahe, dass das BmChit-β-GlcNAcase-Gen eine Schlüsselrolle bei der Bestimmung der Seidenfeinheit spielt.

Diapause ist eine gängige adaptive Strategie, die das Überleben von Organismen unter schädlichen Umweltbedingungen sicherstellt44. Obwohl das Diapausehormon (DH), ein Auslöser der embryonalen Diapause, erstmals bei Seidenraupen entdeckt wurde45, liegen nur wenige Informationen über die embryonalen Diapause-Gene vor.

Der pnd-Stamm produziert nicht-diapausenhomozygote (pnd/pnd) Eier und diapausenheterozygote (pnd/+) Nachkommen, die durch einen genetischen Faktor in Chromosom 11 (11–55,89 cM) nach der Befruchtung bestimmt werden, nicht jedoch durch den Diapausenfaktor während der Oogenese46 ,47,48,49. Um das embryonale Diapause-Gen zu identifizieren, haben wir die genomischen Variationen in der pnd/pnd-Homozygote (BomM479) in der Region zwischen dem zuvor gemeldeten Locus der schwarzen Puppe (bp) (11–42,5 cM, KWMTBOMO06855)34 und dem Ende von Chromosom 11 durchsucht. Wir fanden 10 Gene mit exonischer Sequenzvariation im untersuchten Bereich (ergänzende Abbildung 7a). Gemäß der Anmerkung zur Genfunktion schien ein Gen (KWMTBOMO06872, BmTret1-like), das einen Zuckertransporter kodiert, ein idealer Kandidat zu sein, da der Trehalosetransport für die Diapause von Insekten von entscheidender Bedeutung ist50. Eine Deletion von 747 bp wurde in der 3'-untranslatierten Region (3'-UTR) von BmTret1-like in pnd-Homozygoten gefunden, während sowohl die mutierte als auch die normale Kopie in Heterozygoten (pnd/+) nachweisbar sind (Abb. 7a; ergänzende Abb . 7b). Im frühen Embryonalstadium beobachteten wir, dass das Expressionsniveau von BmTret1-like bei Homozygoten (pnd/pnd) signifikant niedriger ist (p < 0,01, t-Test) als bei Heterozygoten (pnd/+) (Abb. 7b). Um die Funktion von BmTret1-like zu testen, wurde CRISPR/Cas9-vermittelter Knockout im Bivoltin-Stamm Dazao durchgeführt (ein Stamm, der Diapause-Eier erzeugt, wenn die mütterlichen Embryonen bei 25 °C inkubiert werden). Die injizierten Eier und ihre Nachkommen wurden stets bei 25 °C bebrütet. Nach drei Generationen der Hybridisierung und des Mutationsscreenings erhielten wir drei Chargen von BmTret1-ähnlichen Homozygoten, die zu einem Nicht-Diapause-Phänotyp führten (Abb. 7c). Diese Ergebnisse legen nahe, dass BmTret1-like ein entscheidender Faktor für die embryonale Diapause nach der Befruchtung ist.

a Im Vergleich zum Diapause-Wildtyp (+pnd/+pnd) kann in der 3′-UTR von BmTret1-like in Nicht-Diapause-pnd eine Deletion von 747 bp identifiziert werden. b In den Embryonalstadien nach 6, 12 und 18 Stunden ist das Expressionsniveau von BmTret1-like bei Homozygoten (pnd/pnd) deutlich niedriger als bei Heterozygoten (+pnd/pnd). Es wurden drei biologische Duplikationen durchgeführt. Die Daten werden als Mittelwert ± SD angezeigt. c CRISPR/Cas9 vermittelte BmTret1-ähnliches Knockout (KO) bei Wildtyp-Individuen (WT, Dazao). Drei BmTret1-like-/−-Linien, KO1, KO2 und KO3, enthalten eine 25 bp, 28 bp und 8 bp große Deletion in BmTret1-like. Die BmTret1-ähnlichen Knockout-Linien erzeugen Eier ohne Diapause unter 25 °C. Der Wildtyp-Bivoltin-Stamm (WT, Dazao) erzeugt Diapause-Eier, wenn die mütterlichen Embryonen bei 25 °C inkubiert wurden. d Große Insertion und Duplikation im L-Locus und der Unterschied zwischen Wnt1-1 und Wnt1-2. e Große Deletion im LC-Locus. f Expression von Wnt1 in +/+ und LC/+, drei biologische Duplikationen wurden durchgeführt. Die Daten werden als Mittelwert ± SD angezeigt. g Wnt1-Expression und Phänotyp nach Wnt1-RNAi (n = 20). CT, Kontrolle (LC/+). Maßstabsleiste, 5 mm. Student-T-Test (zweiseitig). Die Daten werden als Mittelwert ± SD angezeigt. Quelldaten werden als Quelldatendatei bereitgestellt.

Die aposematische Färbung, das Vorhandensein auffälliger Körpermarkierungen, die als Signale dienen, ist ein weiteres wichtiges Anpassungsmerkmal. Zwei Allelmutanten der Seidenraupe, Multilunar (L) und Multilunar vom Caltrop-Typ (LC) (Abb. 7d, e), führen zu ähnlichen Doppelpunktmarkierungen, die üblicherweise als aposematische Markierungen verwendet werden, um Raubtieren bei Raupen auszuweichen 51, 52. In einer früheren Studie wurde spekuliert, dass der L-Phänotyp durch kurze Sequenzänderungen in der 5'-flankierenden 19-kb-Region von Wnt1 auf Chromosom 453 verursacht werden könnte. In unseren zusammengestellten 545 Genomen enthalten neun Stämme ein L-Allel (Ergänzende Abbildung 7c, Ergänzende Daten). 1). Eine vergleichende Genomanalyse zwischen Proben mit und ohne L-Allel ergab, dass zwei SVs, eine Duplikation (34 kb), die eine zusätzliche Wnt1-Kopie (genannt Wnt1-2) mit einer 5944 bp langen Deletion in ihrer cis-regulatorischen Region und eine Insertion (109 kb), die von Chromosom 14 in der 5′-terminalen 18-kb-Stelle von Wnt1-1 (ursprüngliches Wnt1) abgeleitet sind (Abb. 7d), sind in jedem der neun Stämme vorhanden, die ein L-Allel enthalten, fehlen jedoch in jedem Stamm ohne ein L Allel. Als nächstes untersuchten wir SNPs und Indels in der ±20 kb flankierenden Region des Wnt1-1-Gens und stellten fest, dass nur drei Varianten (ein Indel und zwei SNPs), die sich im zweiten Intron von Wnt1-1 befinden, spezifisch vorhanden, aber nicht im L fixiert sind Stämme (Ergänzende Abb. 7d). Diese Ergebnisse legen nahe, dass der L-Phänotyp mit diesen strukturellen Variationen in der stromaufwärts gelegenen Region von Wnt1-1 zusammenhängen könnte.

Eine frühere Studie ergab, dass drei SNP-Marker das Wnt1-Transkript in L-Stämmen (g01) von Nicht-L-Stämmen (N4, p50) unterscheiden53. Glücklicherweise sind zwei dieser SNPs auch in der Lage, Wnt1-1 und Wnt1-2 in einem einzelnen L-Stamm, BomM527, zu unterscheiden (ergänzende Abbildung 7e). Um zu untersuchen, welche Kopie von Wnt1 in der Spot-Markierungsregion der Epidermis im BomM527-Stamm exprimiert wird, führten wir eine RT-PCR und eine Sanger-Sequenzierung durch und konnten nur das Wnt1-1-Transkript in der Epidermis nachweisen (ergänzende Abbildung 7f). Wenn wir diese Ergebnisse zusammenfassen, können wir spekulieren, dass die L-spezifischen SVs stromaufwärts von Wnt1-1 dessen ektopische Expression in der punktuellen Markierungsregion der Epidermis verursachen könnten, was zum L-Phänotyp führt.

Für die LC-Mutante fanden wir eine spezifische große Deletion (271 kb) in der 3′-flankierenden Region von Wnt1 (Abb. 7e). Wir beobachteten, dass die Wnt1-Expression in der Epidermis heterozygoter LC (LC/+)-Mutanten signifikant höher war als in normalen Stämmen (+/+) (Abb. 7f). Darüber hinaus blockierte Wnt1-RNAi, das auf der linken Seite der Epidermis von LC (LC/+)-Larven angewendet wurde, die Bildung von Punktmarkierungen (Abb. 7g). Diese Ergebnisse zeigen, dass große und komplexe SVs in L-Allelen, die durch kartenbasiertes Klonen nicht erhalten werden können, das Expressionsmuster von Wnt1 beeinflussen und zu Twin-Spot-Markierungen führen.

In dieser Arbeit stellen wir eine groß angelegte digitale Genbank von Seidenraupen-Bioressourcen zur Verfügung und stellen ein hohes Maß an genetischer Vielfalt bei Seidenraupen fest. Wir verfügen über eine größere Stichprobengröße und eine breitere geografische Verteilung des Stichprobensatzes als in den vorherigen Veröffentlichungen, die im Jahr 200941 40 Stämme (11 wilde Seidenraupen und 29 heimische Seidenraupen) und im Jahr 2018 144 Stämme (sieben wilde Seidenraupen und 137 heimische Seidenraupen)22 enthielten. Wir Geben Sie 1078 NGS mit hoher Tiefe und 545 hochwertige Referenzgenome frei und konstruieren Sie fast das gesamte Pangenom der Seidenraupe mit 7038 neu identifizierten Genen, mehr als fünfzig Millionen kurzen Varianten (SNPs und Indels) und über drei Millionen SVs. Dieser Datensatz ermöglicht die funktionelle Untersuchung vieler Arten von Sequenzen. Dazu gehören viele kodierende Gene, die im vorhandenen Seidenraupen-Referenzgenom fehlen, die Kern-/Privatgene in Seidenraupen und die variablen Gene zwischen Populationen, die komplexen SVs, die aus NGS-Daten schwer zu erkennen sind, und die genomischen Varianten in den nicht kodierenden Regionen wurden in früheren Studien mit vorwärts- und rückwärtsgenetischen Ansätzen selten berührt. Diese neuen Ressourcen werden das Hochdurchsatz-Screening neuartiger Merkmale für die funktionelle Genomforschung und die Zuchtverbesserung von Seidenraupen erheblich unterstützen und als Leitfaden für die Gesamtgenomstudie bei anderen Arten dienen.

Obwohl es sich bei der heimischen Seidenraupe (B. mori) um ein vollständig domestiziertes Wirtschaftsinsekt handelt, dessen Überleben vollständig vom Menschen abhängig ist, wurden bisher nur wenige wirtschaftlich wichtige Gene eindeutig identifiziert. In dieser Studie identifizieren wir 468 mit der Domestikation assoziierte Gene und 189 mit der Verbesserung assoziierte Gene. Im Vergleich zu früheren Studien22,41,42 stellt der aktuelle Bericht einen zusätzlichen Satz von 264 Genen dar, die mit der Domestizierung und 185 Genen im Zusammenhang mit der Verbesserung assoziiert sind. Die Analyse der Funktionen dieser Gene wird die genetische Grundlage der künstlichen Selektion aufdecken, Verbesserungsziele liefern und unser Verständnis der Verhaltensunterschiede zwischen B. mori und B. mandarina fördern, wie z Nahrungsaufnahme (ohne starken Drang, Nahrung zu finden) und Verlust der Flugfähigkeit. Darüber hinaus deckt diese Studie Unterschiede zwischen den künstlichen Selektionsstandorten der chinesischen und japanischen Verbesserungslinien auf, was dazu beitragen wird, die zugrunde liegende Grundlage der aus diesen beiden Populationen erzeugten Hybridkraft zu entschlüsseln und bei der Gestaltung besserer Kombinationen vorteilhafter Standorte für die spätere Verbesserung zu helfen Seidenraupe. Darüber hinaus könnte unsere Anwendung eines groß angelegten Pan-Genoms zur Entschlüsselung zweier Gene, die wichtige Wirtschaftsmerkmale bei Seidenraupen steuern, auch dazu genutzt werden, genetische Mechanismen und Merkmale aufzudecken, die mit dem Überleben wilder Populationen und der Entwicklung neuer Arten unter starker natürlicher Selektion verbunden sind menschliche und nichtmenschliche Faktoren.

Seidenraupen weisen in der Embryonal- und Larvenphase eine umfangreiche phänotypische Vielfalt auf (Abb. 1); Dies unterscheidet sich vom bekannten Modellsystem Drosophila, das vor allem im Erwachsenenstadium eine phänotypische Vielfalt aufweist. Diese Eigenschaft macht Seidenraupen wertvoll für Studien zur morphologischen Vielfalt bei Insekten. Bemerkenswerterweise sind die meisten unserer sequenzierten Seidenraupen phänotypisch gut beschrieben, insbesondere für die Gruppe, die die genetischen Bestände umfasst (Ergänzungsdaten 1). Dank langjähriger Forschung zur Seidenraupengenetik konnten viele mit Phänotypen in Zusammenhang stehende Loci den 28 Chromosomen der Seidenraupe zugeordnet werden, wodurch eine umfassende genetische Verknüpfungskarte erstellt wurde49. Unsere Pan-Genom-Daten werden in Kombination mit der genetischen Verknüpfungskarte die genetische Interpretation faszinierender Merkmale erleichtern und zur Insektenbiologie beitragen. Wir fanden beispielsweise heraus, dass die ektopische Expression des Wnt1-Gens (Wnt1-1), die wahrscheinlich durch strukturelle Variationen verursacht wird, für die neue Farbmusterung der Doppelfleckmarkierungen auf Raupen verantwortlich ist. Eine ähnliche, aber veränderte Strukturierung (LC) könnte auch durch die Variation von cis-regulatorischen Sequenzen erreicht werden, die dasselbe Gen, Wnt1, beeinflussen. Diese Entdeckung hat unser Verständnis der genetischen Mechanismen erweitert, die der Entwicklung und Vielfalt von Farbmustern zugrunde liegen. Daher kann die Entschlüsselung der Genotyp-Phänotyp-Beziehungen in diesen reichlich vorhandenen Seidenraupenressourcen unser Verständnis der genetischen Architektur der Diversifizierung und adaptiven Evolution bei diesem Schmetterling weiter fördern und möglicherweise auch auf andere Insekten anwendbar sein.

Unsere Ergebnisse zeigen, dass das generierte Pan-Genom, das auf Hunderten von lange gelesenen sequenzierten Genomen basiert, Ressourcen für einen hohen Durchsatz und eine genaue Bewertung wertvoller Allele für die Forschung und Zucht der funktionellen Genomik von Seidenraupen bereitstellt. Dies läutet eine neue Ära für die Seidenraupen-Grundlagenforschung und die molekulare Züchtung ein und bietet Leitlinien für die groß angelegte Pangenomforschung anderer Arten.

Zur Bestimmung der Stichprobengröße wurden keine statistischen Methoden verwendet. Die Experimente waren nicht randomisiert und die Forscher waren nicht blind gegenüber der Zuordnung während der Experimente und Ergebnisbewertungen.

Wir haben 1078 Seidenraupen gesammelt, was 1031 heimischen Seidenraupen (B. mori, einschließlich 205 lokalen Stämmen, 194 verbesserten Sorten und 632 genetischen Beständen) und 47 wilden Seidenraupen (B. mandarina) entspricht. Für das Sammeln wilder Seidenraupen war keine Genehmigung erforderlich. Lokale Stämme sind Zuchtressourcen, die ohne weitere selektive Züchtung lange Zeit in verschiedenen geografischen Regionen der traditionellen Seidenproduktionsländer (z. B. China, Japan, Korea, Indien, Thailand, Laos, Vietnam, Russland, Frankreich, Italien, Deutschland) erhalten blieben. Ungarn, Spanien, Türkei, Rumänien, Marokko, Kambodscha, Aserbaidschan, Ukraine und Bulgarien). Verbesserte Sorten, die wünschenswerte Eigenschaften für die kommerzielle Züchtung aufweisen (z. B. hoher Ertrag und hochwertige Seide, natürliche Farbkokons, größere Robustheit, gleichmäßige Entwicklung und hohe Schlupffähigkeit), sind Stämme, die höchst selektiv für die moderne Seidenraupenzucht gezüchtet werden. Bei den genetischen Beständen handelt es sich um natürliche Mutanten, die während der Domestizierung und des Zuchtverbesserungsprozesses entdeckt werden, zusammen mit künstlichen Mutanten, die durch chemische oder physikalische Behandlung oder Gentechnik induziert werden. Wilde Seidenraupen, die in allen geografischen Verbreitungsgebieten Chinas gesammelt wurden, stellen den Vorfahren (B. mandarina) der domestizierten Seidenraupe dar. Es ist erwähnenswert, dass die seit dem 20. Jahrhundert erhaltenen genetischen Bestände der Seidenraupen eine einzigartige Ressource für die Seidenraupenzucht und die Insektenbiologie darstellen. Sie weisen einige besonders wertvolle Zuchtmerkmale auf, wie z. B. erwachsene Flügel mit wenigen Schuppen, hervorragende Fressleistung, hohe Stresstoleranz, Krankheitsresistenz oder besondere Seideneigenschaften. Mehr als 400 Mutanten wurden mithilfe der klassischen Verknüpfungsanalyse allen 28 Verknüpfungsgruppen von Seidenraupen zugeordnet49.

Die meisten Sammlungen (~90 %) stammen aus den genetischen Ressourcenbanken für Seidenraupen an der Southwest University (Chongqing, China). Eine Minderheit der Keimplasmen wurde von anderen Universitäten und Seidenraupenzucht-Forschungsinstituten gesammelt, die im Abschnitt „Danksagung“ erwähnt werden.

Puppen oder Larven (ohne Mitteldarm) wurden gesammelt und zur genomischen DNA-Extraktion bei –80 ° C gelagert (Ergänzungsdaten 1). Für die ONT-Sequenzierung wurde ein Blut- und Zellkultur-DNA-Midi-Kit (Katalog-Nr. 13343, QIAGEN) verwendet, um genomische DNA gemäß dem Verfahren des Herstellers zu extrahieren. Für die Short-Read-Sequenzierung wurde die Phenol/Chloroform-Methode zur Extraktion genomischer DNA verwendet. Das extrahierte DNA-Pellet wurde zur weiteren Untersuchung in 30–200 μl Tris-EDTA (TE)-Pufferlösung gelöst.

Für NGS wurde eine Paired-End-Sequenzierungsbibliothek jeder Probe von 1078 Seidenraupen mit Insertionsgrößen im Bereich von 300 bis 400 bp erstellt und über die DNBSEQ-Plattform von BGI (China) sequenziert. SOAPnuke54 v1.5.6 wurde verwendet, um Lesevorgänge mit geringer Qualität herauszufiltern (ein Lesevorgang, der mehr als 40 % Basen mit geringer Qualität enthielt, ein Basisqualitätswert von weniger als 20 wurde als minderwertig angesehen) und PCR-Duplikationslesevorgänge mit den Parametern -n 0,03 - zu entfernen. l 20 -q 0,4 -G -d -Q 2. Die beiden vorherigen Resequenzierungsprojekte von Seidenraupen22,41 ergaben geringe Abdeckungstiefen (nur ~3× und ~13× Abdeckungstiefe), was die Nutzung dieser Daten bei der Genomassemblierung und -erkennung einschränkte der strukturellen Variation. Daher haben wir alle unsere Proben mit hoher Tiefe im Bereich von 22× bis 181× (durchschnittlich etwa 65×) sequenziert. Um eine bessere Genomassemblierung für Proben zu gewährleisten, die bei der Long-Read-Sequenzierung verwendet werden, wurden höhere Abdeckungstiefen im Bereich von 52× bis 181× (82× im Durchschnitt) generiert. Die Sequenzierungsinformationen für jede Probe sind in den Zusatzdaten 1 aufgeführt.

Für die Long-Read-DNA-Sequenzierung wurden 545 Proben mit 39 wilden, 162 lokalen, 117 verbesserten und 227 genetischen Seidenraupen ausgewählt, um Sequenzierungsbibliotheken der Oxford Nanopore Technology (ONT) in BGI (China) aufzubauen. Gemäß dem Standardverfahren zur Bibliothekskonstruktion der Oxford Nanopore Technologies Company wurde eine 20-kb-DNA-Bibliothek jeder Probe zur Sequenzierung auf der PromethION-Plattform mit R9.4-Chemie unter Verwendung des Ligation Sequencing Kit SQK-LSK109 (Oxford Nanopore Technologies) verwendet. Für die Pooling-Bibliothek aus zwei Proben müssen die Lesevorgänge jeder Probe vor dem Filtern aufgeteilt werden. Daher wurden guppy_barcoder v3.1.50 (https://nanoporetech.com/) und qcat v1.0.1 (https://github.com/nanoporetech/qcat) auf Split-Reads angewendet und der Schnittpunkt der beiden Ergebnisse wurde als Split verwendet Daten. Zum Suchen und Entfernen von Adaptern wurde das Programm porechop v0.2.4 (https://github.com/rrwick/Porechop) verwendet. Wir haben auch die Lesevorgänge mit einer Länge <5 kb und einer durchschnittlichen Qualität <7 entfernt. Die endgültige Sequenzierungstiefe lag zwischen 48× und 277×. Die N50-Lesegrößen lagen zwischen 13,5 und 44,9 kb mit einem Durchschnitt von 30 kb (Supplementary Data 2).

Für RNA-Seq wurden sechs Gewebe einschließlich Kutikula, Fettkörper, Kopf, Hämolymphe, Mitteldarm und Seidendrüse aus vierzehn Proben (BomL85, BomL194, BomL41, BomL84, BomP79, BomL114, BomL170, BomL122, BomL31, BomL210, BomL13, BomL112, BomP128 und BomW44) wurden am 3. Tag des letzten Larvenstadiums gesammelt. Die Gesamt-RNA wurde mit Trizol (Invitrogen) isoliert. Eine RNA-seq-Bibliothek wurde mit dem MGIEasy RNA Library Prep Kit erstellt. Die gesamte RNA-Sequenzierung wurde bei Frasergen (Wuhan, China) und Novogene (Tianjin, China) durchgeführt. Die mRNAs jedes Gewebes wurden von mehr als drei Individuen mit zwei biologischen Replikaten gesammelt.

Die kurzen Lesevorgänge der 1082 Seidenraupenstämme wurden von BWA55 v0.7.17 mem mit Standardparametern auf das Seidenraupen-Referenzgenom abgebildet. Die Programme SAMtools56 v1.11 und Picard v2.23.5 (https://broadinstitute.github.io/picard/) wurden verwendet, um die nicht zugeordneten und duplizierten Lesevorgänge zu filtern. Eine GVCF-Datei jeder Probe wurde mit dem HaplotypeCaller GATK57 v4.1.8.1 mit dem Parameter -ERC = GVCF erhalten. Die GVCF-Dateien aller Proben wurden mit GATK CombineGVCFs zusammengeführt. Der gemeinsame Aufrufschritt aller 1082 Proben wurde unter Verwendung von GATK GenotypeGVCFs durchgeführt, um eine kombinierte VCF-Datei zu generieren. Abschließend wurden die Varianten von GATK VariantFiltration mit den folgenden Parametern gefiltert: -filter „QUAL < 50.0“–Filtername LowQ -filter „DP < 200“–Filtername LowD -filter „DP > 100000“–Filtername HigD –filter-expression „MQ < 40.0, QD < 2.0, FS > 60.0, SOR > 5.0, MQRankSum < −12.5, ReadPosRankSum < −8.0“ –filtername LowQualFilter–missing-values-evaluate-as-failing. Insgesamt wurden 43.012.261 SNPs und 9.344.375 Indels identifiziert. Eine frühere Studie identifizierte etwa 37 Millionen SNPs (die Anzahl der Indels wurde nicht angegeben) in 144 Seidenraupen22. Die SNP-Koordinaten waren nicht vergleichbar, da wir eine andere Version des Referenzgenoms verwendeten. Allerdings wurden in unserer Studie mindestens sechs Millionen SNPs neu identifiziert.

VCF2Dis v1.42 (https://github.com/BGI-shenzhen/VCF2Dis) wurde verwendet, um p-Abstände zwischen jeweils zwei Stichproben basierend auf einer VCF-Datei mit SNPs zu schätzen. PHYLIPNEW v3.69 fneighbor (http://emboss.sourceforge.net/apps/cvs/embassy/phylipnew/) wurde zum Erstellen des Neighbor-Joining Tree verwendet. Für die PCA-Analyse haben wir plink58 v2.0 (–make-bed) verwendet, um eine VCF-Datei in eine Bed-Datei zu konvertieren. Anschließend wurde das Betaprogramm GCTA59 v1.93.0 verwendet, um die genetische Beziehungsmatrix (GRM) zu schätzen und Eigenvektoren zu berechnen.

Künstliche Selektionsregionen wurden mithilfe eines Schiebefensteransatzes mit einem 5-kb-Fenster und einer Schrittgröße von 500 bp geschätzt. Für jedes Fenster haben wir den Population Divergence Index (FST), Neutralitätstests (Tajimas D) und XP-CLR basierend auf den vorherigen Formeln60,61,62 berechnet. Domestizierungsassoziierte Regionen wurden durch den Vergleich wilder mit einheimischen Seidenraupen identifiziert, und verbesserungsassoziierte Regionen wurden durch getrennten Vergleich lokaler und verbesserter Seidenraupen in China (CHN-I) und Japan (JPN-I) definiert. Die überlappenden Genomregionen der Top-1-%-FST-, Top-5-XP-CLR- und niedrigsten 5-%-Ddescendant-Signaturen von Tajima (und Tajimas Ddescendant < Tajimas Dancestral) wurden als selektive Sweep-Kandidatenregionen definiert. Es wurde angenommen, dass die in diesen Regionen enthaltenen Gene möglicherweise mit der Domestizierung und Zucht von Seidenraupen in Zusammenhang stehen.

Vor dem Zusammenbau wurde Jellyfish63 v2.2.6 verwendet, um k-mer-Frequenzen zu zählen (k = 17). Anschließend wurden die Genommerkmale, einschließlich Genomgröße, Wiederholungsrate und Heterozygotierate, mit genomeScope64 v1.0 unter Verwendung von NGS-Daten vorhergesagt.

Die De-novo-Genomassemblierung wurde mit der folgenden Pipeline durchgeführt: (a) Die ONT-Reads wurden durch Canu65 v1.8 korrigiert. (b) Die korrigierten ONT-Lesevorgänge wurden von Smartdenovo66 v1.0 mit den folgenden Parametern zu Contigs zusammengesetzt: wtpre –J 5000; wtzmo –k 16 –z 10 –Z 16 –U −1 –m 0,6 –A 1000; wtclp –d 3 –k 300 –m 0,6; wtlay –w 300 –s 200 –m 0,6 –r 0,95 –c 1; wtcns –m 0,6. (c) Die Contigs wurden dreimal mit ONT-Lesevorgängen von racon67 v1.3.3 und einmal von medaka v0.7.1 (https://github.com/nanoporetech/medaka) korrigiert. In diesem Schritt wurde minimap268 v2.17 verwendet, um ONT-Lesevorgänge den Contigs zuzuordnen, und Racon wurde verwendet, um Contigs zu korrigieren und Konsenssequenzen zu generieren. Die endgültige Korrektur wurde mit dem Medaka-Programm durchgeführt. (d) Die Software pilon69 v1.23 wurde verwendet, um die korrigierten Contigs zu polieren. In diesem Schritt wurden NGS-Lesevorgänge mithilfe von BWA mem auf korrigierte Contigs abgebildet, und Pilon wurde zum Polieren mit den folgenden Parametern verwendet: – feste Basen – Mindesttiefe 20 – ausführlich – diploid. Für diesen Schritt haben wir nur Lesevorgänge mit einer Zuordnungsqualität über 20 verwendet. (e) Wenn das zusammengesetzte Genom die geschätzte Größe der Genomuntersuchung um > 5 % überstieg, führten wir eine Redundanz mit Purge Haplotigs70 v1.0.0 durch. (f) Um Genome auf Chromosomenebene zu erhalten, haben wir RagTag71 v1.0.0 verwendet, um die Contigs mit den korrigierten ONT-Reads zu korrigieren und an den Chromosomen des Referenzgenoms zu verankern. Schließlich haben wir NGS-Reads dem zusammengesetzten Genom zugeordnet und die Genomabdeckung und das Kartierungsverhältnis bewertet (unter Verwendung aller kartierten Reads). Wir haben auch Benchmarking Universal Single-copy Orthologes (BUSCO v 5.2.1) verwendet, um die Integrität des zusammengesetzten Genoms (einschließlich vollständiger Einzelkopie-, duplizierter und fragmentierter BUSCOs) mithilfe von Insecta_odb1072 abzuschätzen.

Für die Annotation repetitiver Elemente wurden einfache Sequenzwiederholungen durch GMATA73 v2.2 identifiziert. Tandem-Wiederholungen (TRs) wurden mit dem Tandem Repeats Finder (TRF)74 v4.09 identifiziert. Anschließend verwendeten wir Ab-initio-, Struktur- und Homologie-basierte Methoden, um TEs zu kommentieren. Kurz gesagt, MITE-Hunter75 v2 (https://github.com/Adamtaranto/MITE_Hunter_2) wurde verwendet, um Miniatur-Inverted-Repeat-Transponable-Elemente (MITEs) zu durchsuchen. LTR_finder76 v1.07, GenomeTools v1.5.9 LTR_harverst77 und LTR_retriver78 v2.9.0 wurden verwendet, um Retrotransposons mit langer terminaler Wiederholung (LTR) zu identifizieren. Wir führten eine De-novo-Suche durch, um Wiederholungen mit RepeatModeler v2.0.1 (http://www.repeatmasker.org/RepeatModeler/) zu identifizieren, und klassifizierten die Wiederholungen mithilfe von TEclass79 v2.1.3c in TEs-Superfamilien. Schließlich wurden alle TEs in einer Wiederholungsbibliothek zusammengeführt, die von RepeatMasker v4.1.1 (http://repeatmasker.org/) zum Annotieren und Maskieren von Sequenzen im Genom verwendet wurde.

Drei Ansätze, darunter Ab-initio-Vorhersage, homologiebasierte Vorhersage und transkriptombasierte Assemblierung, wurden verwendet, um die Genstruktur in 100 Genomen vorherzusagen, darunter 14 wilde, 41 lokale, 15 verbesserte und 30 genetische Bestände. Für eine homologiebasierte Vorhersage wurde GeMoMa80 v1.6.10 verwendet, um die Proteinsequenzen der Referenzseidenraupe Drosophila melanogaster, Apis mellifera und Danaus plexippus an die neu zusammengesetzten Seidenraupengenome anzupassen. Für die transkriptombasierte Assemblierung wurde STAR81 v2.7.3a verwendet, um die mRNA-Sequenzierungsablesungen von 56 RNA-Proben, 15 Stämmen und 7 Geweben (CNGB BioProject ID: CNP0001815, NCBI-Projekt-ID: PRJNA262539, PRJNA264587, PRJNA407019) auf die zu kartieren Neu zusammengesetzte Genome, stringtie82 v2.1.4 wurde zur Durchführung der RNA-Assemblierung und PASA v2.3.383 zur Vorhersage offener Leserahmen (ORFs) verwendet. Augustus84 v3.4.0 mit Standardparametern wurde verwendet, um eine Ab-initio-Genvorhersage basierend auf dem von PASA erhaltenen Trainingssatz durchzuführen. Schließlich wurde EVidenceModeler85 v1.1.1 (EVM) verwendet, um einen integrierten Gensatz zu erstellen.

Für jedes Genom wurden Informationen über Genfunktionen, Motive und Domänen durch Homologiesuchen in öffentlichen Datenbanken erhalten, darunter Swiss-Prot, nicht-redundante (NR) NCBI-Proteine, Kyoto Encyclopedia of Genes and Genomes (KEGG) und Eukaryotic Orthologous Groups (KOG). ) und Genontologie (GO). Die GO-Begriffe der Gene wurden mit dem Programm InterProScan86 v5.41-82.0 mit Standardparametern identifiziert. Für die anderen vier Annotationen wurden die Proteine ​​jedes Genoms als Abfragen in BLAST+87 v2.9.0 BLASTP-Suchen (e-Wert <1e-5) in den Datenbanken Swiss-Prot, NR, KEGG und KOG verwendet.

Für die Annotation von nicht-kodierender RNA (ncRNA) wurde tRNAscan-SE88 v2.0 zur Identifizierung von Transfer-RNAs (tRNAs) und Infernal89 v1.1.3 cmscan zur Identifizierung von microRNAs und kleinen Kern-RNAs (snRNAs) durch Suche gegen die verwendet Rfam-Datenbank (http://rfam.xfam.org/). Anschließend wurde RNAmmer90 v1.2 zur Identifizierung von rRNAs verwendet.

OrthoFinder91 v2.3.7 mit Standardparametern wurde verwendet, um alle Gene der 100 zusammengesetzten Genome in orthologe Gruppen zu gruppieren, die in Kern-, Softcore-, entbehrliche und private Gene eingeteilt wurden.

Bei ONT-Reads zeigte der SV-Aufruf basierend auf den Assemblierungs- und Read-Mapping-Ansätzen eine Überlappung von durchschnittlich 90 % in den Genomen von Tomaten7. In dieser Studie wurde eine ähnliche Pipeline verwendet, um strukturelle Variationen für sequenzierte Proben mit langer Lesezeit zu identifizieren. Zunächst wurden die ONT-Reads jeder Probe mithilfe von NGMLR92 v0.2.7 mit dem Referenzgenom abgeglichen. Dann wurde Sniffles92 v1.0.11 zum Aufrufen von SVs verwendet. Um potenziell falsche SVs zu filtern, haben wir zunächst Regionen des Referenzgenoms identifiziert, die dazu neigen, falsche SV-Aufrufe zu erzeugen. Um diese Regionen zu identifizieren, wurde SURVIVOR93 v1.0.3 verwendet, um ONT-Reads (~100-fache Genomabdeckung) aus dem Referenzgenom zu simulieren, und Sniffles92 wurde zum Aufrufen von SVs verwendet. Insgesamt wurden 10 Simulationen durchgeführt und die 10 VCF-Dateien mit strukturellen Variationen wurden von SURVIVOR93 zusammengeführt (Mindestabstand = 1 kb, gleicher SV-Typ und minimale SV-Länge = 50 bp). Die SVs, die sich in diesen fehleranfälligen Regionen und ihren 2,5 kb großen flankierenden Regionen befinden, wurden gefiltert. SVs, die größer als 100 kb sind oder einen „0/0“-Genotyp haben, wurden ebenfalls entfernt. Alle SVs der 545 Genome wurden mit Jasmine v1.0.1 zusammengeführt (min_support = 1, max_dist = 500, k_jaccard = 9, min_seq_id = 0,25, spec_len = 30, –run_iris).

Um die Qualität der identifizierten SVs zu bestätigen, haben wir zunächst die gemeldeten SVs in unseren sequenzierten Stämmen überprüft und gezählt, wie viele SVs genau identifiziert werden konnten. Als nächstes untersuchten wir 50 PAVs in den Stämmen mit und ohne SV durch PCR, wobei Primerpaare jedes SV flankierten, gefolgt von einer Agarosegelelektrophorese. Schließlich haben wir die Short Reads jedes Long Read-Sequenzierungsstamms dem Pan-Genom zugeordnet und die Präzision, den Recall und den F1-Score geschätzt.

Um Wiederholungselemente von SV-Sequenzen zu identifizieren, wurde die aus unseren 100 de novo zusammengesetzten Genomen erstellte Wiederholungsbibliothek verwendet, um Sequenzen in SVs mithilfe von RepeatMasker v4.1.1 (http://repeatmasker.org/) mit RMBlast v2.9.0-p2 zu kommentieren und zu maskieren (http://repeatmasker.org/RMBlast.html). Die Positionsbeziehung zwischen SVs und Genen wurde mit Vcfanno94 v0.3.2 annotiert.

Kurven, die die Pan-Gen-Anzahl beschreiben, wurden gemäß früheren Studien an die nls-Funktion in R angepasst95,96,97. Die Pan-Gen-Anzahl wurde mithilfe des Modells y = A + BeCx geschätzt. Um die Anzahl der Pan-Gene in Gruppen mit einer unterschiedlichen Anzahl von Genomen zu bewerten, haben wir zunächst 10 repräsentative Genome basierend auf phylogenetischen Beziehungen ausgewählt (ergänzende Abbildung 1a), um eine Analyse der Anzahl der Pan-Gene durchzuführen. Anschließend wurden in den folgenden Regressionsanalysen schrittweise 10 Genome auf bis zu 100 Genome addiert. Insgesamt wurden 10 Regressionsanalysen durchgeführt. Von der Regression von 10 Proben bis zur Regression von 100 Proben nimmt die Zunahme der Genzahl allmählich ab und lag schließlich nahe bei Null. Die an das Pan-Gen-Inkrement angepasste Kurve jeder zusätzlichen Probe wurde ebenfalls gezeichnet (Abb. 3g, ergänzende Abb. 1c).

Das lineare Referenzgenom und alle PAVs der 545 Long-Read-Sequenzierungsgenome wurden verwendet, um über Vg Toolkit98 v1.30.0 ein graphbasiertes Genom zu erstellen. Basierend auf diesem graphbasierten Genom verwendeten wir dann die Vg-Toolkit-Pipeline unter Berücksichtigung der neuartigen Varianten (unter Verwendung des erweiterten Graphen und des Gam), um SVs in allen 537 Proben aufzurufen, die nur mithilfe der NGS-Technologie sequenziert wurden.

Die RNA-Sequenzierungsdaten jeder Probe wurden mit Bowtie299 v2.4.2 auf das Referenzgenom abgebildet. Die Gen-Read-Zählungen wurden mit RSEM100 v1.3.3 berechnet und die Genexpression wurde mit der Anzahl der Fragmente pro Kilobase pro Million Basen (FPKM) normalisiert. Wir führten qPCR mit einem Hieff® qPCR SYBR Green Master Mix (Yeasen) Reaktionssystem auf dem qTOWER3G-System (Analytik Jena) durch. Die in der qRT-PCR verwendeten Primer sind in den Zusatzdaten 9 aufgeführt.

Der Einfluss von SVs auf die Genexpression wurde mit dem vorherigen Ansatz8 untersucht. Kurz gesagt, jedes SV-Genpaar wurde durch den Abstand (<5 kb) zwischen SV und dem zugehörigen Gen definiert. Wir haben diese SV-Genpaare gefiltert, um die Paare beizubehalten, bei denen in mindestens drei der 14 Proben mit RNA-seq-Daten ein SV vorhanden und in mindestens drei nicht vorhanden war. Für jedes SV-Genpaar wurden die Proben nach dem Vorhandensein oder Fehlen von SV-Gruppen klassifiziert. Die differentiellen Expressionsgene zwischen den beiden Gruppen wurden mithilfe eines Schüler-t-Tests verglichen und die p-Werte wurden einer FDR-Korrektur mithilfe des Benjamini-Hochberg-Verfahrens unterzogen.

Die Häufigkeit jedes SV zwischen den Gruppen wurde mithilfe des exakten Fisher-Tests verglichen. Die korrigierten p-Werte (FDR) wurden nach dem Benjamini-Hochberg-Verfahren berechnet. Die SVs mit signifikant unterschiedlichen Häufigkeiten (FDR < 0,0001, fache Änderung >2) in wild-lokalen oder lokal-verbesserten Vergleichen wurden als domestizierungs- oder verbesserungsassoziierte SVs definiert.

Für den Gen-Knockout wurden Guide-RNAs mit CRISPRdirect101 v140413 entworfen und in BGI (China) synthetisiert. Das Cas9-Protein wurde von Invitrogen bezogen. Anschließend wurde die Mischung aus Cas9-Protein (0,5–0,8 ng) und Guide-RNA (5–8 ng) durch Mikroinjektion in frisch gelegte Eier injiziert.

Der transgene Vektor piggyBac [3×P3-EGFP, Fib-H-BmE2F1-SV40] wurde konstruiert, um das BmE2F1-Gen in der Seidendrüse zu überexprimieren. Dem Vektor wurde das Helferplasmid pHA3PIG, das die piggyBac-Transposasesequenz und den B. mori-Aktin-3-Promotor102 enthielt, durch Mikroinjektion in neu gelegte Eier injiziert.

Für die RNA-Interferenz wurden in BGI (China) kurze interferierende RNAs entworfen und synthetisiert. Die siRNAs (250 µM, 0,5–0,75 µl/Individuum) wurden in die linke Seite des Intersegments zwischen dem 7. und 8. Segment der Larven im 3. Stadium injiziert. Dann wurde leitfähiges Gel an der Injektionsstelle (links, Pluspol) und der Kontrollstelle (rechts, Minuspol) platziert und eine elektrische Spannung von 15 V angelegt103. Die in dieser Studie verwendeten Sequenzen von sgRNA und siRNA sind in den Zusatzdaten 9 aufgeführt.

Kokons wurden zu einzelnen Seidenfasern aufgewickelt. Die Länge und das Gewicht der Seidenfasern wurden gemessen. Anschließend haben wir die Feinheit (F, dtex) jedes Kokons anhand der Formel berechnet:

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Rohdaten der in dieser Studie verwendeten Long-Read-Sequenzierung und Short-Read-Sequenzierung (einschließlich RNA-Sequenzierung und Gesamtgenomsequenzierung) wurden im CNGB Nucleotide Sequence Archive (CNSA) der China National GeneBank DataBase (CNGBdb, https: //db.cngb.org) mit der BioProject-ID CNP0001815 und auch im Genome Sequence Archive (https://ngdc.cncb.ac.cn/gsa/) mit der Zugangsnummer CRA007878. Alle 545 Genomassemblierungen, 100 Genomanmerkungen (gff-Dateien), Pan-Genom- und VCF-Dateien (SNP, SV) wurden auch in der CNGBdb mit der BioProject-ID CNP0002456 hinterlegt. Diese Studie analysierte auch Daten für vier freigesetzte wilde Seidenraupengenome, die in der Sequence Read Archive (SRA)-Datenbank gemäß den Zugangsnummern DRX054041, DRX054040, ERS402904, ERS402902 verfügbar sind. Alle phänotypischen Daten sind in der achten Spalte der Zusatzdaten 1 aufgeführt. Quelldaten werden diesem Dokument beigefügt.

Die in unserer Studie verwendeten bioinformatischen Tools sind alle veröffentlicht oder öffentlich verfügbar und werden im Abschnitt „Methoden“ beschrieben.

Sudmant, PH et al. Eine integrierte Karte der strukturellen Variation in 2.504 menschlichen Genomen. Natur 526, 75–81 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Bayer, PE, Golicz, AA, Scheben, A., Batley, J. & Edwards, D. Pflanzen-Pangenome sind die neue Referenz. Nat. Pflanzen 6, 914–920 (2020).

Artikel PubMed Google Scholar

Collins, RL et al. Eine Referenz zu strukturellen Variationen für die Medizin- und Populationsgenetik. Natur 581, 444–451 (2020).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Sherman, RM & Salzberg, SL Pangenomik im Zeitalter des menschlichen Genoms. Nat. Rev. Genet. 21, 243–254 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Tao, Y., Jordan, DR & Mace, ES Ein graphbasiertes Pangenom leitet die biologische Entdeckung. Mol. Werk 13, 1247–1249 (2020).

Artikel CAS PubMed Google Scholar

Golicz, AA, Bayer, PE, Bhalla, PL, Batley, J. & Edwards, D. Pangenomics wird erwachsen: von Bakterien bis hin zu pflanzlichen und tierischen Anwendungen. Trends Genet. 36, 132–145 (2020).

Artikel CAS PubMed Google Scholar

Liu, Y. et al. Pangenom wilder und kultivierter Sojabohnen. Zelle 182, 162–176 e113 (2020).

Artikel CAS PubMed Google Scholar

Alonge, M. et al. Wesentliche Auswirkungen weit verbreiteter struktureller Variation auf die Genexpression und die Ernteverbesserung bei Tomaten. Zelle 182, 145–161 e123 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Qin, P. et al. Pangenomanalyse von 33 genetisch vielfältigen Reisakzessionen deckt verborgene genomische Variationen auf. Zelle 184, 3542–3558 e3516 (2021).

Artikel CAS PubMed Google Scholar

Sun, X. et al. Phasenweise diploide Genomassemblierungen und Pangenome liefern Einblicke in die genetische Geschichte der Apfeldomestizierung. Nat. Genet. 52, 1423–1432 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Song, JM et al. Acht hochwertige Genome enthüllen die Pan-Genom-Architektur und die Ökotyp-Differenzierung von Brassica napus. Nat. Pflanzen 6, 34–45 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Chakraborty, M., Emerson, JJ, Macdonald, SJ & Long, AD Strukturvarianten weisen eine weit verbreitete allelische Heterogenität und Formvariation in komplexen Merkmalen auf. Nat. Komm. 10, 4872 (2019).

Artikel ADS PubMed PubMed Central Google Scholar

Kim, BY, et al. Stark zusammenhängende Ansammlungen von 101 Drosophilid-Genomen. Elife 10, e66405 (2021).

Ruggieri AA, et al. Ein Schmetterlings-Pangenom zeigt eine große Menge an strukturellen Variationen, die der Entwicklung der Zugänglichkeit von Chromatin zugrunde liegen. https://www.biorxiv.org/content/10.1101/2022.04.14.488334v1 (2022).

Audano, PA et al. Charakterisierung der wichtigsten strukturellen Allelevarianten des menschlichen Genoms. Zelle 176, 663–675 e619 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Wu, ZK, et al. Strukturelle Varianten in der chinesischen Bevölkerung und ihre Auswirkungen auf Phänotypen, Krankheiten und Populationsanpassung. Nat. Komm. 12, 6501 (2021).

Underhill AP Aktuelle Probleme der chinesischen neolithischen Archäologie. J. World Prehistory 11, 103–160 (1997).

Mita, K. et al. Die Genomsequenz der Seidenraupe Bombyx mori. DNA-Res. 11, 27–35 (2004).

Artikel CAS PubMed Google Scholar

Xia, Q. et al. Ein Sequenzentwurf für das Genom der domestizierten Seidenraupe (Bombyx mori). Wissenschaft 306, 1937–1940 (2004).

Artikel ADS PubMed Google Scholar

International Silkworm Genome, C. Das Genom eines Lepidopteren-Modellinsekts, der Seidenraupe Bombyx mori. Insektenbiochemie. Mol. Biol. 38, 1036–1045 (2008).

Artikel Google Scholar

Kawamoto, M. et al. Hochwertige Genomassemblierung der Seidenraupe Bombyx mori. Insektenbiochemie. Mol. Biol. 107, 53–62 (2019).

Artikel CAS PubMed Google Scholar

Xiang, H. et al. Der evolutionäre Weg von der wilden Motte zur heimischen Seidenraupe. Nat. Ökologisch. Entwicklung 2, 1268–1279 (2018).

Artikel PubMed Google Scholar

Zhao, Q., Han, MJ, Sun, W. & Zhang, Z. Variationen der Kopierzahl bei Seidenraupen. BMC Genomics 15, 251 (2014).

Artikel PubMed PubMed Central Google Scholar

Kawamoto M., Kiuchi T., Katsuma S. SilkBase: eine integrierte transkriptomische und genomische Datenbank für Bombyx mori und verwandte Arten. Datenbank (Oxford) 2022, baac040 (2022).

Jiang, YL Analyse der halben Kokonhülle, die im Dorf Xiyin ausgegraben wurde. Acta Sericologica Sin. 8, 39–40 (1982).

Google Scholar

Goldsmith, MR, Shimada, T. & Abe, H. Die Genetik und Genomik der Seidenraupe Bombyx mori. Annu. Rev. Entomol. 50, 71–100 (2005).

Artikel CAS PubMed Google Scholar

Li, B. & Shen, W. Fortschritte bei den Ursprüngen von Bombyx mori und Bombyx mandarina. Zhongguo Canye 2, 11–23 (2008).

CAS Google Scholar

Duan, TJ et al. Die Ernte der Ausgrabungen in Ruinen aus der Jungsteinzeit in Shicun, Kreis Xia, Provinz Shanxi im Zeitraum 2019–2020. Weltantike 2, 2–7 (2021). (Auf Chinesisch).

Google Scholar

Sakudoh, T. et al. Die Carotinoid-Seidenfärbung wird durch ein Carotinoid-bindendes Protein gesteuert, ein Produkt des Gens für gelbes Blut. Proz. Natl. Acad. Wissenschaft. USA 104, 8941–8946 (2007).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Ito, K. et al. Yellow-e bestimmt das Farbmuster der Kopf- und Schwanzflecken der Larven der Seidenraupe Bombyx mori. J. Biol. Chem. 285, 5624–5629 (2010).

Artikel CAS PubMed Google Scholar

Liu, C. et al. Die Unterdrückung der Tyrosinhydroxylase ist für die geschlechtsgebundene Schokoladenmutation der Seidenraupe Bombyx mori verantwortlich. Proz. Natl. Acad. Wissenschaft. USA 107, 12980–12985 (2010).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Fujii, T., Abe, H., Katsuma, S. & Shimada, T. Identifizierung und Charakterisierung des Fusionstranskripts, bestehend aus dem apterösen Homologen und einem mutmaßlichen Proteinphosphatase-Gen, erzeugt durch interstitielle Deletion von 1,5 MB im Rest ( Vg) Mutante von Bombyx mori. Insektenbiochemie. Mol. Biol. 41, 306–312 (2011).

Artikel CAS PubMed Google Scholar

Sakudoh, T. et al. Die Divergenz der CD36-Homologen ist für die Selektivität der Migration der Carotinoidspezies zur Seidendrüse der Seidenraupe Bombyx mori verantwortlich. J. Lipid Res. 54, 482–495 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Dai, F. et al. Aspartatdecarboxylase ist für ein normales Puppenpigmentierungsmuster bei der Seidenraupe Bombyx mori erforderlich. Wissenschaft. Rep. 5, 10885 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Fujii, T., Abe, H., Kawamoto, M., Banno, Y. & Shimada, T. Positionsklonen des geschlechtsgebundenen Riesenei (Ge)-Locus in der Seidenraupe Bombyx mori. Insektenmol. Biol. 24, 213–221 (2015).

Artikel CAS PubMed Google Scholar

Tong, X. et al. Ein neuartiges Laminin-Beta-Gen BmLanB1-w reguliert die flügelspezifische Zelladhäsion in der Seidenraupe Bombyx mori. Wissenschaft. Rep. 5, 12562 (2015).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Daimon, T. et al. Die Anzahl der Larvenhäutungen wird bei Raupen durch den Hox kontrolliert. Curr. Biol. 31, 884–891 e883 (2021).

Artikel CAS PubMed Google Scholar

Long, E., Evans, C., Chaston, J. & Udall, JA Genomische Strukturvariationen innerhalb von fünf kontinentalen Populationen von Drosophila melanogaster. G3-Gene Genom. Genet. 8, 3247–3253 (2018).

CAS Google Scholar

Rahman, R. et al. Einzigartige Transposonlandschaften sind in allen Genomen von Drosophila melanogaster allgegenwärtig. Nukleinsäuren Res. 43, 10655–10672 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Mills, RE, Bennett, EA, Iskow, RC & Devine, SE Welche transponierbaren Elemente sind im menschlichen Genom aktiv? Trends Genet. 23, 183–191 (2007).

Artikel CAS PubMed Google Scholar

Xia, Q. et al. Die vollständige Neusequenzierung von 40 Genomen enthüllt Domestikationsereignisse und Gene bei der Seidenraupe (Bombyx). Wissenschaft 326, 433–436 (2009).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Zhu, Z., Guan, Z., Liu, G., Wang, Y. & Zhang, Z. SGID: eine umfassende und interaktive Datenbank der Seidenraupe. Datenbank (Oxford) 2019, baz134 (2019).

Guo, N. et al. Strukturanalyse der Spinndüse von Bombyx mori und ihr Einfluss auf die Seidenqualitäten. Int. J. Biol. Makromol. 126, 1282–1287 (2019).

Artikel CAS PubMed Google Scholar

Nijhout, HF Insektenhormone. (Princeton University Press, Princeton, 1994).

Hasegawa, K. Diapausehormon der Seidenraupe, Bombyx-mori. Natur 179, 1300–1301 (1957).

Artikel ADS CAS Google Scholar

Fujio, K. Nicht-mütterliche Vererbung bei Voltinismus, beobachtet in Kreuzungsexperimenten zwischen indonesischen polyvoltinen und japanischen bivoltinischen Seidenraupenrassen, Bombyx mori LJ Sericult. Wissenschaft. Jpn. 37, 453–461 (1968).

Google Scholar

Yamamoto, T., Gamo, T. & Hirobe, T. Genetische Studien der pigmentierten und nicht-diapausenartigen Eimutante in Bombyx mori. J. Sericult. Wissenschaft. Jpn. 47, 181–185 (1978).

Google Scholar

Haruyuki, S., Kumiko, M. & Hiroo, N. Studien zur embryonalen Diapause in der pnd-Mutante der Seidenraupe, Bombyx mori: Genetische Kontrolle der Embryogenese. J. Insect Physiol. 32, 215–220 (1986).

Artikel Google Scholar

Banno, Y. Ein Leitfaden zu den Seidenraupenmutanten 2005 – Genname und Gensymbol. (Silkwork Genetics Division, Institut für genetische Ressourcen, Kyushu-Universität, Kyushu, Japan; 2005).

Toshio, O. & Okitsugu, Y. Veränderungen des Glukose- und Fruktosegehalts während der Embryonalentwicklung der Seidenraupe Bombyx mori. J. Sericult. Wissenschaft. Jpn. 50, 190–196 (1981).

Google Scholar

Sherratt, TN & Beatty, CD Die Entwicklung von Warnsignalen als zuverlässige Indikatoren der Beuteabwehr. Bin. Nat. 162, 377–389 (2003).

Artikel PubMed Google Scholar

Prudic, KL, Oliver, JC & Sperling, FAH Die Signalumgebung ist für die Entwicklung der Warnfärbung wichtiger als die Ernährung oder die chemische Spezialisierung. Proz. Natl Acad. Wissenschaft. USA 104, 19381–19386 (2007).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Yamaguchi, J., et al. Die periodische Wnt1-Expression als Reaktion auf Ecdysteroid erzeugt Doppelpunktmarkierungen auf Raupen. Nat. Komm. 4, 1857 (2013).

Chen, Y. et al. SOAPnuke: eine durch MapReduce-Beschleunigung unterstützte Software zur integrierten Qualitätskontrolle und Vorverarbeitung von Hochdurchsatz-Sequenzierungsdaten. Gigascience 7, 1–6 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Li, H. & Durbin, R. Schnelle und genaue Ausrichtung kurzer Lesevorgänge mit der Burrows-Wheeler-Transformation. Bioinformatik 25, 1754–1760 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Li, H. et al. Das Sequenzausrichtungs-/Kartenformat und SAMtools. Bioinformatik 25, 2078–2079 (2009).

Artikel PubMed PubMed Central Google Scholar

McKenna, A. et al. Das Genome Analysis Toolkit: ein MapReduce-Framework zur Analyse von DNA-Sequenzierungsdaten der nächsten Generation. Genomres. 20, 1297–1303 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Chang, CC et al. PLINK der zweiten Generation: Sich der Herausforderung größerer und umfangreicherer Datensätze stellen. Gigascience 4, 7 (2015).

Artikel PubMed PubMed Central Google Scholar

Yang, J., Lee, SH, Goddard, ME & Visscher, PM GCTA: ein Werkzeug für die genomweite Analyse komplexer Merkmale. Bin. J. Hum. Genet. 88, 76–82 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Tajima, F. Statistische Methode zum Testen der neutralen Mutationshypothese durch DNA-Polymorphismus. Genetics 123, 585–595 (1989).

Artikel CAS PubMed PubMed Central Google Scholar

Hudson, RR, Slatkin, M. & Maddison, WP Schätzung des Genflussniveaus anhand von DNA-Sequenzdaten. Genetics 132, 583–589 (1992).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, H., Patterson, N. & Reich, D. Populationsdifferenzierung als Test für selektive Sweeps. Genomres. 20, 393–402 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Marcais, G. & Kingsford, C. Ein schneller, sperrenfreier Ansatz für die effiziente parallele Zählung des Vorkommens von k-meren. Bioinformatik 27, 764–770 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Vurture, GW et al. GenomeScope: schnelle referenzfreie Genomprofilierung aus kurzen Lesevorgängen. Bioinformatik 33, 2202–2204 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Koren, S. et al. Canu: Skalierbare und genaue Long-Read-Assemblierung durch adaptive K-Mer-Gewichtung und Wiederholungstrennung. Genomres. 27, 722–736 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Liu, HL, Wu, SG, Li, AL & Ruan, J. SMARTdenovo: ein De-novo-Assembler, der lange, verrauschte Lesevorgänge verwendet. Gigabyte 1, 2021 (2021).

Google Scholar

Vaser, R., Sovic, I., Nagarajan, N. & Sikic, M. Schnelle und genaue De-novo-Genomassemblierung aus langen, unkorrigierten Lesevorgängen. Genomres. 27, 737–746 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Li, H. Minimap2: Paarweise Ausrichtung für Nukleotidsequenzen. Bioinformatik 34, 3094–3100 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Walker, BJ et al. Pilon: ein integriertes Tool zur umfassenden Erkennung mikrobieller Varianten und zur Verbesserung der Genomassemblierung. PloS ONE 9, e112963 (2014).

Artikel ADS PubMed PubMed Central Google Scholar

Roach, MJ, Schmidt, SA & Borneman, AR Purge Haplotigs: Allel-Contig-Neuzuordnung für diploide Genomassemblierungen der dritten Generation. BMC Bioinformatics 19, 460 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Alonge, M. et al. RaGOO: schnelles und genaues referenzgesteuertes Gerüst von Entwurfsgenomen. Genombiol. 20, 224 (2019).

Artikel PubMed PubMed Central Google Scholar

Simao, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV & Zdobnov, EM BUSCO: Bewertung der Genomassemblierung und Annotationsvollständigkeit mit Einzelkopie-Orthologen. Bioinformatik 31, 3210–3212 (2015).

Artikel CAS PubMed Google Scholar

Wang, X. & Wang, L. GMATA: Ein integriertes Softwarepaket für SSR-Mining, Markerentwicklung und -anzeige im Genommaßstab. Vorderseite. Pflanzenwissenschaft. 7, 1350 (2016).

PubMed PubMed Central Google Scholar

Benson, G. Tandem Repeats Finder: ein Programm zur Analyse von DNA-Sequenzen. Nukleinsäuren Res. 27, 573–580 (1999).

Artikel CAS PubMed PubMed Central Google Scholar

Han, Y. & Wessler, SR MITE-Hunter: ein Programm zur Entdeckung transponierbarer Miniatur-Inverted-Repeat-Elemente aus Genomsequenzen. Nukleinsäuren Res. 38, e199 (2010).

Artikel PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER: ein effizientes Werkzeug zur Vorhersage von LTR-Retrotransposons voller Länge. Nukleinsäuren Res. 35, W265–W268 (2007).

Artikel PubMed PubMed Central Google Scholar

Ellinghaus, D., Kurtz, S. & Willhoeft, U. LTRharvest, eine effiziente und flexible Software zur De-novo-Erkennung von LTR-Retrotransposons. BMC Bioinformatics 9, 18 (2008).

Artikel PubMed PubMed Central Google Scholar

Ou, S. & Jiang, N. LTR_retriever: ein hochpräzises und empfindliches Programm zur Identifizierung langer terminaler Wiederholungs-Retrotransposons. Pflanzenphysiologie. 176, 1410–1422 (2018).

Artikel CAS PubMed Google Scholar

Abrusan, G., Grundmann, N., DeMester, L. & Makalowski, W. TEclass – ein Tool zur automatisierten Klassifizierung unbekannter eukaryontischer transponierbarer Elemente. Bioinformatik 25, 1329–1330 (2009).

Artikel CAS PubMed Google Scholar

Keilwagen, J., Hartung, F., Paulini, M., Twardziok, SO & Grau, J. Kombination von RNA-seq-Daten und homologiebasierter Genvorhersage für Pflanzen, Tiere und Pilze. BMC Bioinformatics 19, 189 (2018).

Artikel PubMed PubMed Central Google Scholar

Dobin, A. et al. STAR: ultraschneller universeller RNA-seq-Aligner. Bioinformatik 29, 15–21 (2013).

Artikel CAS PubMed Google Scholar

Kovaka, S. et al. Transkriptomassemblierung aus Long-Read-RNA-Seq-Alignments mit StringTie2. Genombiol. 20, 278 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Haas, BJ et al. Verbesserung der Annotation des Arabidopsis-Genoms mithilfe maximaler Transkript-Alignment-Assemblys. Nukleinsäuren Res. 31, 5654–5666 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Stanke, M., Diekhans, M., Baertsch, R. & Haussler, D. Verwendung nativer und syntenisch kartierter cDNA-Alignments zur Verbesserung der De-novo-Gensuche. Bioinformatik 24, 637–644 (2008).

Artikel CAS PubMed Google Scholar

Haas, BJ et al. Automatisierte Annotation der eukaryotischen Genstruktur mit EVidenceModeler und dem Programm zum Zusammenstellen gespleißter Alignments. Genombiol. 9, R7 (2008).

Artikel PubMed PubMed Central Google Scholar

Jones, P. et al. InterProScan 5: Proteinfunktionsklassifizierung im Genommaßstab. Bioinformatik 30, 1236–1240 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Camacho, C. et al. BLAST+: Architektur und Anwendungen. BMC Bioinformatics 10, 421 (2009).

Artikel PubMed PubMed Central Google Scholar

Chan, PP & Lowe, TM tRNAscan-SE: Suche nach tRNA-Genen in Genomsequenzen. Methoden Mol. Biol. 1962, 1–14 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Nawrocki, EP & Eddy, SR Infernal 1.1: 100-fach schnellere Suche nach RNA-Homologien. Bioinformatik 29, 2933–2935 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Lagesen, K. et al. RNAmmer: konsistente und schnelle Annotation ribosomaler RNA-Gene. Nukleinsäuren Res. 35, 3100–3108 (2007).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Emms, DM & Kelly, S. OrthoFinder: Phylogenetische Orthologie-Inferenz für die vergleichende Genomik. Genombiol. 20, 238 (2019).

Artikel PubMed PubMed Central Google Scholar

Sedlazeck, FJ et al. Präzise Erkennung komplexer Strukturvariationen mithilfe der Einzelmolekülsequenzierung. Nat. Methoden 15, 461–468 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Jeffares, DC et al. Vorübergehende Strukturvariationen haben starke Auswirkungen auf quantitative Merkmale und die reproduktive Isolierung in Spalthefe. Nat. Komm. 8, 14061 (2017).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Pedersen, BS, Layer, RM & Quinlan, AR Vcfanno: schnelle, flexible Annotation genetischer Varianten. Genombiol. 17, 118 (2016).

Artikel PubMed PubMed Central Google Scholar

Tettelin, H. et al. Genomanalyse mehrerer pathogener Isolate von Streptococcus agalactiae: Implikationen für das mikrobielle „Pan-Genom“. Proz. Natl Acad. Wissenschaft. USA 102, 13950–13955 (2005).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Mongodin, EF et al. Inter- und intraspezifische Pangenome von Borrelia burgdorferi sensu lato: Genomstabilität und adaptive Strahlung. BMC Genomics 14, 693 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Golicz, AA et al. Das Pangenom einer agronomisch wichtigen Nutzpflanze Brassica oleracea. Nat. Komm. 7, 13390 (2016).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Garrison, E. et al. Das Variationsgraph-Toolkit verbessert die Lesekartierung durch Darstellung der genetischen Variation in der Referenz. Nat. Biotechnologie. 36, 875–879 (2018).

Artikel CAS Google Scholar

Langmead, B. & Salzberg, SL Schnelle Lücken-Lese-Ausrichtung mit Bowtie 2. Nat. Methoden 9, 357–359 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Li B. & Dewey CN RSEM: genaue Transkriptquantifizierung aus RNA-Seq-Daten mit oder ohne Referenzgenom. BMC Bioinformatics 12, 323 (2011).

Naito, Y., Hino, K., Bono, H. & Ui-Tei, K. CRISPRdirect: Software zum Design von CRISPR/Cas-Leit-RNA mit reduzierten Off-Target-Sites. Bioinformatik 31, 1120–1123 (2015).

Artikel CAS PubMed Google Scholar

Tamura, T. et al. Keimbahntransformation der Seidenraupe Bombyx mori L. unter Verwendung eines von piggyBac-Transposons abgeleiteten Vektors. Nat. Biotechnologie. 18, 81–84 (2000).

Artikel CAS PubMed Google Scholar

Ando, ​​T. & Fujiwara, H. Elektroporationsvermittelte somatische Transgenese zur schnellen Funktionsanalyse bei Insekten. Entwicklung 140, 454–458 (2013).

Artikel CAS PubMed Google Scholar

Referenzen herunterladen

Wir danken Chao Su von der Northwest A&F University, Bing Li von der Soochow University, Keping Chen von der Jiangsu University, Yuyin Chen von der Zhejiang University, Weizheng Cui von der Shandong Agriculture University, Chaobin Luo vom Sericulture Institute of Guizhou und Yongqiang Wang von der Zhejiang Academy of Agriculture Science , Wenfu Xiao, Gang Liu und Yian Chen vom Seidenraupenzucht-Forschungsinstitut von Sichuan, Zhanpeng Dong vom Seidenraupenzucht- und Bienenzucht-Forschungsinstitut von Yunnan, Anjie Wang vom Shandong-Institut für Seidenraupenzucht, Tao Fan vom Seidenraupenzucht-Institut von Anhui, Lihui Bi vom Seidenraupenzucht-Institut von Guangxi Zhuang Autonomous Region (GZAR), Fan Wu vom Economy Crops Institute of Hubei, Yuxia Wang vom Shanxi Research Institute of Sericulture und Junwen Ai vom Sericultural Research Institute of Hunan für ihre Hilfe bei der Sammlung von Seidenraupenstämmen. Wir danken auch Desheng Zhang von der Southwest University für die Abbildung „Phänotypische Vielfalt bei Seidenraupen“. Diese Arbeit wurde von der National Natural Science Foundation of China (Nr. 31830094) an FD, (Nr. U20A2058) an XT, (Nr. 32002228) an LingLi Z. und (Nr. 32002229) an XD, China Agriculture Research, unterstützt System von MOF und MARA (Nr. CARS-18-ZJ0102) an FD, Creative Research Group der Natural Science Foundation of Chongqing an FD und High-Level Talents Program der Southwest University (Nr. SWURC2021001) an FD

Diese Autoren trugen gleichermaßen bei: Xiaoling Tong, Min-Jin Han, Kunpeng Lu, Shuaishuai Tai, Shubo Liang, Yucheng Liu.

Staatliches Schlüssellabor für Seidenraupengenombiologie, Institut für Seidenraupenzucht und Systembiologie, Southwest University, Chongqing, 400715, China

Xiaoling Tong, Min-Jin Han, Kunpeng Lu, Shubo Liang, Hai Hu, Jianghong Shen, Chengyu Zhan, Xin Ding, Shuo Liu, Qiang Gao, Bili Zhang, Linli Zhou, Duan Tan, Yajie Yuan, Lulu Liu, Chunlin Li, Yaru Lu, Tingting Gai, Yahui Zhang, Jiangwen Luo, Lu Zheng, Jinghou Lou, Weidong Zuo, Jiangbo Song, Songzhen He, Songyuan Wu, Yunlong Zou, Lei Zhou, Lan Cheng, Yuxia Tang, Guotao Cheng, Lianwei Yuan, Eric Westhof , Cheng Lu, Zhonghuai Xiang und Fangyin Dai

Schlüssellabor für Seidenraupenbiologie und genetische Züchtung, Ministerium für Landwirtschaft und ländliche Angelegenheiten, Hochschule für Seidenraupenzucht, Textil- und Biomassewissenschaften, Southwest University, Chongqing, 400715, China

Xiaoling Tong, Min-Jin Han, Anxing Long, Linli Zhou, Duan Tan, Nangkuo Guo, Weidong Zuo, Songyuan Wu, Yunlong Zou, Lan Cheng, Guotao Cheng und Fangyin Dai

BGI Genomics, BGI-Shenzhen, Shenzhen, 518083, China

Shuaishuai Tai, Yan-Hong Li, Zhangyan Wu, Weiming He, Jiabao Xu, Tao Fu und Ye Yin

Staatliches Schlüssellabor für Pflanzenzell- und Chromosomentechnik, Institut für Genetik und Entwicklungsbiologie, Innovationsakademie für Saatgutdesign, Chinesische Akademie der Wissenschaften, Peking, 100101, China

Yucheng Liu & Zhixi Tian

Chongqing Sericulture Science and Technology Research Institute, Chongqing, 400715, China

Renkui Yang & Ting Lei

Jiangsu Key Laboratory of Sericulture Biology and Biotechnology, School of Biotechnology, Jiangsu University of Science and Technology, Zhenjiang, Jiangsu, 21.2018, China

Heying Qian & Anying Xu

Hochschule für Biowissenschaften und Biotechnologie, Shenyang Agricultural University, Shenyang, Liaoning, 111000, China

Yanqun Liu

Shaanxi Key Laboratory of Sericulture, Ankang University, Ankang, Shaanxi, 710072, China

Yunwu Peng

Institut für Seidenraupenzucht und Verarbeitung landwirtschaftlicher Produkte, Guangdong Academy of Agricultural Sciences, Guangzhou, Guangdong, 510000, China

Yang Xiao

BGI-Shenzhen, Shenzhen, 518083, China

Jian Wang

James D. Watson Institut für Genomwissenschaften, Hangzhou, 310058, China

Jian Wang

Biologische Wissenschaften, National University of Singapore, 14 Science Drive 4, Singapur, 117543, Singapur

Antónia Monteiro

Wissenschaftsabteilung, Yale-NUS College, Singapur, 138614, Singapur

Antónia Monteiro

Architektur und Reaktivität von RNA, Institut für Molekular- und Zellbiologie, UPR9002 CNRS, Universität Straßburg, Straßburg, 67084, Frankreich

Eric Westhof

Universität der Chinesischen Akademie der Wissenschaften, Peking, 100049, China

Zhixi Tian

Fakultät für Ökologie und Umwelt, Northwestern Polytechnical University, Xi'an, Shaanxi, 710072, China

Wen Wang

Kunming Institute of Zoology, Chinesische Akademie der Wissenschaften, Kunming, Yunnan, 650204, China

Wen Wang

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

FD, WW und XT haben das Projekt konzipiert. FD, ZX, WW, ZT und CL haben dieses Projekt entworfen und überwacht. FD, HH, XT, Shubo L., YY, CL, TG, Yahui Z., Jiangwen L., LZ, Jinghou L., WZ, Jiangbo S., SH, SW, Yunlong Z., Lei Z., Linli Z ., LC, YT, GC, LY, RY, HQ, Yanqun L., YP, YX, TL und AX sammelten Proben für die RNA-Sequenzierung und Genomsequenzierung und führten eine phänotypische Analyse durch. MJH, KL, ST, Yucheng L., Shubo L., Jianghong S., AL, CZ, Yanhong L., ZW, WH, JX, TF, Ye.Y. und JW führten Genomassemblierung, SNP-Aufruf und phylogenetische Analyse durch . MJH, KL, Yanhong L., Shubo L., Jianghong S., AL und CZ führten eine Genomannotation und eine Pan-Genom-Analyse durch. FD, WW, XT, MJH, KL, ST, YL, Shubo L., Jianghong S., AL und CZ führten die Analyse genomischer Variationen im Zusammenhang mit komplexen Merkmalen durch. XD, SL, QG, BZ, DT, YY, NG, LL und Yaru L. führten Experimente durch. XT, MJH, KL, Shubo L., Jianghong S., AL, CZ und Yucheng L. interpretierten die Daten und verfassten das Manuskript. FD, WW, ZT, EW und AM haben das Manuskript überarbeitet.

Korrespondenz mit Xiaoling Tong, Cheng Lu, Zhixi Tian, ​​​​Wen Wang, Zhonghuai Xiang oder Fangyin Dai.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Communications dankt Marian Goldsmith, Tianzhu Xiong und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Tong, X., Han, MJ., Lu, K. et al. Hochaufgelöstes Pangenom der Seidenraupe liefert genetische Einblicke in künstliche Selektion und ökologische Anpassung. Nat Commun 13, 5619 (2022). https://doi.org/10.1038/s41467-022-33366-x

Zitat herunterladen

Eingegangen: 25. April 2022

Angenommen: 13. September 2022

Veröffentlicht: 24. September 2022

DOI: https://doi.org/10.1038/s41467-022-33366-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Zeitschrift für Tierwissenschaften und Biotechnologie (2023)

Naturgenetik (2023)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.