PLoS ONE: Kimcellelinje Variation i Cancer-følsomhed gener i et Sund, ancestrally Diverse Kohorte: Konsekvenser for Individuel Genome Sequencing

Abstrakt

Teknologiske fremskridt kombineret med faldende omkostninger bringer hele genomet og hele exome sekventering tættere på rutine klinisk anvendelse. En af de hindringer for den kliniske implementering er det store antal varianter af ukendt betydning. For kræft-modtagelighed gener, er vanskeligheden ved at fortolke den kliniske relevans af de genomiske varianter forstærkes af, at det meste af hvad man ved om disse varianter kommer fra studiet af højt udvalgte befolkningsgrupper, såsom kræftpatienter eller enkeltpersoner med en familie historie af cancer. Den genetiske variation i kendte cancer-modtagelighed gener i den almindelige befolkning er ikke blevet godt karakteriseret til dato. For at løse dette hul, vi profileret den ikke-synonyme genomiske variation i 158 gener kausalt impliceret i carcinogenese ved hjælp af høj kvalitet hele genom-sekvenser fra en ancestrally forskelligartet kohorte af 681 raske personer. Vi fandt, at alle personer bære flere varianter, der kan påvirke kræft modtagelighed, med et gennemsnit på 68 varianter pr person. Af de 2.688 allelvarianter identificeret i kohorte, de fleste er meget sjældne, med 75% findes i kun 1 eller 2 personer i vores befolkning. Allelhyppigheder varierer mellem ancestral grupper, og der er 21 varianter, for hvilke den mindre allel i en population er den vigtigste allel i en anden. Detaljeret analyse af et udvalgt delmængde af 5 klinisk vigtige cancer gener,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, og

PTEN

, fremhæver forskelle mellem germline varianter og rapporteres somatiske mutationer. Datasættet kan tjene en ressource af genetisk variation i kræft-modtagelighed gener i 6 herkomst grupper, et vigtigt grundlag for fortolkningen af ​​kræftrisiko fra personlige genom sekvenser

Henvisning:. Bodian DL, McCutcheon JN, Kothiyal P, Huddleston KC, Iyer RK, Vockley JG et al. (2014) Kimcellelinje Variation i Cancer-følsomhed gener i et Sund, ancestrally Diverse Kohorte: Konsekvenser for Individual Genome Sequencing. PLoS ONE 9 (4): e94554. doi: 10,1371 /journal.pone.0094554

Redaktør: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Italien

Modtaget: September 25, 2013; Accepteret: 17 februar 2014; Udgivet: 11 April, 2014

Copyright: © 2014 Bodian et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne forskning blev finansieret udelukkende af Inova Health System. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. JN McCutcheon øjeblikket ansat af Life Technologies og ikke ejer nogen patenter eller lager i virksomheden. Dette ændrer ikke forfatternes overholdelse PLoS ONE politikker på datadeling og materialer.

Introduktion

Fremskridt i sekventering teknologi og faldende omkostninger gør hele genomet sekventering (WGS) og hele exome sekventering (WES) stadig mere tilgængelig og kan muliggøre overgangen fra forskningsansøgninger og forbrugernes genomics til rutinemæssig klinisk pleje. Imidlertid har bred accept i klinikken primært været hæmmet af begrænsninger i vores nuværende viden om den kliniske relevans af de fundne sekvens variationer.

Inden for cancer er WGS /WES øjeblikket anvendes primært til at identificere somatiske mutationer i tumorer. Kønscellelinie variationer påvirker kræft disposition eller sygdomsprogression typisk identificeres ved målrettet resekventering af gener af interesse såsom

BRCA1

BRCA2

. Som WGS /WES bliver mere udbredt, vil analyse af germlinie variation flytte fra single-gen tilgange til analyser baseret på flere cancer-associerede gener, og den testede population vil udvide fra udsatte personer til den almindelige befolkning.

fortolkningen af ​​disse data kræver en forståelse af variationen i kræftrisiko-associerede gener hos raske individer, hvilket stort set karakteriseret. Det meste viden om kimcellelinje variation i cancer-modtagelighed gener er kommet fra personer, der har en medicinsk grund til at være sekventeret [1], og så ikke er repræsentativt for den almindelige befolkning. Andre oplysninger er kommet fra cellelinjer og dyremodeller end af primære celler patientgrupper [2]. Enkeltpersoner undersøgt primært af europæisk herkomst [1], [3], men begge genom-sekvenser og kræftrisiko varierer mellem herkomst grupper [4]. Desuden har undersøgelser fokuseret på high-penetrans modtagelighed alleler, men kræft er generelt et resultat af den kombinerede effekt af lav til moderat-penetrans risiko alleler og miljømæssige faktorer [5].

Målet med denne undersøgelse er at karakterisere variationen i cancer-modtagelighed gener i en generel population. For at opnå dette mål, vi profileret den ikke-synonyme variation i 158 cancer gener ved hjælp af data fra høj kvalitet hele genom-sekvenser fra en ancestrally forskelligartet kohorte af 681 personer. Vi har også kendetegnet ved detaljeret varianterne i fem gener af særlig klinisk interesse,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, og

PTEN

. Resultaterne kan tjene som reference for variation i de 158 cancer-modtagelighed gener i den almindelige befolkning, og har stor betydning for fortolkningen af ​​kliniske WGS /WES.

Metoder

Etik redegørelse

Personer blev rekrutteret på Inova Fairfax Hospital i løbet af 2011-2012 og indskrevet i Inova Translationel Medicin Institute kliniske undersøgelse med titlen “Molekylær undersøgelse af truende for tidlig fødsel.” Alle undersøgelsens deltagere forudsat skriftligt informeret samtykke til brug af deres genom-sekvenser for forskningsformål. Den “Molekylær Undersøgelse af truende for tidlig fødsel” blev godkendt af Institutional Review Board of Inova Health System og den vestlige Institutional Review Board (# 1.124.761). De rapporterede her analyser var en del af en undersøgelse af den rolle, kræft-modtagelighed gener i ætiologien af ​​truende for tidlig fødsel, et forskningsområde motiveret af lighederne mellem graviditet og malignitet [6], [7].

Deltagere

kohorte for denne analyse består af 681 voksne fra 352 familier, bestående 337 mænd i alderen 18-50 (median 34) og 344 kvinder i alderen 18-44 (median 32). Ingen af ​​individer er første slægtninge, hvilket bekræftes af genomisk analyse. Den fødeland af fagene og deres forældre blev selvrapporterede. Den kohorte er repræsentativ for befolkningen i det nordlige Virginia og af befolkningen fødslen på Inova Fairfax Hospital ved race, etnicitet, og socioøkonomisk status [8]. Ca. en tredjedel af de emner (34% af mændene og 35% af kvinderne) blev inkluderet i undersøgelsen som forældre til en pre-sigt nyfødte, og to tredjedele som fuldbårne kontroller. Ingen signifikant sammenhæng mellem kræft genvarianter og sigt status blev fundet.

selvrapportering spørgeskemaer og hospital medicinske journaler blev gennemgået for kræft status. Tre personer havde en kræftdiagnose inden indskrivning: én mand med nyrekræft, en mand med kræft af ukendt type, og en kvinde med brystkræft. Ingen af ​​deltagerne rapporterede en personlig og familiær disposition tegn på en yderst penetrerende kræft-disponerende germline mutation, nemlig tidlig alder debut og /eller flere berørte familiemedlemmer.

Prøver og sekventering

Hele blodprøver blev indsamlet fra alle fag i BD Vacutainer K2-EDTA-rør. Genomisk DNA-ekstraktion blev udført på den QiaSymphony automatiseret DNA extractor under anvendelse af DNA Midi-kittet (QIAGEN Inc., Valencia, CA). Prøverne blev sendt til Komplet Genomics (Mountain View, CA) for hele genomet sekventering, montage og variant kalder [9], [10]. Sekventering blev udført med DNA nanoball arrayteknologi. Genom sekvenser blev samlet med Komplette Genomics ‘Assembly Pipeline versioner 2.0.0-2.0.3 hjælp af NCBI bygge 37 (hg19) menneskelige genom henvisning samling [11]. Dækning statistik blev beregnet ved hjælp af vægt-sum sekvens dækning dybde. I gennemsnit 70% af hver genom og 80% af hver exome havde 40x dækning. Varianter fra masterVar filer fra alle genomer blev samlet i en enkelt venturekapitalfond v4.1 fil med mkvcf (beta) fra CGA-værktøjer suite, versionen 1.6.0.

Gene anmærkninger blev beregnet med en modificeret udgave af GLU softwarepakke, versionen 1.0b3-prerelease4 [12], ved hjælp af genom-koordinater af exons, udskrifter og kodende områder fra UCSC Genome Browser knownGene tabel [13]. Forudsagte proteinsekvens ændringer blev beregnet ved at oversætte den kodende region af hver transkript og henvisningen. Yderligere kommentarer fra dbSNP 137 [14], COSMIC udgave 65 [15], HGMD Professional 2012,3 (BIOBASE), og PolyPhen-2 [16], [17] blev tilføjet ved hjælp af ANNOVAR værktøjet [18]. PolyPhen-2 scoringer 0,85, mellem 0,85 og 0,15, og. 0,15 blev kodet som “sandsynligvis skadelig”, “muligvis skadelig” og “godartet”, henholdsvis [17]

Kvalitet filtrering

Genotype opkald blev filtreret for pålidelighed ved hjælp af en prædiktiv model uddannet på 341 tilfældigt udvalgte kræft-genvarianter, som blev valideret af Ion Torrent sekventering. Model bygning blev udført med weka-3-6 [19] med standardparametre bortset fra som anført. Attributter blev udvalgt af BestFirst algoritmen fra genotypen kvalitet oplysninger fra Complete Genomics. Filtreringsparametre blev bestemt under anvendelse af J48 beslutningstræet algoritme med 10-fold krydsvalidering. Den resulterende model inkorporerer to typer filtre: en position filter og en genotype filter. Positionen filter udelukker alle varianter på genomiske steder med en samlet takst over kohorte af 80% eller med en gennemsnitlig fraktioneret allel dybde ≤0.295. De genotype filtermasker opkald med et minimum allel dybde ≤11. Baseret på 10-fold krydsvalidering blev fejlprocenter for genotyper passerer disse filtre anslået til at være 1,3% for falsk negative og 2,3% for falske positiver

Gener og varianter

Cancer Gene Census, en kurateret samling af 487 gener med mutationer kausalt impliceret i onkogenese fra prøver primære patient [20], blev hentet fra Sanger center-websted (9/2012). At fokusere på varianter, som kan påvirke kræft modtagelighed skyldes forventede ændringer protein-sekvens, vi udelukkede gener for hvilke årsagssammenhængen til kræft var afvigende udtryk snarere end mutation, udelukkende holder gener opført i Census grundet missense, læserammeforskydning, splejsning, eller nonsense mutationer. Vi inkluderede begge gener med kendte kræft-disponerende germline mutationer, såvel som gener, for hvilke kun somatiske onkogene mutationer i øjeblikket kendte, da kimcellelinje variation i gener med somatiske mutationer kan også påvirke kræft modtagelighed [20]. Loci udeladt eller tvetydigt kortlagt til referencen forsamling blev udelukket, hvilket efterlader 158 gener af interesse.

Varianter er defineret som sekvens forskelle fra referencen, som beregnet af WGS pipeline. En variant blev kategoriseret som læserammeforskydning, nonsens, eller splejse-site forstyrrende, hvis det havde forudsagt effekt på nogen af ​​de annoterede udskrifter forbundet med en kræft-gen. Allelhyppigheder blev beregnet ud fra den kaldte genotyper. Sjældne varianter defineres som varianter med mindre allel frekvens (MAF) 1%, og fælles varianter dem med MAF . 5%

kodning længde af et gen defineres som det samlede antal baser forudsagt skal oversættes i nogen af ​​de tilknyttede udskrifter. Satser for pr-gen variation, repræsenteret som antal varianter pr kilobase (kb), blev beregnet som hældningen af ​​regressionslinjen i antallet af varianter i hvert gen på kodning længde.

Resultater fra pr -genet analyser præsenteres for et sæt af fem centrale gener som eksempler på resultaterne fra alle 158 gener. Disse gener blev udvalgt, da de er velkendte cancer-gener, der kan bære klinisk relevante mutationer. Den 5-gen sæt indeholder både små proteiner med få varianter og store proteiner med mange varianter, og begge tumorsuppressorgener og onkogener.

Tildeling af patogenicitet og tilbagelevering af resultater

Varianter blev klassificeret som patogene, hvis der var: (1) flere primære rapporter om patogenicitet, (2) ingen rapporter med beviser mod patogenicitet, og (3) molekylære data viser en skadelig virkning. Patogene varianter fra undersøgelsens deltagere, der givet samtykke til at vende tilbage af resultater blev bekræftet af Sanger sekventering og derefter indberettes til den tværfaglige tilfældige fund udvalg for evaluering og kommunikation til den enkelte læge for registrering.

Stamtræ mærkning og allel frekvens analyser

iblanding koefficienter blev estimeret for hvert emne med iblanding [21] under anvendelse af proceduren beskrevet af Libiger og Schork [22]. Allel frekvenser for 6 forfædres befolkninger – Afrika, europæiske, Indiansk, East Asian, Central asiatiske og oceaniske – blev beregnet med en reference panel bestående af 16,443 enkelt nukleotid polymorfier (SNP) [22]. For at tildele de personer i vores kohorte subpopulationer blev forsøgspersonerne grupperet på grundlag af deres beregnede iblanding koefficienter. Den herkomst repræsenteret ved hver klynge blev defineret som den geografiske region af selvrapporterede fødeland for størstedelen af ​​individer, med undtagelse af USA. De afrikanske og afrikansk-europæisk klynger adskiller sig ved graden af ​​blanding, med den afrikanske klynge tættere på den afrikanske fædrene befolkning. Herkomst grupper blev defineret kun for klynger med mindst 20 personer for at beregne allel frekvenser i trin på 5% eller mindre for alle genomiske positioner herunder på kønskromosomer. Mindre klynger blev samlet i en “Andet” gruppe, der blev udelukket fra allel frekvens beregninger, da det ikke udgør en afstamning-baserede befolkning. For de øvrige 6 subpopulationer blev statistisk signifikante forskelle i MAF beregnet ved enten chi i anden-test eller Fishers eksakte test. Chi-squared test blev anvendt til varianter, for hvilket alle forventede værdier var 1, og Fishers eksakte test med simuleret p-værdier blev anvendt til alle andre varianter [23]. Varianter, som store allel i en population er den mindre allel i en anden befolkningen er dem, for hvilke minimale frekvens i enhver gruppe er 0,5, den maksimale frekvens er 0,5, og begge værdier er signifikant forskellige fra hinanden og fra 0,5 af ensidet Fishers eksakte test. For alle statistiske test, p-værdier 0,05 blev anset betydelig

Yderligere software og databaser

Statistiske analyser blev udført med R-version 2.15.0 [24].. VCFtools 0.1.10 [25] og Plink udgave 1,07 [26] blev anvendt til at forbehandle variant data til beregning blanding. Protein strukturer blev vist med Jmol [27]. Den ClinVar database versionen 2013-8 [28], et arkiv over relationer mellem variationer findes i patientprøver og fænotyper, blev hørt for rapporter om klinisk betydning. Desuden Breast Cancer Information Core (BIC) (version: 2/20/13) blev undersøgt for kliniske rapporter fra

BRCA1

BRCA2

varianter

. datatilgængelighed

Alle varianter er rapporteret i denne publikation er anført i tabel S1 i File S1 og er blevet deponeret i ClinVar med tal tiltrædelse SCV000083899 – SCV000086586. Forskere interesseret i at dele de genomiske data opfordres til at kontakte den tilsvarende forfatter.

Resultater

Kræft-genvarianter er fremherskende i en almindelige befolkning

At studere den genetiske variation i cancer-modtagelighed gener i en kohorte repræsentant for en generel, ancestrally forskelligartet befolkning, vi analyserede hele genom sekvenser fra deltagerne i en tidlig fødsel forskningsundersøgelse. Den kohorte består af 681 generelt raske voksne i den fødedygtige alder, 49% mænd og 51% kvinder, hvoraf ingen rapporteret en personlig og familie historie indikerer meget penetrerende kræft-disponerende germline mutationer.

Vi brugte denne kohorte at profilere kimlinie variation af et sæt af 158 gener, for hvilke protein-sekvensændringer er kausalt impliceret i onkogenese. De kodende regioner af disse 158 gener er godt dækket i de genomiske data, med et gennemsnit pr-genet dækning af 58X (interval: 21x-84x), og med 99,99% af positionerne sekventeret i 10 individer (figur S1) . Denne dækning er tilstrækkelig til høj kvalitet variant opkald, men ikke klinisk diagnose [29]. Vi fokuserede på små, ikke-synonyme variationer -, -insertioner og sletninger -. Da germlinie variationer i cancer-modtagelighed gener er for det meste af denne type [20]

Blandt de 681 forsøgspersoner observerede vi 2688 forudsagde protein-påvirker varianter i de 158 cancer-modtagelighed gener (tabel S1 i File S1). De fleste af de varianter er meget sjældne – 65% er fundet i kun et enkelt individ og 75% er i to eller færre, med MAF 0,22%. Nylige undersøgelser af variation i hele exomes [30] og i genfamilier [31] fandt også et flertal af sjældne varianter. Sjældne varianter menes at bidrage væsentligt til ætiologien af ​​almindelig sygdom [32], og strategier for prioritering sygdom varianter fra WGS omfatter ofte en frekvens filter til at udelukke almindelige varianter. Forty-tre procent (43%), eller 1.166, af varianterne er hidtil ukendte (ikke i dbSNP), alle med MAFs mellem 0,07% og 1,4%. Disse data understøtter den påstand, at næsten alle de almindelige varianter i populationer relateret til dem i 1000 genomer Project er blevet opdaget, men at mange sjældne varianter er endnu ikke identificeret [33].

Raske personer bære flere kræft -genet varianter

Ethvert individ i kohorten bærer flere ikke-synonyme varianter i kræft susceptiblity generne, med et gennemsnit på 68 varianter per person (interval: 49-97) (figur 1A), og 99% af de personer, bære sjældne varianter (median: 6 sjældne varianter, range: 0-32). Ingen af ​​deltagerne har varianter i alle 158 gener; i stedet er de varianter fordelt over en delmængde af 30-59 gener (median = 40) (figur 1B), der varierer fra individ (se nedenfor). For en angivelse af, om disse varianter kan være klinisk relevant, blev alle varianter tildelt tre non-eksclusiv klasser baseret på anmærkninger relateret til potentiel indvirkning på kræft modtagelighed: (1) varianter opført i HGMD som muligvis sygdom-associeret, (2) varianter sandsynligt, at have en skadelig virkning på protein funktion, nemlig læserammeforskydning, nonsens, og splejse-site varianter, og (3) alle andre ikke-synonyme varianter. Vi bruger sidstnævnte klasse til at repræsentere varianter af ukendt signifikans (VUS), med de forbehold, at den kliniske effekt af nogle varianter kan være kendt, men ikke fanget i HGMD, og ​​det varianter tildelt HGMD og skadelige klasser kan også have ukendte virkninger på kræft modtagelighed. Samlet set blev 80 varianter observeret i kohorten klassificeret som skadelig (22 nonsens, 42 læserammeforskydning, 16 splejse-site forstyrrende), 326 blev kommenteret som muligvis sygdom-associeret i HGMD, og ​​2297 er VUS (tabel S1 i File S1). Undersøgelsen fag har et gennemsnit på 14 HGMD varianter (interval: 4-25), 2 varianter i den skadelige klasse (interval: 0-4), og 52 VUS (interval: 34-78) (figur 1A). Antallet af varianter i de tre personer, rapportering en fortid kræftdiagnose var ikke outlier værdier for nogen af ​​variant klasser. Selv om det er muligt, at de skadelige varianter skyldes sekventering eller annotation fejl, finde tilsyneladende skadelige varianter i raske individer er ikke uventet [34].

(A) Boxplot af det samlede antal varianter, antallet af varianter opført i HGMD, antallet af sandsynlige skadelige varianter, og antallet af varianter af ukendt betydning per individ for cancerassocierede gener. (B) Fordeling af antallet af cancer gener med mindst én ikke-synonyme variant per person.

allelfrekvenserne for kræft-genvarianter er herkomst afhængige

allelfrekvenserne kan variere mellem befolkninger og disse forskelle kan have vigtige medicinske implikationer [35]. For at afgøre, om nogen af ​​de protein-påvirker kræft-genvarianter i vores kohorte afviger i frekvens mellem herkomst grupper, vi tildelt hver enkelt til en delpopulation hjælp de genomiske data. Et panel af 16,443 markører, der repræsenterer 6 forfædres grupper forbundet med europæisk, afrikansk, østasiatisk, centralasiatiske, Native American, og Oceanic befolkning [22], blev anvendt til at beregne iblanding proportioner for den enkelte. Cirka halvdelen (49%) af de personer, blev tildelt ikke-nul koefficienter for flere befolkningsgrupper, hvilket afspejler forskellige grader af blanding eller genetisk herkomst ufuldstændigt fanget af modellen. Subpopulationer blev defineret af klyngedannelse emnerne på de beregnede iblanding proportioner. Klynger med færre end 20 individer blev samlet i en “Andet” gruppe og inkluderer Mellemøstens, iblandede Eurasians og andre af ukendt baggrund.

De syv resulterende grupper er anført i tabel 1 og iblanding koefficienter af medlemmet individer er plottet i figur 2. for nemheds skyld bruger vi navnene på grupperne (europæiske, afrikanske, etc.) for at betegne forfædres genetiske baggrund snarere end geografisk region af fødsel eller etnicitet. De delpopulationer svarer til 78-100% afrikansk afstamning for den afrikanske subpopulation, 79-100% østasiatisk afstamning for den østasiatiske subpopulation, 79-100% centralasiatiske herkomst for den centralasiatiske befolkning, og 83-100% europæisk herkomst for europæisk delpopulation. Klyngen med individer af 13-75% afrikansk afstamning og 21-87% europæisk afstamning blev opkaldt afrikansk-europæisk. De iblanding proportioner adskiller den afrikanske subpopulation (≥78% afrikansk) fra resultatet afrikansk-europæisk gruppe fra et breakpoint i data og kan sammenlignes med proportioner dominerende herkomst i østasiatiske, centralasiatisk, og europæiske grupper (≥79 %, ≥79%, ≥83%, henholdsvis). Den Hispanic subpopulation omfatter forskellige blandinger af indiansk og europæisk afstamning med 0-50% afrikansk afstamning. Disse to- og tre-vejs tilsætninger afspejler den demografiske historie Latinamerika [36].

De iblanding proportioner de 6 forfædres populationer (farver) vises for alle individer i hver af de 7 grupper er defineret i kohorte (paneler). (A) Europæisk (B) centralasiatiske (C) østasiatiske (D) Afrikansk (E) afrikansk-europæisk (F) spansktalende (G) Andet. Rød: Europæisk, Blå: centralasiatiske, Cyan: østasiatiske, Gul: Afrika, Grøn: Native American, Magenta:. Oceanien

afstamning-baserede subpopulationer afviger i antallet af kræft -gen varianter per person (figur 3) (p 2.2E-16 ved ANOVA). Europæerne har en tendens til at have færre varianter (middelværdi = 64,5) og afrikanere den mest (middelværdi = 84, 30% højere end europæerne), i overensstemmelse med genom-dækkende skøn [37]. Antallet af varianter i afrikansk-europæisk individer ligger mellem afrikanere og europæere. Den afrikanske, afrikansk-europæisk, og østasiatiske subpopulationer har omkring dobbelt så mange nye varianter per person som europæere, og Central asiater har tredobbelt mere (Tabel 2). Konstateringen af, at Central asiater har mere nye varianter per person end afrikanere, der har højere samlede antal af kræft-genvarianter (figur 3), kan afspejle en bias i de befolkninger, der er blevet sekventeret, og støtter bestræbelserne på at øge mangfoldigheden af befolkningerne samplet i sekvensdatabaser.

fordelingen af ​​antallet af ikke-synonyme gener pr genstand for hver af de 6 herkomst-baserede subpopulationer.

antallet af skadelige varianter per individ er også signifikant forskellig mellem nedarvede grupper (p 4e-4 ved ANOVA; tabel 2). Gennemsnit spænder fra 1,8 i europæere og østasiater til 2,2 i Central asiater. For HGMD varianter, er der også en statistisk signifikant forskel mellem grupperne (p 9e-4 ved ANOVA), med østasiater have færrest varianter i gennemsnit registreret i databasen (tabel 2). Men forskellene i antallet af skadelige og HGMD varianter er små og en forening med aner skal undersøges i en større kohorte.

Forskelle mellem herkomst grupper er også afspejlet i allelfrekvenserne for kræft-genvarianter . Tabel S1 i Fil S1 lister allel frekvenser i hver af de befolkningsgrupper for det komplette sæt af 2.688 varianter. Fjorten alleler har frekvenser 50% i alle delpopulationer (Tabel S2 i File S1), hvilket tyder på, at henvisningen sekvens bærer en mindre allel på disse positioner. Vi analyserede population forskelle i allel frekvenser for almindelige varianter, da de fleste sjældne varianter findes i et enkelt individ. Blandt de 223 varianter med frekvens 5% i nogen af ​​de 6 herkomst-baserede grupper, 216 har allel frekvenser, som afviger mellem subpopulationer (tabel S3 i File S1). Af disse er 43% findes i alle seks subpopulationer og 58 er specifikke for en af ​​de fire herkomst grupper med lavere grader af blanding, 49 i afrikanere, 2 i Central asiater, 6 i østasiater, og 1 i europæere. Der er også 21 varianter, hvor den mindre allel i en population er den største allel i en anden (tabel 3), hvoraf herkomst-afhængige frekvenser tidligere har været indregnet i mindst 3,

ERBB2

c.3508C G (p.Pro1170Ala) [38],

TP53

c.215C G (p.Pro72Arg) [39], og

BRCA1

c.2612C T (p.Pro871Leu) [ ,,,0],40]. Der vides kun lidt om den kliniske betydning af disse 21 varianter. Fire,

TP53

c.215C G (p.Pro72Arg) [41],

BRCA1

c.2612C T (p.Pro871Leu) [42],

ERBB2

c.3508C G (p.Pro1170Ala) [43], og

FLT3

c.680C T (p.Thr227Met) [44], [45] har været knyttet til udviklingen af ​​kræft eller til behandlingsrespons. Imidlertid er disse associationer typisk er af ringe virkning eller blev afledt fra små prøver; derfor er der behov for mere arbejde for at etablere en endelig forhold. Hvis disse foreninger er validerede, de illustrerer betydningen af ​​at overveje aner, når du vælger behandlingsmuligheder for patienterne.

Per-gen variation

Næste vi analyserede varianter på en per-gen basis at bestemme, hvilke gener er mere eller mindre tilbøjelige til at have varianter rapporteret fra WGS af raske individer. Varianten belastning for hver af de 158 gener er angivet i tabel S4 i File S1. Fire gener –

SRSF2

,

U2AF1

,

MAP2K4

, og

GNAQ

– har ingen ikke-synonyme varianter i vores kohorte, 36 gener har varianter i færre end 10 personer, og 35 har varianter i over halvdelen af ​​de personer (figur 4A). Begrænse analysen til kun sjældne varianter, 154 (97,5%) af gener udviser variation i mindst ét ​​individ (Figur 4B). I gennemsnit en kræft-gen har sjældne varianter i 4% af vores befolkning, med en række 0% til 18% (0-125 personer). Blandt generne med sjældne varianter i de fleste individer er

BRCA1

,

BRCA2

,

APC

,

MLL2

, og

MLL3

, gener, der almindeligvis muteret i cancere.

BRCA1

,

BRCA2

, og

APC

er velundersøgte på grund af tilstedeværelsen af ​​hyppige, patogene mutationer.

MLL2

MLL3

er for nylig blevet opdaget at blive muteret i en bred vifte af tumortyper [46], og udbredelsen af ​​den observerede variation antyder, at de kan berettige mere tilbundsgående undersøgelse.

Fordeling af antallet af personer med en variant per gen for (a) alle varianter (B) sjældne varianter.

udbredelsen af ​​variationen i hvert gen korrelerer med antallet af varianter. Tres procent (60%) af variabiliteten går til kodning længde (figur 5), en tendens tidligere bemærket for alle enkelt nukleotid varianter exome hele [30]. Den generelle forekomst af -6 variantpositioner pr kb af kodende sekvens kan sammenlignes med den forudsagte variant opdagelse sats for en population størrelsen af ​​vores kohorte [31]. Den mest variable gen er

TNFRSF14

, med 39 variantpositioner pr kb (tabel S4 i File S1).

Antallet af ikke-synonyme varianter vs samlede antal kodning baser for hver af de 158 cancer-modtagelighed gener.

pr-gen variation kan også afhænge af, hvilken type kræft-gen. Tre typer er blevet beskrevet: onkogener, tumorsuppressorgener og prædisposition gener [46]. Sidstnævnte er gener for hvilke germline mutationer kan disponere til kræft, men som har nogle somatiske mutationer. Tumorsuppressorgener og onkogener har -5 varianter pr kb af kodende sekvens, mens disposition gener har ~8 varianter /kb, svarende til satsen for alle gener. Forskellen er statistisk signifikant, med p 0,012 ved ANCOVA. Den lavere variabilitet for onkogener og tumorsuppressorgener kan indikere en større evolutionær tvang.

Karakterisering af variation inden for centrale gener

Ud over befolkningen allelfrekvenserne og litteratur rapporter om sygdom forening, analyse af effekten hver variant kan have på struktur og funktion af det kodede protein kan give oplysninger relevante for kræftrisiko forudsigelse. Vi illustrerer gen-specifikke resultater med et sæt af 5 kendte kræft gener af klinisk relevans,

BRCA1

,

BRCA2

,

TP53

,

KRAS

og

PTEN

. De varianter og allelfrekvenserne er anført i tabel S1 i File S1.

BRCA1 og BRCA2

BRCA1

BRCA2

er de to store brystkræft modtagelighed gener. Kimcellelinje mutationer i et af disse tumorsuppressorgener er forbundet med arvelig bryst- og ovariecancer syndrom, som tegner sig for en anslået 2-8% af bryst kræfttilfælde på verdensplan [47]. I vores kohorte, 92% af de emner bære nonreference alleler i en eller begge af disse gener (ekskl homozygote variant genotyper på kromosom 13 position 32.929.387 i

BRCA2

hvor henvisningen sekvens har en sjælden mindre allel): 498 personer med varianter i

BRCA1

og 482 med

BRCA2

varianter. Sjældne varianter er også udbredt, med 27% af befolkningen transporterer sjældne varianter i mindst én af disse to gener.

De fleste af de varianter i disse to gener er sjældne, med 83% af de 46 varianter i

BRCA1

og 91% af de 86 varianter i

BRCA2

have MAF 1%. De 4 almindelige varianter i

BRCA1

-c.2612C T (p.Pro871Leu), c.3113A G (p.Glu1038Gly), c.3548A G (p.Lys1183Arg), og c.4837A & gt G (p.Ser1613Gly) -Alle vise herkomst-afhængige allelfrekvenserne.

Be the first to comment

Leave a Reply