PLoS ONE: Discovery Analyse af TCGA data afslører associering mellem Kimcellelinje Genotype og overlevelse i kræft i æggestokkene Patients

Abstrakt

Baggrund

Kræft i æggestokkene er stadig en væsentlig folkesundheden byrde, med den højeste dødelighed af alle de gynækologiske cancere. Det skyldes den sene fase, hvor de fleste af ovariecancer er diagnosticeret, kombineret med den lave og variable respons af avancerede tumorer til standard kemoterapi. Til dato, forbliver klinisk nyttige prædiktorer for behandlingsrespons mangler. Identifikation af genetiske determinanter for æggestokkene overlevelse kræft og behandling reaktion er afgørende for udviklingen af ​​prognostiske biomarkører og personlige behandlingsformer, der kan forbedre resultaterne for patienter de sene, der udgør de fleste tilfælde.

Metoder

for at identificere forfatningsmæssige genetiske variationer, der bidrager til æggestokkene dødelighed af kræft, vi systematisk undersøgt sammenhænge mellem germline polymorfier og æggestokkræft overlevelse ved hjælp af data fra The cancer Genome Atlas Project (TCGA). Brug fase-stratificeret Cox proportionel risiko regressions undersøgte vi 650.000 SNP loci for association med overlevelse. Vi undersøgte desuden, om sammenslutningen af ​​betydelige SNPs med overlevelse blev ændret af somatiske ændringer.

Resultater

kønscellelinie polymorfier på rs4934282 (AGAP11 /C10orf116) og rs1857623 (DNAH14) var forbundet med stadium justeret overlevelse (= 1.12e-07 og 1.80e-07, FDR = 1.2e-04 og 2.4e-04, henholdsvis). En tredje SNP, rs4869 (C10orf116), blev desuden identificeret som væsentlig i exome sekventering data det er i næsten perfekt LD med rs4934282. Foreningerne med overlevelse forblev signifikant, når somatiske ændringer.

Konklusioner

Discovery analyse af TCGA data afslører germlinie genetiske variationer, som kan spille en rolle i æggestokkene overlevelse kræft selv blandt sager sene. De signifikante loci er placeret i nærheden gener tidligere rapporterede at have en mulig sammenhæng med platin og taxol respons. Fordi variante alleler i de betydelige loci er almindelige (frekvenser for rs4934282 A /C alleler = 0,54 /0,46, henholdsvis; rs1857623 A /G alleler = 0,55 /0,45, henholdsvis) og kimlinie-varianter kan analyseres ikke-invasivt, vores resultater giver potentielle mål for yderligere udforskning som prognostiske biomarkører og individualiserede behandlinger

Henvisning:. Braun R, Finney R, Yan C, Chen QR, Hu Y, Edmonson M, et al. (2013) Discovery Analyse af TCGA data afslører associering mellem Kimcellelinje Genotype og overlevelse i æggestokkene kræftpatienter. PLoS ONE 8 (3): e55037. doi: 10,1371 /journal.pone.0055037

Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA

Modtaget: November 9, 2011; Accepteret: December 21, 2012; Udgivet: Marts 21, 2013 |

Dette er en åben-adgang artiklen, fri for alle ophavsrettigheder, og kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål. Værket gøres tilgængeligt under Creative Commons CC0 public domain dedikation

Finansiering:. Forfatterne understøttes af Intramural Research Program af National Cancer Institute, USA National Institutes of Health, Bethesda, MD. Der var ingen eksterne finansieringskilder til denne undersøgelse. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Ovariecancerpatienter tegner sig for omkring tre procent af alle kræfttilfælde hos kvinder og er den femte hyppigste årsag til kræft-relaterede dødsfald blandt kvinder i USA, med en alder justeret incidensrate på 12,8 per 100.000 kvinder per år og dødeligheden på 8,6 per 100.000 kvinder per år (2003-2007) [1]. Af de gynækologiske kræftformer, kræft i æggestokkene har den højeste dødelighed, med et samlet fem års overlevelse på 43,7% for hvide kvinder og 34,9% for sorte kvinder [1]. De dårlige overlevelse statistik kan henføres til den sene fase, hvor ovariecancer er diagnosticeret på grund af deres asymptomatisk natur: mens Fase I tumorer har en 92,4% relativ overlevelsesrate, de tegner kun for 15% af kræft i æggestokkene diagnoser; derimod fase III og IV kræftformer har overlevelsesrater på 34% og 18%, henholdsvis, og sammen tegner sig for 65,4% af diagnoser [1]. Reaktion på standard kemoterapi (platin plus taxan) er meget variabel [2], [3], og har tendens til at være dårlig for avancerede tilfælde [2]. Forståelse af de genetiske determinanter for ovarie overlevelse og respons kræft til behandling kan forbedre disse statistikker, især til fase III og IV patienter, der udgør de fleste tilfælde. Især, identificere variationer, der forudsiger respons på kemoterapi giver mulighed for at administrere alternative behandlingsformer, der kan forbedre resultater.

Tidligere undersøgelser har undersøgt betydningen af ​​genetiske variation i æggestokkræft modtagelighed, progression, behandlingsrespons, og overlevelse . Det er blevet vist, at BRCA1 /2 germline mutationer bidrager til 10-15% af tilfældene [4], og analyse af data fra The Cancer Genome Atlas Project (TCGA [5]) har også vist, at der BRCA1 /2 kønscellelinie mutation, somatisk mutationer og promotor methylering effekt æggestokkræft overlevelse [5]. Yderligere er kandidat-gen undersøgelser vist, at polymorfismer i MDM2, sammen med TP53 status og SULF1, er forbundet med ovariecancer canceroverlevelse [6] – [8]. For nylig, Huang og kolleger rapporterede en genetisk variation er forbundet med carboplatin cytotoksicitet in vitro og in vivo [3], en konstatering, som kan forklare forskellen reaktionen på standarden platinbaseret æggestokkræft terapi. De samme forfattere viste senere, at den identificerede locus regulerer miRNA, der bidrager til platin følsomhed, hvilket tyder på en virkningsmekanisme [9].

Til dato, men en klinisk anvendelig genomisk markør for ovariecancer overlevelse kræft forbliver undvigende. Den platin-associerede SNP undersøgt af Huang blev ikke fundet at være signifikant associeret med overlevelse i en validering kohorte [3]. Ligeledes Bolton og medarbejdere med succes identificeret flere loci forbundet med kræft i æggestokkene modtagelighed, men dem, de oprindeligt fundet at være forbundet med overlevelse undladt at nå betydning i valideringen sæt [10], selv om det er håbet, at fremtidige undersøgelser af denne kohorte vil resultere i etablerede foreninger med kliniske resultater [10]. Mens tumor genekspression signaturer prædiktiv for behandlingsrespons og tilbagefald er blevet beskrevet (fx [11], [12]), deres kliniske anvendelighed er begrænset af omkostningerne, invasivitet, og variabilitet iboende i evalueringen tumor genekspression. Ligeledes har somatiske kopi nummer ændringer i visse gener for nylig blevet rapporteret at påvirke overlevelsen [13], men nytten af ​​at måle CNV som prognostisk test er ligeledes begrænset.

Cancer Genome Atlas Project (TCGA [5] ) giver en samling af genomiske og kliniske data, hvor associationer mellem genetik og overlevelse kan blive grundigt undersøgt. Her foretager vi en genom-dækkende analyse til systematisk at undersøge sammenhænge mellem

kønscellelinie

genetisk variation og samlet overlevelse i TCGA patienter diagnosticeret med kræft i æggestokkene (serøs cystadenocarcinoma) [14]. Patienterne havde en alder og fordeling typisk for ovariecancer, som vist i tabel 1. Under anvendelse af den kliniske og Affymetrix SNP6.0 ( “SNP6”) genotypedata identificerede vi to enkelt-nukleotid polymorfisme (SNP) loci, ved hvilken kimcellelinje genotype er prædiktiv for samlet overlevelse i æggestokkene kræftpatienter. Foreningerne er fortsat signifikant efter justering for scenen, og er forbundet med overlevelse selv blandt stadie III patienter. Dette antyder, at den forfatningsmæssige genetisk variation kan spille en rolle i behandling respons og giver en potentiel mulighed for en ikke-invasiv prognostisk biomarkør test.

Resultater

Her rapporterer vi sammenhængen mellem kimlinie SNP’er og patientoverlevelse hjælp TCGA ovariecancer data. De filtrerede data omfattede i alt 662,521 SNPs analyseret i 489 klinisk kommenterede kræft i æggestokkene prøver, med scene og aldersfordeling som angivet i tabel 1. Hver af de 662,521 SNPs opfylder kriterierne filtrering blev testet for association med overlevelse ved hjælp af Cox proportionel risiko regressions justeres for trin under anvendelse af en ikke-additiv model. To SNP’er, rs4934282 (A /C) i genet AGAP11 (tidligere forbundet med C10orf116) og rs1857623 (A /G) opstrøms DNAH14, viste en statistisk signifikant univariat association med overordnet æggestokkene overlevelse kræft, som sammenfattet i tabel 2. Et plot de -værdier opnået er givet i figur 1. Vi har desuden beregnet de per-allelen hazard ratio for disse SNP’er under anvendelse af et additiv model, opnåelse HR = 0,599 (= 1.28e-08) til allel på rs4934282 og HR = 1.425 (= 1.70e-05) for allelen ved rs1857623. Det skal bemærkes, at strømmen på grund af den lille prøvestørrelse, at opdage en SNP med MAF = 0,45 (da disse er) med = 1e-06 er 32% for HR = 0,6 og 3,5% for HR = 1,4; det er derfor sandsynligt, at andre SNPs med lignende effektstørrelser kan have været savnet ved en tilfældighed i denne analyse.

fraktilestime-fraktil plot for observerede værdier for sandsynligheden kvotientkriteriet af scenen justeret Cox modeller versus den forventede fordeling af værdier under uafhængige nulhypoteser. Point over den linje angiver værdier, der er større end forventet; en stor systematisk afvigelse fra denne linje ville være tegn på befolkningens underkonstruktion køre resultaterne. De to SNP’er identificeret som væsentlig, rs4934282 og rs1857623, ligge et godt stykke over den linje, og uden for den lille systematisk afvigelse.

For at illustrere effekten af ​​rs4934282 (AGAP11 /C10orf116) og rs1857623 (DNAH14 ) kønscellelinie genotype på overlevelse blandt patienter med lignende tumor stadie, Kaplan-Meier plot for 372 trin III patienter er angivet i figur 2 og 3. Især CC genotype ved rs4934282 i AGAP11 /C10orf116 giver en beskyttende virkning, næsten en fordobling af medianen overlevelsestid over AA genotype gruppen. Derudover patienter med homozygot CC rs4934282 har en fem-års overlevelse på 45%, vs. samlet 34% for trin III patienter [1].

Kaplan-Meier-overlevelse grunde til Stage III patienter, stratificeret efter kønscellelinie genotype ved rs4934282 (AGAP11): AA, sort; AC, blå; CC, rød. Konfidensintervaller er vist som et skraveret område omkring hver Kaplan-Meier-kurve. Censurerede observationer er markeret med lodrette flåter. De stiplede vandrette og lodrette linjer markerer 50% overlevelse og fem år (1825 dage) henholdsvis

Kaplan-Meier-overlevelse grunde til Stage III patienter, forskellige niveauer af kimcellelinje genotype ved rs1857623 (DNAH14):. AA, sort; AG, blå; GG, rød. Konfidensintervaller er vist som et skraveret område omkring hver Kaplan-Meier-kurve. Censurerede observationer er markeret med lodrette flåter. De stiplede vandrette og lodrette linjer markerer 50% overlevelse og fem år (1825 dage) hhv.

For yderligere at undersøge variation i genomiske regioner omkring disse SNPs, vi undersøgte exome /capture sekventering data (for 375 patienter med tilgængelige germlinie data) i 100 KBP vinduer centreret om de to SNPs udpeget som væsentlige i SNP6 data, specielt CHR10: 88.672.456-88.772.455 og CHR1: 223.081.228-223.181.227. For ti prøver med tilgængelige hel-genom data, var vi i stand til at sammenligne intron rs4934282 og rs1857623 Affymetrix SNP6.0 opkald til dem fra det hel-genom sekventering, bekræfter gyldigheden SNP6 opkald. Af de testede 29 exome /capture SNPs (se tabel 3) i de 375 prøver, der kun rs4869 i C10orf116 forblev signifikant efter justering for de mange hypoteser (FDR = 9.89e-03). rs4869 ligger kp opstrøms for rs4934282 og er i næsten perfekt bindingsuligevægt med rs4934282 (A /C ved rs4934282 korrelerer med C /T ved rs4869, henholdsvis). rs4869 koder for et synonym mutation i C10orf116 (Ile68Ile). Vi har også undersøgt, om de variante alleler i nogen af ​​disse 29 loci førte til skadelige ikke-synonyme protein ændringer; kun fem SNPs havde mis-sense allelvariationer, hvoraf ingen blev forudsagt til at være skadelige (tabel 4).

Endelig har vi brugt data fra normale-parret tumorprøver at vurdere, om den stærke effekt af kimcellelinje genotype på overlevelse var signifikant medieret eller modereret af tumor genekspression gevinst eller tab af antal kopier i tumoren, eller ved tab af heterozygositet (se File S1) for at teste hypotesen om, at effekten af ​​kimcellelinje genotype på kræft i æggestokkene overlevelse kan være påvirket af somatiske begivenheder. Vi fandt ingen signifikant association tumor genekspression, kopiere nummer variation, eller tab af heterozygositet i disse regioner med overlevelse (se File S1). Snarere, den store effekt af kimcellelinje genotype ved loci på patientoverlevelse er uafhængig af disse somatiske ændringer, og synes at antyde, at konstitutionel genetiske variation i disse regioner spiller en rolle i behandlingsrespons.

Diskussion

Nyere undersøgelser har vist, at almindelige genetiske varianter er forbundet med ovariecancer risiko [15], [16]. Men er det stadig vanskeligt at forudsige kræft i æggestokkene overlevelse uafhængigt af scenen; nuværende kliniske resultater viser, at tumor respons og ekstrem lægemiddelresistens in vitro er ikke gode prædiktorer for ovariecancer overlevelse [17], [18]. I vores undersøgelse, vi grundigt testet SNPs analyseret i TCGA SNP6.0 data for association med overlevelse, og derudover analyseret hel-genom og exome /capture SNPs i de genomiske regioner omgiver de betydelige SNP6.0 SNPs. Vi identificerede tre SNPs i to genomiske regioner, der havde en statistisk signifikant sammenhæng med overlevelse. Som det fremgår af tabel 2, var hazard ratio for homozygote mindre alleler nærmede eller overskredet to gange i fase-stratificeret Cox proportional hazard modeller, og pr-allelen effekt størrelser for disse SNPs ved hjælp af en scene-lagdelt additiv genotype model var HR = 0,599 og HR = 1,425 for rs4934282 og rs1857623 hhv. Interessant nok ingen af ​​de somatiske variationer vi undersøgte (tumor-genekspression, kopiantal variation, og tab af heterozygositet) var forbundet enten med kimcellelinje genotype ved disse loci eller med overlevelse trods en plausibel hypotese, at somatiske ændringer i tumoren kan have en effekt på genotypen-overlevelse forening. Snarere disse SNPs er stærkt forudsigende for overlevelse uafhængigt af somatiske forandringer der allerede var indtruffet i tumoren (se File S1).

To af overlevelses-associerede SNP’er er placeret inden for et 2200 bp region på kromosom 10 ( rs4934282 på CHR10: 88.732.476 og rs4869 på CHR10: 88.730.312) og er i nær perfekt LD i disse data. Dette genomiske region er associeret med C10orf116 (CHR10: 88.727.949-88.730.672) og AGAP11 (CHR10: 88.730.498-88.769.960), der overlapper hinanden; den biologiske betydning af variationen probet ved rs4934282 og rs4869 kan være forbundet med enten. AGAP11 er medlem af ankyrin repeat og GTPase domæne Arf GTPase aktiverende protein genfamilien [19]. C10orf116 (også omtalt som APM2) er et protein med ukendt funktion, der er homolog til mediet kæde af pattedyr clathrin-associeret protein-kompleks og er involveret i vesikulær transport i gær. Det genomiske region indeholdende rs4934282 og rs4869 er vist i figur 4.

Detaljeret beskrivelse af den genomiske region af kromosom 10, der indeholder rs4934282 (anden SNP fra højre) og rs4869 (vist med grønt). Bemærk overlapningen mellem AGAP11 og C10orf116.

Mens lidt forudgående beviser eksisterer forbinder AGAP11 til kræft modtagelighed, overlevelse eller behandlingsrespons, foreligger nogle beviser til rollen som C10orf116. C10orf116 /APM2 ekspression er blevet impliceret i andre gynækologiske cancere; for eksempel, er blevet vist at kraftigt skelne mellem BRCA1 associeret brysttumor underklasser ESR1-positive og ESR1-negative [20] og er blevet fundet at være nedreguleret i utering cancer i en række undersøgelser [21]. For nylig C10orf116 er blevet vist at udvise differentiel ekspression i forskellige patologiske kvaliteter af ovariecancer [22], og i responset for brystkræft for kemoterapi [23], [24].

Endnu vigtigere er, eksisterer der fra cellelinier peger på C10orf116 som en mediator af cisplatin resistens. Ovariecancer er blevet behandlet med platinforbindelser i mange år [25], [26], med cisplatin og carboplatin (som har en mere acceptible toksicitetsprofil) som en standardbehandling for nyligt diagnosticeret stadie III ovariecancere [26], [27 ]. Men mens mange patienter reagerer på indledende behandling, de femårige overlevelsesrater forbliver fattige (34% samlet for fase III [1]). APM2 (C10orf1116) har vist sig at fremme cisplatin modstand, når overudtrykkes i HCT116 cellelinier, der var følsomme over for kemoterapi og stråling [28], hvilket tyder på en mulig mekanisme, hvorved rs4869 og rs4934282 påvirke overlevelse. Silencing af APM2 af shRNA blev vist at forøge de cytotoksiske virkninger af cisplatin på tumorxenografter dyrket i CD-1 nøgne mus. Desuden blev APM2 fundet at være overudtrykt i cisplatin-resistente gastriske cancerceller, men ikke i gastriske cancerceller er resistente over for 5-FU eller doxorubicin [29]. For nylig blev det konstateret, at rs1649942, en SNP beliggende 5 Mb opstrøms for rs4934282 /rs4869, havde en moderat association med carboplatin-induceret cytotoksicitet og overlevelse ovariecancerpatienter efter carboplatin kemoterapi [3]. Selvom denne SNP nåede ikke betydning i deres fase 2 validering analyse (og heller ikke signifikant i vores undersøgelse), det tilføjer til den række indicier implicerer denne genomisk region i platin følsomhed.

Den tredje væsentlige SNP, rs1857623 , er fundet i et intergeniske region på kromosom 1, 53 Kb opstrøms for DNAH14 og 136 Kb nedstrøms fra CNIH3. DNAH14 tilhører dynein tung kæde familie, en motor protein, som binder til mikrotubuli og går langs cytoskeletale mikrotubuli [30]. Den mekanisme, ved hvilken variation i DNAH14 kan påvirke overlevelse er mindre klar. En mulig vej til fremtidige undersøgelser er dens potentielle rolle i forbindelse med Taxol terapi: DNAH14 indeholder mikrotubulus-bindende stilk af dynein motor (pfam12777 ved Beliggenhed: 2910-3244 reference protein NP_001364.1), og det er blevet påvist, at taxol binder mikrotubuli [28]. DNAH14 har også vist sig at være differentielt reguleret som respons på taxan-terapi i gastriske cancere [31] og doxorubicin-behandling i endometriske celler [32].

Disse resultater tyder på, at års udgaver genetiske variationer i disse regioner kan spille en rolle i æggestokkene overlevelse kræft selv blandt sager sene. Det skal dog bemærkes, at de resultater, der præsenteres her udgør en opdagelse-baseret analyse, der ikke omfatter en validering kohorte. Som sådan kan resultaterne være falske falske positiver, og kræver bekræftelse i opfølgende undersøgelser. Hvis de er valideret, kan disse SNP’er have vigtig klinisk potentiale som prognostiske biomarkører siden kimcellelinje genotype kan analyseres ikke-invasiv og fordi variante alleler i de betydelige loci er almindelige (frekvenser for rs4934282 A /C alleler = 0,54 /0,46 henholdsvis; rs1857623 A /G alleler = 0,55 /0,45, respectvely, både sammenlignes med allel frekvenser for den kaukasiske CEPH befolkning HapMap [33]). De signifikante loci ligger i generne, der tidligere er identificeret som havende en mulig sammenhæng med kemoterapeutiske respons, hvilket tyder på, at deres tilknytning til overlevelse kan skyldes deres indflydelse på behandlingsrespons. Vores undersøgelse tyder på potentielle mål for prognositic tests og individualiserede behandlinger, og giver et grundlag for opfølgning forskning.

Materialer og Metoder

data

Data blev indsamlet af TCGA projekt som beskrevet andetsteds [14]. Opfølgende gange, vital status, tumor stadie, og kimlinie genotype data blev indhentet fra TCGA projektet [14] via data portal på 06/03/2011.

SNP6 genotyper.

genotype opfordrer til 906,600 SNP sonder analyseret ved hjælp af Affymetrix GenomeWide SNP6.0 platform og forarbejdede hjælp Fuglefrø blev opnået fra TCGA. Prøver, der ikke bestod den TCGA kvalitetskontrol (pr TCGA kopi nummer Eksempel data Relationship Format fil) blev fjernet. I alt 496 æggestokkene serøse cystadenocarcinoma patienter havde overlevelsestid og kimcellelinje (enten blod eller tumor-tilstødende normale) genotypedata. Genotype opkald blev kodet som 0, 1 eller 2 i henhold til antallet af variante alleler og filtreres i overensstemmelse med en Fuglefrø tillid tærskel på 0,05.

genotypedata blev underkastet kvalitetskontrol filtrerings- Tillægsklassificering som følger. SNPs med takster eller mindre allelfrekvenserne blev udelukket, da var SNPs ud af Hardy Weinberg ligevægt med. Alle prøver med et opkald på under 80%, blev udelukket. Identitet af staten blev beregnet ved hjælp af R GenABEL pakken, og nært beslægtede prøver med IBS blev fjernet. Den SNP og prøve filtrering kriterier blev anvendt iterativt indtil alle prøver og SNPs mødte de anførte tærskler. I alt blev 489 prøver og 662,521 SNPs bestået holdt i analysen.

Tumor fase.

Stage underkategorier blev coalesced henblik på denne analyse i sammenfattende stage kategorier der giver fire fase klassifikationer (dvs. , Stage IA, IB, IC blev behandlet som fase I, etc.). Antallet af prøver i hvert trin kategori er givet i tabel 1.

Exome /capture data.

Næste generation exome /blev også hentet capture sekventering data for 375 patienter med tilgængelige germlinie data. Analysen var begrænset til 100 KBP vinduer centreret om de to SNPs udpeget som væsentlige i SNP6 data, specielt CHR10: 88.672.456-88.772.455 og CHR1: 223.081.228-223.181.227. Grafiske beskrivelser af disse genomiske regioner findes i figur 5 og 6.

Billede fra cgwb.nci.nih.gov af udvalgte numre til genom bygge NCBI36 (hg18) for området omkring to kimlinie variationer forbundet med overlevelse i kræft i æggestokkene i C10orf116 /AGAP11 region på kromosom 10. sporene er en brugerdefineret spor viser SNPs rs4869 og rs4934282, RefSeq gen, mRNA, splejset EST’er og mapability.

Billede fra cgwb.nci.nih .gov af udvalgte numre til genom bygge NCBI36 (hg18) for området omkring en kimlinie variation forbundet med overlevelse i æggestokkræft opstrøms DNAH14 på kromosom 1. sporene er en brugerdefineret spor viser SNP rs1857623, RefSeq gen, mRNA, splejset EST’erne og mapability.

Binary Sequence Alignment /kort (BAM) filer blev hentet fra dbGAP, hjælp for hver prøve den største tilgængelige normale BAM-fil. Den “mpileup” og “bcftools” funktioner i SAMtools [34] blev anvendt til at generere de oplysninger variant opkald, med at kalde kriterier som følger: hvis dækningen i en given prøve for et givet locus var mindre end grænsen på dækning (se nedenstående afsnit ), blev der ikke opfordring; ellers, hvis ikke-henvisning allel frekvens var mindre end 10%, opkaldet var “homozygot reference,” hvis den manglende reference frekvens var større end 90%, opkaldet var “homozygot nonreference;”, hvis det var mellem 10% og 90 %, opkaldet var “heterozygot.”

for at indstille tærsklen dækning for de exome /capture data, vi sammenlignede exome /capture opkald til SNP6 kimlinie genotype opfordrer til 41 tag SNPs beliggende i disse regioner. Behandling af SNP6 kalder som den gyldne standard for nøjagtighed, vi definerer “misforhold sats” at være antallet af opkald til exome /opsamling og SNP6 data afviger, divideret med det samlede antal exome /capture opkald ved at dækningen dybde. Som tærskel dækningen øges, og exome /datafangst bliver mere pålidelige, kan de misforhold sats falder, men færre exome /capture opkald foretages. Vi varierede tærsklen dækningen fra 5 til 30, vælge den laveste dækning, der gav et misforhold rate mindre end 0,05. Den optimale dækning var 9 (med et misforhold på 0,045)

Vi overvejede et sted at være informativ (dvs. at have tilstrækkelig variation), hvis mindst 20 germline prøver havde en heterozygot opkald på, at dækningen tærskel.; disse kriterier giver 29 i alt informative SNPs i de 100 KBP regionerne omkring rs4934282 og rs1857623, der er vist i tabel 3, som vi betragtes i analysen.

Survival analyse

Overlevelse analyse blev udført i R [35] ved hjælp af “overlevelse” pakke [36]. For hver SNP repræsenteret i de data, blev Cox proportional hazards regression bruges til at modellere overlevelse som en funktion af genotype. På grund af den betydelige sammenslutning af scenen med overlevelse, blev alle modeller stratificeret efter scenen. Genotype opkald blev behandlet som kategoriske variable med 0 som referent gruppen at undgå at pålægge linearitet i antallet af variant alleler. Hver model gav to hazard ratio pr SNP (en for genotype = 1 i forhold til genotype = 0 og en anden for genotype = 2 w.r.t. genotype = 0). Betydningen af ​​foreningen blev vurderet ved hjælp af logrank (Score) test [37]. En test af Schoenfeld rester blev brugt til at kontrollere, om proportionale farer antagelse blev opfyldt; kun modeller med blev anset gyldigt. 639,510 testede SNP’er mødte den proportionale farer antagelse.

Fordi det store antal SNP’er indebærer en lang række hypoteser, der testes, blev flere test justeringer til værdierne. Dette blev gjort på to måder. Vi rapporterer både den falske opdagelse sats [38] () for de opnåede værdier for de parametriske tests er beskrevet ovenfor. Desuden rapporterer vi permutation værdier opnået ved hjælp af 600.000 uafhængige resamplings af dataene. Permutation tests, mens regnekraft, der betragtes som de stærkeste og mest passende kontrol af type-I fejlprocenter i genom-dækkende undersøgelser [39] – [41]

For at undersøge eksistensen og virkningen af ​​en befolkning lagdeling. , R pakken GenABEL [42] blev anvendt til at undersøge befolkningens underkonstruktion. Den genomiske inflation faktor blev anslået til at være, hvilket indikerer, at befolkningen underkonstruktion, hvis til stede, bør ikke have nogen mærkbar virkning på resultaterne. Ved hjælp af en tilfældigt udvalgt sæt af 12.000 uafhængige (parvise LD) SNPs med MAF blev populationen underkonstruktion undersøgt under anvendelse principalkomponentanalyse. Parvise plots af de første fire bestanddele er tilvejebragt i File S2. Vi justeret modellerne på to måder: ved hjælp af de første fire pc’er, og bruge klynge opgaver identificeret fra PCA bruger R pakke mclust [43]. Som forventet baseret på, vi ikke observeret nogen væsentlige ændringer i Cox modelresultater (data ikke vist). Resultaterne præsenteres her er derfor ikke korrigeret for befolkningen underkonstruktion

Sequencing dataanalyse

Vi sammenlignede SNP6 genotyper på den betydelige loci. (CHR10: 88.722.456 og CHR1: 223.131.228) til dem fra engros- genomsekvensering data for 10 ledige prøver; alle 10 matchede SNP6 kræver de betydelige SNPs, støtte SNP6 genotype opkald.

For de to SNPs viser signifikant sammenhæng med overlevelse i de SNP6 data, vi yderligere undersøgt de omgivende genomiske regioner ved hjælp kombineret hel-genom og exome /capture sekventering data. Vi undersøgte 29 SNPs i de genomiske regioner omgivende rs4934282 og rs1857623 vist i tabel 3 og valgt som beskrevet ovenfor. Stage-stratificeret Cox proportional hazards modeller blev derefter fremstillet til de germlinie genotyper som beskrevet ovenfor. Det skal bemærkes, hverken rs4934282 eller rs1857623 blev medtaget på grund af utilstrækkelige exome /capture data (rs4934282 er i en intron region og dermed ikke analyseret i exome /capture data rs1857623 havde ingen opkald i de fleste prøver)

Det skal bemærkes, at ikke alle de genomiske regioner bidrager til disse data har unikke sekvenser. For at vurdere dette, brugte vi de “mapability” kriterier som implementeret i CGWB [44]: for hvert locus under overvejelse, vi overveje en glidende 75-basepar vindue med at locus og forsøger at matche det til andre regioner i genomet; locus er markeret som unik, hvis for hver position af glidende vindue, sekvensen kun kort til placeringen af ​​vinduet og ingen anden genomisk region. Loci for hvilke nogle (eller alle) positioner af glidende vindue indeholder sekvenser, der kort til flere genomiske regioner er markeret med en dolk i tabel 3, angiver, at den læser bidrager til opfordringer at locus kan være uspecifik.

Forudsigelse af amino-syre udskiftninger

Vi undersøgte SNPs i tabel 3 for mis-sense udskiftninger bruger program ANNOVAR [45] og forudsagde deres funktionelle indvirkning på proteinsekvenser med logRE og finkæmme. LogRE er af forholdet mellem HMMER -værdier for Tilpas til en PFAM motiv domæne af to aminosyresekvenser, der afviger med en aminosyresubstitution. En logRE score absolutte værdi er større end eller lig med 1 angiver, at aminosyren ændring forventes at påvirke protein [46]. SIFT er en sekvenshomologi-baseret værktøj, der sorterer Intolerant Fra tolerante aminosyresubstitutioner og forudsiger skadelige aminosyresubstitutioner. Sigt værdier forudsiges at være skadelige [47]. Af de SNPs betragtes over fem mis-sense SNPs blev identificeret: tre i MMRN2 (rs3750823, rs4934281, rs34587013), et i SNCG (rs9864), og én i AGAP11 (rs2641563). Men der er ingen beviser for, at disse aminosyreændringer har funktionel betydning for proteiner (tabel 4).

Analyse af somatiske variationer

For at teste hypotesen om, at somatiske ændringer kan have en additiv eller modererende effekt på sammenhængen mellem kimcellelinje genotype og æggestokkræft overlevelse, brugte vi TCGA data fra parrede tumorprøver at vurdere, om tumor genekspression, gevinst eller tab af antal kopier i tumoren, eller tab af heterozygositet var signifikant forbundet med overlevelse. En fuldstændig beskrivelse af de metoder og resultater for denne analyse er givet i File S1. Ingen af ​​disse yderligere kovariater var betydelig.

Støtte Information

File S1.

Metoder og resultater af analyser af somatiske variationer.

doi: 10,1371 /journal.pone.0055037.s001

(PDF)

File S2.

Metoder og resultater af befolkningen underkonstruktion analyse.

doi: 10,1371 /journal.pone.0055037.s002

(PDF)

Be the first to comment

Leave a Reply