PLoS ONE: En Kolorektal Cancer modtagelighed Ny Variant på 4q26 i den spanske Befolkning Identificeret af Genome Wide Association Analysis

Abstrakt

Baggrund

Ikke-arvelig kolorektal cancer (CRC) er en kompleks lidelse som følge af kombinationen af ​​genetiske og ikke-genetiske faktorer. Genome-wide forbindelsesundersøgelser (GWAS) er nyttige til identifikation af sådanne genetiske modtagelighed faktorer. Men den enkelte loci hidtil forbundet med CRC kun udgør en del af den genetiske risiko for CRC udvikling i den almindelige befolkning. Derfor skal mange andre genetiske risiko varianter alene og i kombination stadig at blive opdaget. Formålet med dette arbejde var at søge efter genetiske risikofaktorer for CRC, ved at udføre single-locus og to-locus GWAS i den spanske befolkning.

Resultater

I alt 801 kontroller og 500 CRC tilfælde blev inkluderet i opdagelsen GWAS datasættet. 77 single nukleotid polymorfier (SNP) s fra single-locus og 243 SNPs fra to-locus association analyser blev udvalgt til replikation i 423 yderligere CRC tilfælde og 1382 kontroller. I metaanalysen, en SNP, rs3987 på 4q26, nåede GWAS betydelig p-værdi (p = 4,02 × 10

-8), og én SNP par, rs1100508 CG og rs8111948 AA, viste en tendens til to-locus association (p = 4,35 × 10

-11). Derudover vores GWAS bekræftede den tidligere rapporterede forbindelse med CRC fem SNPs placeret på 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) og 14q22.2 (rs4444235).

konklusioner

Vores GWAS for CRC patienter fra Spanien bekræftede nogle tidligere rapporteret foreninger for CRC og gav en ny kandidat risiko SNP, som ligger på 4q26. Epistasis analyser også givet adskillige roman kandidat modtagelighed par, der skal valideres i uafhængige analyser

Henvisning:. Rigtig LM, Ruiz A, Gayan J, González-Pérez A, Sáez ME, Ramírez-Lorca R, et al . (2014) En Kolorektal Cancer modtagelighed Ny Variant på 4q26 i den spanske Befolkning Identificeret af Genome Wide Association Analysis. PLoS ONE 9 (6): e101178. doi: 10,1371 /journal.pone.0101178

Redaktør: Zongli Xu, National Institute of Environmental Health Sciences, USA

Modtaget 11. april 2014 Accepteret: 3 juni 2014; Udgivet: 30 juni 2014

Copyright: © 2014 Virkelige et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed:. Det forfattere bekræfter, at alle data, der ligger til grund resultaterne er fuldt tilgængelige uden restriktioner. Alle data er inkluderet i papiret

Finansiering:. Dette arbejde blev delvist støttet af Cenit programmet fra Centro Tecnológico Industrial (CEN-20.091.016), tilskud fra den spanske Institute of Health Carlos III (ADE10 /00026, PI09 /02.444, PI12 /00511, Acción tværgående de kræft) tilskud fra Fondo de Investigacion Sanitaria /EFRU (08/1276, 08/0024, PS09 /02368, 11/00219, 11/00681), og ved COST kontor via COST handling BM1206. SCB er støttet af kontrakter fra Fondo de Investigación Sanitaria (CP 03-0070). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. LMR, AR, AGP, MES, RRL, FJM, JV, RMF, JMC , CMR, EV er tidligere medarbejdere i Neocodex. JG er grundlægger af Bioinfosol. Dette ændrer ikke forfatternes overholdelse PLoS ONE politikker på datadeling og materialer.

Introduktion

Kolorektal cancer (CRC) repræsenterer globalt, med hensyn til frekvens, den tredje hyppigste årsag til kræft -relaterede dødelighed, og den næsthyppigste malign sygdom i Europa [1]. Et mindretal af patienterne har en familie historie af CRC, hvilket tyder på en vis arvelig bidrag. Kim-line mutationer er blevet identificeret som årsag til arvelig kræftrisiko i nogle af disse CRC-tilbøjelige familier. Samlet set er høj penetrans mutationer skønnes at udgøre mindre end 5% af CRC sager [2]. På den anden side, det store flertal af patienter med CRC har ingen klare tegn på at have arvet uorden og klassificeres derfor som “sporadisk” cancer.

Sporadisk CRC betragtes som en kompleks lidelse som følge af kombinationen af ​​genetiske og ikke-genetiske risikofaktorer i koncert med somatiske genetiske og epigenetiske ændringer. De ikke-Mendelsk genetiske risikofaktorer er almindelige lav risiko varianter fordelt over hele genomet. Det hele genomet forbindelsesundersøgelser (GWAS) tilgang er et nyttigt værktøj til identifikation af sådanne varianter [3]. Brug af denne fremgangsmåde omkring 30 risikofaktorer genetiske varianter i forbindelse med CRC følsomhed er rapporteret i de seneste år [4] – [15]. På trods af dette, den kombinerede virkning af disse varianter repræsenterer helt kun en lille del af den genetiske risiko for CRC udvikling i den almindelige befolkning [16]. Dette tyder på, at mange andre risikofaktorer genetiske varianter er endnu at blive opdaget.

Generelt har GWAS været utilstrækkelige til at afdække alle gener involveret i komplekse sygdomme og, vigtigst af alt, de har ikke været meget nyttige i at isolere specifikke molekylære veje relateret til lidelser, der undersøges [17]. En af grundene kan være, at enkelt-locus tilgang er typisk den eneste metode, der anvendes til GWAS datasæt, og dette ikke tager hensyn til multigenic natur, der ligger til grund for ætiologien af ​​komplekse sygdomme. Således har nye analysemetoder, der ville hjælpe til at opdage mere magtfulde genetiske associationer baseret på en kombination af markører blevet foreslået af os og andre [18] – [20]. For nylig er den første to-locus forbindelsesundersøgelse i CRC blevet rapporteret [21]. Yderligere undersøgelser er klart nødvendigt for en mere omfattende forståelse af den genetiske kompleksitet CRC modtagelighed i de forskellige befolkningsgrupper.

Formålet med dette arbejde var at søge efter genetiske risikofaktorer for CRC i den spanske befolkning, der udfører en ny GWAS anvendes enkelt-locus og to-locus genetiske association analyser.

Resultater

fase I. CRC-GWAS analyse

For at identificere CRC risiko-associerede SNPs, vi designet en GWAS (NXC-GWAS), som omfatter 801 kontroller og 500 sager fra næppe studeret spanske befolkning (NXC-GWAS prøve).

Alle SNPs blev genotypede hjælp af Affymetrix NSP i 250K chip. Efter kvalitetskontrol, blev 20 tilfælde kasseret (4 uharmonisk sex, otte forskellige etnicitet og 8 lav prøve takst). Endelig blev 480 tilfælde og 801 kontroller udvalgt til association analyse. Principal komponent analyse udført blandt denne prøve viste ikke befolkningen blanding (figur S1). Alder ved rekruttering var 58,0 ± 9,1 år i tilfælde og 51,9 ± 8,8 år i kontroller (middelværdi ± standardafvigelse). Det tilsvarende antal (procentdel) af kvindelige prøver var 278 (57,9%), og 368 (45,9%), henholdsvis. Blandt de 262264 SNPs, der kan genotypede med denne chip, har 83334 ikke passere kvalitetskontrol (52964 SNPs blev kasseret på grund af lav mindre allel frekvens (MAF), 2307 SNPs mislykkedes HWE, og 28.333 havde en signifikant forskellig hastighed på missingness mellem tilfælde og kontrolgrupper). I alt 178,930 markører blev endelig udvalgt til efterfølgende association analyser. Der var ingen overordnet inflation af teststørrelsen (genomisk inflation faktor = 1,10) (se figur S2), der giver tryghed, at systematiske forstyrrende faktorer var usandsynligt.

Brug Plink vi gennemført et enkelt locus genetisk association analyse [22 ]. En genetisk markør, rs10446758 i kromosom 4q31.23, nåede GWAS-signifikant p-værdi (p = 1,73 × 10

-8), og andre to markører, rs4887855 i kromosom 16q23.1 og rs7171889 i kromosom 15q26.2, viste en tendens til forening (p = 8,27 × 10

-8 og p = 8.53 × 10

-8, henholdsvis) (figur 1) (tabel S1).

Blå og røde vandrette linjer svarer til p-værdier på 6,97 × 10

-4 og 5 × 10

-8 henholdsvis.

Vi udførte også en to-locus analyse ved hjælp af HFCC software (se Patienter og metoder afsnit), udelukkende på SNPs der bestået kvalitetskontrol. I alt 1,60 × 10

10 to-locus kombinationer blev endeligt opnåede. Efter anvendelse kontrol retning og sporing filtre, denne software gav 5×10

5 to locus lag. Selvom ingen af ​​dem nåede afskåret p værdi fastsat på 3,12 × 10

-12 nogle par nåede værdier tæt på denne tærskel (tabel S2).

fase II. Validering og metaanalyse

For at teste de bedste genetiske foreninger observeret i fase I, første, de SNPs, der indgik i en hvilken som helst af de bedste 157 to-locus signaler (tabel S2), blev valgt. Disse par tegnede sig for 276 enkelt SNPs fordi 38 SNPs var til stede i mere end et par. For det andet blev 79 SNPs fra single-locus analyser udvælges ifølge foreningen p-værdi opnået i fase I (p 6,9 × 10

-4) eller sandsynlighed for at blive vellykket genotypebestemmes med Veracode teknologi. Således blev oprindeligt udvalgt i alt 355 SNPs for udarbejdelse af skræddersyede arrays. Dog var det kun muligt at designe oligonucleotid puljer for 340 SNPs (79 enkelt locus SNPs og 261 to-locus SNPs).

Disse genetiske markører blev genotype i 423 forskellige sager og 1448 forskellige kontroller (NXC-VAL prøve ). Alder ved rekruttering var 58,7 ± 7,3 år i tilfælde og 51,1 ± 12,9 i kontrollerne (gennemsnit ± standardafvigelse). Det tilsvarende tal (i procent) af kvindelige prøver var 262 (61,8%), og 920 (63,5%), hhv. Tyve SNPs ikke passere kvalitetskontrol (14 SNPs ikke genotype i mere end 80% af prøverne, og 6 SNPs viste en HWE p-værdi 0,001 i kontroller). Som for prøverne, blev 66 kontroller udelukket (31 personer opnåede ikke en genotype takst 80%, og 35 personer viste en vis grad af slægtskab til hinanden ifølge data opnået med GRR software). Endelig 423 CRC tilfælde og 1382 kontroller blev genotypebestemt med 320 markører (77 single-locus og 243 to-locus valgt SNP’er) (tabel S3). Tabel 1 viser de udvalgte SNP’er der blev replikeret i NXC-VAL prøve (p 0,05 og samme virkning retning). Kun én SNP, rs3987 på 4q26, nåede et GWAS betydelig p-værdi i meta-analyse (Tabel 2). Interessant, fire flere SNPs i samme genomiske region viste en tendens til forening på GWAS-signifikant p-værdi (Tabel 2).

Med hensyn til to locus analyse, kun fem par blev valideret i fase II (p 0,05 og samme effekt retning). Selvom ingen af ​​dem nåede GWAS betydelig p-værdi (p 3,12 × 10

-12) i meta-analyse (tabel 3), en SNP par, rs1100508 CG og rs8111948 AA, var borderline for association (4,35 × 10

-11).

resultat validering ved hjælp af yderligere datasæt

for at teste, om resultaterne vil kunne gentages i en anden spansk datasæt, vi brugte data fra Epicolon projektet [23] . Men ingen af ​​de SNPs, der blev anset betydelig eller kandidater i fase II i denne undersøgelse gentages i denne Epicolon prøve.

De opnåede resultater i vores GWAS (fase I og II), og dem, der opnås fra Epicolon kohorten , blev kombineret i et forsøg på at se en global effekt af alle disse SNPs kontrolleret i fase II. Ingen af ​​SNP’er nåede GWAS signifikant p-værdi i den kombinerede undersøgelse (tabel S4). Tabel 4 viser de bedste resultater opnået i denne undersøgelse (udvalgt fra disse SNP’er viser en kraft i samme retning i alle tre analyserede serier. Se detaljer fra disse udvalgte SNP’er i tabel S5).

Vedrørende to -locus HFCC analyse, viste ingen SNP-pair en signifikant og ensartet virkning (i samme retning), når de 3 prøver (NXC-GWAS, NXC-Val og Epicolon) blev analyseret sammen.

analyse af SNPs tidligere forbundet med CRC

Kun én af de tidligere tilknyttede SNPs med CRC risiko lykkedes genotypede i vores GWAS. For at dække et større antal af disse SNPs imputerede vi genotyper hjælp CEU HapMap database og Plink software. Efter imputation, opnåede vi i alt 1,371,009 SNP’er til efterfølgende analyse. I alt 16 tidligere rapporteret som CRC tilhørende SNPs var tilgængelige på tidspunktet for analysen (tabel 5). Af disse fem SNP’er placeret på 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) og 14q22.2 (rs4444235), viste nominel samarbejde med CRC i vores GWAS, og med effekter i samme retning end de tidligere rapporterede (tabel 5). Yderligere to SNP’er placeret på 8q23.3 (rs16892766) og 12q13.13 (rs7136702) viste en tendens til nominel association med CRC i vores undersøgelse, igen med kraft i samme retning end tidligere rapporteret (tabel 5).

Vi kunne ikke teste kandidat SNPs rapporteret af Fernandez-Rozadilla

et al

. [23] i deres CRC-GWAS udført i den spanske befolkning (Epicolon prøve), fordi disse kandidater ikke var omfattet eller succesfuldt genotype /imputeret i vores undersøgelse.

Vi testede også to-locus interaktioner mellem rs1571218 (20p12 0,3) og rs10879357 (12q21.1) tidligere forbundet med CRC [21]. Anvendelse generelle lineære modeller vi ikke observere nogen beviser for interaktion mellem dem i vores datasæt (data ikke vist).

Diskussion

Vi præsenterer en ny to-fase CRC-GWAS udføres i spanske befolkning for enkelt locus og også for to-locus forening ved hjælp af vores HFCC software [18]. En markør, rs3987 på 4q26, nåede samarbejde med CRC modtagelighed på GWAS betydelig p-værdi. Desuden en SNP par, rs1100508 CG rs8111948 AA (placeret ved 7q31.33 og 19q12, henholdsvis), viste også en tendens til, epistatisk forening

På trods af begrænsninger af vores GWAS -. Lav densitet af genomisk dækning af DNA-chip, og en moderat prøvestørrelse – vi replikeret 5 af de 16 SNPs tidligere forbundet med CRC. Desuden er de fleste af disse 16 SNP’er i vores GWAS undersøgelse var i samme retning end i de offentliggjorte rapporter (tabel 5). Desuden viste regressionsanalyse god overensstemmelse med de odds ratioer (Figur S3). Disse data sammen tyder på, at vores undersøgelse er i overensstemmelse med tidligere offentliggjorte CRC GWAS analyser.

I vores tofaset CRC-GWAS, en markør, nemlig rs3987 på 4q26, udstillet samarbejde med CRC modtagelighed på GWAS betydelig p- værdi. Dette SNP er beliggende i en intergeniske region 4q26 mellem

TRAM1L1

og

NDST3 gener

(~500 kb og ~180 kb henholdsvis). Flere undersøgelser har allerede foreslået tilstedeværelsen af ​​kræft gener i 4. kvartal region [24], [25], og det er også blevet rapporteret, at somatiske sletninger på 4q26 er hyppige i CRC [26], [27]. Interessant,

NDST4

gen, ligger også på 4q26, og som tilhører samme familie, end

NDST3

, er blevet identificeret som en mulig tumorsuppressorgen i CRC [27].

de to-locus analyse afslørede, at en af ​​SNPs parvis rs1100508 CG og rs8111948 AA (placeret ved 7q31.33 og 19q12, henholdsvis), viste en tendens til tilknytning. Disse SNP’er er i intergeniske regioner lokaliseret på 7q31.33 og 19q12. Den nærmeste gen til rs1100508 er

GPR37

, et medlem af G-protein-koblet receptor familie, der er kendt for at interagere med Parkin, omend dens funktion er endnu ikke fuldt karakteriseret. På den anden side er rs8111948 placeret mellem

LINC00662

LINC00906

(~500 kb og ~600 kb, henholdsvis), to loci tilhører den lange ikke-kodende RNA (lncRNA) familie . Hvis foreningen af ​​denne SNP par er bekræftet, vil karakteren af ​​denne interaktion skal karakteriseres yderligere.

Vi undersøgte også markørerne forbundet med CRC fra vores to-fase GWAS i en uafhængig spansk GWAS datasæt (Epicolon ), men ingen af ​​disse foreninger replikeret. Men da vores GWAS kunne validere flere af de godt stablished CRC foreninger end Epicolon GWAS [23], mener vi, at de kandidater, der er afledt af vores undersøgelse fortjener at blive valideret i yderligere metaanalyse herunder andre GWAS og validering undersøgelser i spanske befolkning, eller i en mere generel kaukasisk befolkning

Ifølge GWAS kataloget fra NIH (https://www.genome.gov/26525384), og tidligere værker i dette emne [5] -. [15 ], hverken de varianter i forbindelse med CRC rapporteret i tabel 1 eller 2, eller varianter inkluderet i SNP parvis rapporteret i tabel 3 (eller i bindingsuligevægt med dem) er tidligere forbundet med CRC. Da de fleste af disse tidligere undersøgelser ikke var særligt udført i det sydlige kaukasiske befolkning, kan vores resultater være specifikt for denne population. En alternativ forklaring ville være, at de er falske positive. Den gruppering af flere SNPs på samme 4q26, og replikation af tidligere rapporterede foreninger taler imod denne mulighed.

Selvom vores resultater ikke kunne gentages i den uafhængige Epicolon prøve, vi foretaget en meta-analyse tager hensyn til de tre analyserede prøver her (NXC-GWAS, NXC-VAL, og Epicolon). Ingen af ​​SNP’er eller kombinationer af dem, blev replikeret i de tre prøver, men de bedste signaler omfatte flere SNPs i koblings-uligevægt på 9q31.1, i eller tæt på

LINC00587

locus (tabel 4). Dette gen også tilhører lncRNA familien involveret i cellulær differentiering og proliferation som post-transkriptionelle regulatorer af splejsning eller som molekylære lokkefugle for miRNA [28], [29]. Ekspressionen af ​​lncRNAs dereguleres i mange forskellige cancere, herunder coloncancer [30], og nogle undersøgelser tyder på en rolle i cancer initiering, progression og metastase [31]. Foreningen rapporteret i tidligere GWAS mellem CRC modtagelighed og SNPs placeret på 8q24 kunne skyldes

PRNCR1

locus, et lncRNA medlem [32].

Interessant, en høj andel af SNPs fundet til være forbundet med CRC i vores undersøgelse discovery fase (tabel 1, 2 og 4), blev udvalgt af to-locus analyse. Dette antyder, at ud over at identificere epistatisk interaktioner, vores to-locus analysemetode (HFCC software) kan også forbedre indfangning af enlige signaler i genomet relateret til CRC følsomhed i særdeleshed og dermed i multigenic sygdom generelt. Dette er en lokkende hypotese, der måtte blive bekræftet, hvis nogle af disse SNPs er valideret i fremtidige studier. På den anden side er resultaterne af vores to-locus analyser antyder, at interaktionen signalerne har ikke mere kraftfuld prædiktiv værdi end enkelt loci for CRC modtagelighed grund af manglende detektering SNP par forbundet med CRC på GWAS signifikant p-værdi. Denne observation, sammen med manglen på statistisk signifikante resultater i vores globale metaanalyse, samt den manglende replikation af eneste SNP parret interaktion tidligere rapporteret som i forbindelse med CRC [21] tyder på, at den rolle, genetiske faktorer i CRC modtagelighed kan være mere indviklet, at tidligere antaget.

som konklusion, har vi gennemført en CRC-GWAS i den spanske befolkning, der er i overensstemmelse med nogle tidligere rapporterede foreninger og gav en ny kandidat SNP for CRC modtagelighed på 4q26 at skal valideres i fremtidige studier. Vores to-locus undersøgelse giver også tegn på det høje niveau af kompleksitet i den genetiske risiko kræft.

Materialer og metoder

Patienter

Emner i fase I var 801 kontroller fra Spansk almindelige befolkning (som tidligere blev beskrevet [33]) og 500 tilfælde diagnosticeret af CRC med patologisk bekræftelse (NXC-GWAS prøve). I fase II 1448 kontroller og 423 tilfælde af CRC blev brugt (NXC-VAL prøve). CRC prøver blev indsamlet i to forskellige spanske hospitaler (Hospital Universitario Virgen del Rocio i Sevilla og Hospital Universitario 12 de Octubre i Madrid) fra november 2002 til april 2008. Kontrollen prøver indgår i fase II blev indsamlet i løbet af den samme periode i flere primære sundhedscentre fra hele Spanien. Disse prøver er tidligere blevet anvendt som kontroller i andre forbindelsesundersøgelser udført for forskellige sygdomme i den spanske befolkning [34]. Derfor blev i alt 923 CRC tilfælde og 2249 kontroller fra den spanske almindelige befolkning indgår i denne undersøgelse. Alle personer indskrevet var kaukasisk med registrerede spanske forfædre (to generationer), som registreres af kliniske forskere.

Etik Statement

De etiske udvalg fra Hospital Universitario Virgen del Rocío, Sevilla, og Hospital Universitario 12 de Octubre, Madrid, samt Neocodex godkendt forsøgsprotokol, som var i overensstemmelse med national lovgivning og udføres i henhold til de etiske retningslinjer i Helsinki-deklarationen [35]. Skriftligt informeret samtykke blev opnået fra alle personer, der indgår i dette arbejde.

Ekstern genotype datasæt

genotypebestemmelse data for udvalgte SNPs fra andre GWAS udført i den spanske befolkning (Epicolon kohorte) [23] blev anvendt som reference for de opnåede resultater heri. Konkret denne kohorte bestod i 882 tilfælde og 473 kontroller konstateret gennem Epicolon II-projektet og 194 ekstra kontroller fra den spanske nationale DNA bank.

Genotypning

Perifert blod fra alle tilfælde og kontroller blev anvendt at isolere germlinie DNA fra leukocytter. DNA-ekstraktion blev udført automatisk i overensstemmelse med standardprocedurer under anvendelse af Magnapure DNA isoleringssystemet (Roche Diagnostics, Mannheim, Tyskland).

I hele genomet genotypebestemmelse vi bruges Afymetrix NSPI chip som tidligere beskrevet [33]. For genotypning af udvalgte SNP’er i NXC-VAL prøve ansat vi brugerdefinerede Golden Gate protokoller og Veracode genotypebestemmelsesassay (Illumina, San Diego, Californien USA) i overensstemmelse med producentens anvisninger.

Data tilgængelighed

Association resultater for genotypede og imputerede SNPs leveres som komprimerede Plink filer (Dataset S1 og Datasæt S2). Fra sag til sag genotype data er tilgængelige på anmodning til den etiske komité af IMPPC (Instituto de Medicina Predictiva y personalizada del kræft) i henhold til betingelserne i den spanske lov for Biomedical Research (Ley 14/2007, de 3 de Julio).

kvalitetskontrol analyser

for prøver genotypede hjælp af Affymetrix platformen, vi udførte en omfattende kvalitetskontrol ved hjælp af Affymetrix Genotypning Console Software (https://www.affymetrix.com) og Plink [22] . Kun personer med en prøve opkald på over 93% blev senere igen kaldes med Bayesian Robust Linear Model med Malalanobis (BRLMM) afstand algoritme, løb med standardparametre. BRLLM forbedret takster i de fleste prøver. Self-rapporteret sex blev sammenlignet med sex tildelt af kromosom X genotyper, og uoverensstemmelser blev løst eller prøver fjernet. Programmet Grafisk repræsentation relationer (GRR) [36] blev anvendt til at kontrollere prøve slægtskab og korrigere potentielle prøve fejlmærkning, gentagelser, eller forureninger. SNP’er blev udvalgt til at have et opkald på over 95% (i hvert tilfælde, kontrol, og kombineret gruppe), og en mindre allel frekvens på over 1% (igen i hvert tilfælde, kontrol, og kombineret gruppe). SNPs, der afveg groft fra Hardy-Weinberg ligevægt (HWE) (P-værdi 10

-4) i kontrol prøver også blev fjernet. Vi fjernede også SNPs med en markant anderledes på missingness (P-værdi 5 × 10

-4). Mellem case og kontrolprøver

Ligeledes SNPs genotypede i fase II blev udsat for kvalitet kontrol filtre. Således disse SNPs, der ikke lykkedes genotypede i mindst 80% af personer, og dem med en p-værdi for Hardy-Weinberg ligevægt (HWE) lavere end 0,001 blev kasseret. Hertil kommer, personer med mere end 10% af manglende genotypedata eller der viste slægtskab til hinanden blev også udelukket.

Principal komponenter analyse

Principal komponent analyse blev udført med EIGENSOFT [37] , [38] for at vurdere befolkningens blanding inden for vores befolkning, og at identificere personer som outliers. Vi kørte SMARTPCA program med standardparametre, eksklusive kromosom X markører og bruge uafhængige SNP’er (parvis r

2 0,1). For at minimere effekten af ​​koblingsuligevægt i analysen, langtrækkende koblingsuligevægt regioner tidligere rapporteret [39] eller påvist i vores befolkning blev også udelukket. Enkeltpersoner identificeret som outliers (seks standardafvigelser eller mere langs en af ​​de ti vigtigste komponenter) blev fjernet fra alle efterfølgende analyser. Principal komponent analyse blev kørt sammen med andre HapMap europæiske og befolkninger verden over til at opdage individer af forskellige etniske grupper.

Single locus forening analyse

der ikke justeres enkelt locus allel (1 frihedsgrad, df) forening analyserne blev udført ved hjælp af Plink software [22], uafhængigt inden for hver gruppe af emner fra fase i eller fase II. Meta-analyse værktøj i Plink blev anvendt til at analysere kombinerede data fra forskellige datasæt. I disse studier blev faste effekter modeller anvendes, når der blev ikke fundet tegn på heterogenitet. Ellers var tilfældige effekter modeller anvendt. En GWAS betydelig p-værdi blev fastlagt på 5 × 10

-8 [40]. Plink blev også anvendt til at estimere den genomiske inflation faktor. Haploview software [41] blev anvendt til grafisk gengivelse af GWAS enkelt locus analyseresultater (Manhattan plot). Den overensstemmelse mellem det fundne effekt og den rapporterede effekt for disse SNPs tidligere fundet at være forbundet med CRC blev analyseret ved lineær regression efter logaritmisk transformation af odds ratioer.

To locus forening analyse

med sigte på at opdage potentielle epistatisk

loci

, vi udforsket hele universet af to-locus interaktioner (alle SNP x SNP interaktioner) ved hjælp af gratis Clinical Kloning (HFCC) software hypotese som tidligere [18] beskrevet. Kort beskrevet i fase blev skabt I tre forskellige replikationssystemer grupper af 160 tilfælde og 267 kontroller. For at blive betragtet som en foreløbig positiv resultat blev chi-square (1 df) test afskæringsværdi fastsat til 6,64 (p 0,01) og retningen af ​​effekten skulle være den samme for hver replikation gruppe (der tilnærmer til p 1 × 10

-6 end alle tre replikering grupper)

for at udforske naturen og styrken af ​​interaktioner i udvalgte to-locus mønstre, vi evalueres yderligere epistasis blandt udvalgte markører ved hjælp Alambique software [. ,,,0],18]. Konkret Alambique var programmeret til at måle afgang fra additive modeller ved at beregne Synergy-indekset, AP eller Reri statistik, mens afgang fra mangfoldighed blev målt ved at beregne strata-specifikke odds ratio og tilfælde kun interaktion test. Algoritmerne inkluderet i Alambique software er tidligere blevet beskrevet andetsteds [42], [43].

Under valideringsprocessen disse SNP’er udvalgt af HFCC der lykkedes genotypede i NXC-VAL prøve blev analyseret for replikation . I dette tilfælde to grupper af replikation blev skabt: den NXC-GWAS prøve og NXC-VAL prøve. Når de udvalgte par blev også studeret i Epicolon kohorten blev tre grupper af replikation oprettet:. NXC-GWAS, NXC-VAL og Epicolon prøve

Multiple-test korrektion blev anvendt i disse undersøgelser, der tager hensyn til antal forskellige SNP-par genereret. Således blev tærsklen p-værdi fastsat på (p = 3,12 × 10

-12 (0,05 /samlet antal SNP-par genereret i fase I datasæt).

For at teste de to-locus interaktion, der tidligere var forbundet med CRC modtagelighed [21], dvs. rs1571218 (20p12.3) og rs10879357 (12q21.1), vi modelleret interaktionen ved hjælp af lineær regression med SPSS-software 19,0 (IBM Corporation, Somers, NY, USA).

Imputation

Vi imputerede genotyper hjælp HapMap fase 2 CEU stiftere (n = 60) som en reference panel med Plink [22] Genotype opkald med kvalitet scorer højt (info 0,8). blev brugt i efterfølgende forening analyser.

Støtte oplysninger

figur S1.

Scatterplot af de to vigtigste egenvektorer opnået fra den vigtigste komponent analyse udført på 801 kontroller (grønne cirkler) og 480 tilfælde (blå cirkler) udvalgt til fase-i forening undersøgelse

doi:. 10,1371 /journal.pone.0101178.s001

(PDF)

Figur S2

fraktilestime-fraktilestime (QQ) plot af den konstaterede og forventede X2 værdier. opnået fra studiet af sammenhængen mellem SNP genotype og kolorektal cancer risiko

doi:. 10,1371 /journal.pone.0101178.s002

(PDF)

figur S3.

Sammenhæng mellem effekterne (OR) findes i NXC-GWAS og de rapporterede effekter for de 16 SNPs tidligere fundet at associere med CRC risiko. Den blå linje repræsenterer perfekt korrelation. Den grønne linje viser sammenhængen eksklusive outlayer rs16969681 (rød cirkel). Denne SNP blev oprindeligt rapporteret i UK2 GWAS med en OR på 1,247, der nåede GWAS signifikant efter metaanalyse med andre Nordeuropa GWAS men blev ikke gentaget i Epicolon GWAS af Sydeuropa. Determinationskoefficienten (R2) og p-værdi (Pearsons P) af sammenhængen er angivet. Uden at udelukke den rs16969681, determinationskoefficienten og p-værdi var 0,28 og 0,035 henholdsvis

doi:. 10,1371 /journal.pone.0101178.s003

(PDF)

tabel S1. Salg Best fase I resultater, som Plink

doi:. 10,1371 /journal.pone.0101178.s004

(DOC)

tabel S2. Salg Best SNP × SNP interaktioner opnået ved HFCC software

doi:. 10,1371 /journal.pone.0101178.s005

(DOC)

tabel S3.

SNPs indgår i fase II og meta-analyseresultater de

doi:. 10,1371 /journal.pone.0101178.s006

(DOC)

Tabel S4.

SNPs inkluderet i meta-analyseresultater stadie II og globale

doi:. 10,1371 /journal.pone.0101178.s007

(DOC)

tabel S5.

Nærmere oplysninger om de opnåede resultater i hver prøve fra de SNPs, der viste de bedste resultater i den globale metaanalyse

doi:. 10,1371 /journal.pone.0101178.s008

(DOC)

datasæt S1.

Plink association fil af genotypede SNP’er

doi:. 10,1371 /journal.pone.0101178.s009

(ZIP)

Datasæt S2.

Plink association fil af imputerede SNPs

doi:. 10,1371 /journal.pone.0101178.s010

(ZIP)

Tak

Professor Manuel Serrano Rios, principal investigator af “Proyecto Segovia”, er anerkendt for at rekruttere personer er repræsentative for den spanske befolkning for kontrolgruppen.

Be the first to comment

Leave a Reply