PLoS ONE: Anvendelse af Multi-SNP Approaches Bayesian LASSO og AUC-RF til Detect Main Effekter af inflammatorisk-genvarianter associeret med blærekræft Risk

Abstrakt

Forholdet mellem betændelse og kræft er veletableret i flere tumor typer, herunder blærekræft. Vi udførte en forening undersøgelse mellem 886 inflammatorisk-genvarianter og blære kræftrisiko i 1.047 tilfælde og 988 kontroller fra den spanske blærekræft (SBC) /Epicuro Study. En foreløbig undersøgelse med udbredte univariat logistisk regression tilgang ikke identificere nogen signifikant SNP efter korrektion for multiple test. Vi anvendte yderligere to mere omfattende metoder til at indfange kompleksiteten af ​​blærekræft genetisk modtagelighed: Bayesian Threshold LASSO (BTL), en normaliseret regression metode, og AUC-Tilfældig Forest, en maskine-learning algoritme. Begge tilgange udforske fælles effekt af markører. BTL-analyse identificeret en underskrift af 37 SNPs i 34 gener, der viser en forening med blærekræft. AUC-RF opdaget en optimal prædiktiv delmængde af 56 SNPs. 13 SNP’er blev identificeret ved begge metoder i den samlede befolkning. Brug ressourcerne fra Texas blærekræft undersøgelse var vi i stand til at replikere 30% af SNPs vurderede. Foreningerne mellem inflammatoriske SNPs og blærekræft blev igen undersøgt blandt ikke-rygere at eliminere virkningen af ​​tobak, en af ​​de stærkeste og mest udbredte miljømæssig risikofaktor for denne tumor. En 9 SNP-signaturen blev opdaget af BTL. Her rapporterer vi for første gang, et sæt af SNP i inflammatoriske gener i fællesskab forbundet med risiko blærekræft. Disse resultater understreger betydningen af ​​den komplekse struktur af genetisk modtagelighed forbundet med kræftrisiko

Henvisning:. De Maturana EL, Ye Y, Calle ML, Rothman N, Urrea V, Kogevinas M, et al. (2013) Anvendelse af Multi-SNP Approaches Bayesian LASSO og AUC-RF til Detect Main Effekter af inflammatorisk-genvarianter associeret med blærekræft Risk. PLoS ONE 8 (12): e83745. doi: 10,1371 /journal.pone.0083745

Redaktør: Chuhsing Kate Hsiao, National Taiwan University, Taiwan

Modtaget: Juni 25, 2013; Accepteret: November 7, 2013; Udgivet: December 31, 2013

Copyright: © 2013 de Maturana et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Arbejdet blev delvist støttet af Fondo de Investigación Sanitaria, Instituto de Salud Carlos III (G03 /174, 00/0745, PI051436, PI061614, PI09-02102, G03 /174 og Sara Borrell fællesskab til ELM) og Ministeriet for videnskab og innovation (MTM2008 -06.747-C02-02 og FPU fællesskab award til VU), Spanien; AGAUR-Generalitat de Catalunya (Grant 2009SGR-581); Fundacióla Maratóde TV3; Red Tematica de Investigación Cooperativa en KRÆFT (RTICC); Asociación Española Contra el cancer (AECC); EU-FP7-201663; og RO1- CA089715 og CA34627; den spanske nationale institut for Bioinformatik (www.inab.org); og af Intramural Research Program for afdelingen for Epidemiologisk Kræftforskning og Genetik, National Cancer Institute, USA. MD Anderson støtte til dette projekt omfattede U01 CA 127.615 (XW); R01 CA 74880 (XW); P50 CA 91.846 (XW, CPD); Betty B. Marcus Chair fond i Cancer Prevention (XW); UT Research Trust fond (XW) og R01 CA 131.335 (JG). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Blærekræft (BC) er den femte mest almindelige neoplasme i form af forekomsten i industrialiserede lande tegner sig for ca. 5-7% og 2-2,5% af de nydiagnosticerede maligniteter hos mænd og kvinder henholdsvis. BC er en af ​​de mest udbredte cancere på grund af sin kroniske karakter [1]. Tobak og erhvervsmæssig udsættelse for aromatiske aminer er de to bedst etablerede miljømæssige risikofaktorer [2], [3]. Derudover har stærke beviser for indflydelsen af ​​fælles genetiske varianter på BC udvikling opnået i de seneste år [4], [5]. Genetisk disposition for BC er blevet undersøgt i forbindelse med gener, der koder enzymer involveret i metabolismen af ​​xenobiotiske, apoptose, cellecykluskontrol, angiogenese og inflammation [4]. Med hensyn til sidstnævnte proces, er der tegn på, at inflammatoriske celler, proinflammatoriske cytokiner og kemokiner bidrager til immunosuppression, cancervækst og progression [6]. Et link mellem kronisk inflammation og BC er støttet af foreninger fundet mellem

Schistosoma haematobium

og pladecellekræft [7], og mindre konsekvent, mellem urotelial celle karcinom og andre typer af urinvejsinfektion [8]. Desuden den beskyttende virkning af lang tids brug af non-steroide anti-inflammatoriske lægemidler observeret i nogle case-kontrol studier understøtter en rolle af inflammation i denne cancer [9], [10].

Mest association undersøgelser har fokuseret på påvisning af de vigtigste virkninger ved at benytte allel- eller genotype-baseret test for hver enkelt (SNP) separat. Det er imidlertid kendt, at komplekse træk, herunder BC, forklares ved flere loci med temmelig små individuelle effekter [11]. Således vil denne enkle strategi sandsynligvis fange kun en lille del af den samlede genetiske varians af sygdommen følger af alle varianter [12]. Derfor strategier for at vurdere på samme tid flere SNP’er og der er behov deres interaktion effekter. Standard statistiske metoder såsom logistisk regression er ikke velegnet til dette formål. Dette niveau af genetisk kompleksitet er en statistisk udfordring i associationsstudier på grund af det store antal regressionskoefficienter (

s

) i sammenligning med prøve størrelse (

n

). Machine learning algoritmer giver alternativer til at udføre multi-SNP-analyse [13]. Disse algoritmer er meget tiltalende, da de er model specifikation-fri og kan fange skjulte oplysninger. Random Forest (RF), en klassificering algoritme forslag Breiman [14], der kan anvendes til at identificere de vigtigste variabler i relation til sygdommen, er også blevet anvendt med succes til genom data [15]. For nylig er en algoritme til variablens blevet foreslået (AUC-RF): den identificerer sæt variabler med den højeste prædiktive nøjagtighed ved at optimere AUC (arealet under ROC-kurven) af en sekvens af tilfældige skove [16]. Andre metoder til at håndtere overmættede regression problemer [17], der er at vinde anerkendelse er de legaliseret regression metoder, såsom ridge regression [18], de mindst Absolute Svind og Selection Operator (LASSO) [19], og dens Bayesian udgave [20] . Disse metoder straffes sandsynlighed procedurer, hvor passende sanktionsordninger funktioner føjet til den negative log-sandsynligheden for automatisk at skrumpe falske effekter (effekter af overflødige kovariater) mod nul, mens effektivt anslå de relevante. Bayesian version af LASSO giver flere fordele i forhold højderyg regression eller den klassiske LASSO. Som andre Bayesian modeller, det giver foranstaltninger af usikkerhed om skøn og forudsigelser, og som en konsekvens, gyldige standardfejl, som kan være problematisk for den frequentist LASSO [21]. Desuden giver markør-specifik krympning af effekt estimater, i modsætning til ridge regression, og overvinder den vigtigste begrænsning af LASSO der optager højst

n Salg -1 nonzero regressionskoefficienter [22].

Indtil nuværende, hele genom associationsstudier (GWAS) analyseres individuelt et stort antal SNPs, de fleste af dem ligger i regioner, der ikke er forbundet med træk af interesse, mens andre i LD med den kausale variant. Denne fremgangsmåde er utilfredsstillende for egenskaber påvirkes af en lang række varianter /gener [12]. En alternativ strategi er pathway analyse, der beskæftiger sig med den fælles vurdering af en delmængde af SNPs med en potentiel funktionel effekt på fænotypen af ​​interesse.

Hovedformålet med denne undersøgelse var at vurdere, om SNPs i betændelse-relaterede gener spille en rolle i BC udvikling i en stor sag kontrol undersøgelse foretaget i Spanien og efterfølgende at identificere et mønster af disse varianter (signatur) i forbindelse med BC risiko ved at anvende to nyligt udviklede statistiske metoder, Bayesian tærskel LASSO (BTL) model og AUC-RF. For at vurdere robustheden af ​​strategien, blev relevante resultater også analyseret i en uafhængig undersøgelse, Texas blærekræft Study.

Resultater

Sammenfattende statistikker

Tabel 1 viser de karakteristika af tilfældene og kontroller til hele prøven og for ikke-ryger delpopulation. Samlet set undersøgelsen omfattede 1.047 tilfælde og 988 kontroller med genotype data for 886 SNPs i 194 inflammatoriske gener. Den ikke-ryger delmængde bestod af 424 personer, 147 som var BC tilfælde. Den mediane alder af patienter på diagnosetidspunktet var 68 og 70 år (spænder 22-80 år) for den samlede befolkning og ikke-rygere, hhv. Samlet set cigaretrygning var mere almindelig i de tilfælde end i kontrollerne (86%

vs.

72%) og hos mænd end hos kvinder (87%

vs.

22%). Derfor er andelen af ​​mænd var anderledes i begge sæt individer:. 87% og 35% for den samlede undersøgelse, og for ikke-rygere, henholdsvis

Samlet befolkning analyse

anvendelse af Bayesian Threshold LASSO giver hver SNP sin bageste sandsynlighed for at blive associeret med BC. I figur 1 viser vi fordelingen af ​​den bageste sandsynligheden for hver SNP sorteret i faldende orden. SNPs blev anset for at være forbundet til BC, hvis den bageste sandsynligheden for at være højere /lavere end 0 var 80%. Denne strategi er identificeret 37 SNPs i 34 gener, der viser en forening med BC. Den højeste bageste sandsynlighed (dvs. mest relevante forening) var 96,07% for

CASP3-

rs3087455, mens laveste var 51,98% for

TLR2-

rs3804100. Den SNP’er med en beskyttende mindre allel var:

CASP3-

rs3087455,

CCR3-

rs3091312,

CASP9-

rs2020902,

IL17A-

rs8193036,

MAP3K7-

rs150126,

IL6R-

rs8192284,

BLNK-

rs3789928,

SCARB1-

rs4765621,

FOS-

rs7101,

TBK1-

rs10878176,

BIRC5-

rs744120,

LY96-

rs17226566,

AICDA-

rs11046349,

MAP2K4-

rs4791489,

IL15-

rs17461269,

CD14_IK-r

s2569190,

JAK3-

rs11888 og

TNFRSF10A

-rs4871857. OR posterior betyder varierede fra 0,81 til 0,93, når man sammenligner den mindreårige med de fælles homozygote genotyper (tabel 2). De SNPs med den mindre allel forbundet med en øget risiko for BC var:

PRF1-

rs10999426,

IL7R-

rs1494555,

ABCA1-

rs2230806,

IFNAR2-

rs2236757,

MASP1-

rs710459,

BLNK-

rs12357751,

MAP3K3-

rs7209435,

BLNK-

rs10882755,

TLR2-

rs3804099,

SOCS6-

rs723279,

IL17C-

rs899729,

TLR4-rs2737191

,

FOS-

rs1063169,

ABCC4-

rs3765535,

PARP4-

rs13428,

BIRC3-

rs11602147,

IL21R-

rs8049804,

FADD

-rs7939734 og

ICAM1-

rs5498. De bageste hjælp af yderste periferi varierede fra 1,10 til 1,20, når man sammenligner den mindreårige med fælles homozygote genotyper. Alle de fundne SNPs var i Hardy-Weinberg ligevægt i kontrolpopulationen. Single-SNP logistiske regressionsmodeller gav

p-værdier

0,05 for 17 af dem (af i alt 32, se tabel S1) med et minimum

s

værdi

af 0,0021, ikke korrigeres ved multiple test. Den anslåede ELLER svarende til 37 SNPs-signatur var 4,92 (se figur S1 og S2 for flere detaljer). De 95% interval for OR, når man sammenligner den største risiko genotypen kombination med den højeste beskyttende ene varierede fra 31,2 til 629,4. Den brede vifte af troværdigheden interval viser den store fejl i forbindelse med skønnet. Posterior betyde, median og modus af den asymmetriske bageste fordeling var 206,5, 123,5 og 63,8 henholdsvis.

prik punkt linje angiver cut-off punkt på 80%, over hvilken SNPs blev overvejet.

AUC-RF overvejet både genetiske og ikke-genetiske variabler og opdaget en optimal delmængde af 59 faktorer, herunder 56 SNPs (tabel S2). Alle de miljømæssige kovariater, med undtagelse af køn, blev rangeret først: rygning status blev rangeret som den mest relevante variable, med et gennemsnitligt fald Gini-indeks (MDG) på 11,55, efterfulgt af geografisk område med en relativ betydning 35,2%. Den alder af patienten blev rangeret i tredjepladsen med en relative betydning af 19,4%, efterfulgt af SNPs. Tabel 3 viser de 12 vigtigste SNPs påvises ved denne metode. Deres relative betydning varierede fra 20,8% til

JAK3

-rs2286662 til 14,4% for

AKR1C3

-rs1937845.

Tretten SNPs i

CASP3

,

PRF1

,

IL7R

,

ABCA1

,

IL6R

,

MASP1

,

SCARB1

,

TLR2

,

IL17C

,

MAP2K4

,

CD14_IK

,

FADD

, og

ICAM1

blev identificeret som relevant af både BTL og AUC-RF tilgange (fed SNPs i tabel 2, se også figur 2a.). Blandt dem, 6 SNP’er placeret i

CASP3

,

PRF1

,

IL7R

,

ABCA1

,

IL6R

og

CD14_IK

havde en

p-værdi

0,05 ved logistisk regression justeret med kovariater (se tabel 2, for flere detaljer). Betydningen af ​​ingen af ​​dem holdt efter Bonferroni korrektion for multiple test [23]. Trods det faktum, at ingen signifikant sammenhæng blev fundet efter udførelse af enkelt markør analyser, placeringen af ​​SNPs stærkt korreleret med den, der opnås fra bageste sandsynlighed BTL-baserede resultater (Spearman s korrelation, rho = 0,78).

(A ) Antal SNP’er opdages af hver metode i den samlede befolkning. (B) Antal SNP’er opdages af hver metode i den ikke-ryger delmængde. (C) Antal af fælles SNPs detekteret af BTL i den samlede befolkning og ikke-ryger delmængde, med posteriore sandsynligheder på mindst 80% og 75% for at have en effekt forskellig fra 0. (D) Antal SNP’er detekteret af AUC-RF i både den samlede befolkning og ikke-ryger delmængde.

genotyper for 17/37 SNPs med en posterior sandsynlighed højere end 80% i opdagelsen fase var tilgængelig fra TXBC studiet og denne information blev brugt til replikering formål. Desuden blev 13 SNPs i høj LD med SNPs detekteret af BTL i opdagelsen fase inkluderet i fase 2 analyser. Tabel S3 viser posteriore sandsynligheder er større /mindre end 0 og den posteriore gennemsnit af yderste periferi opnået i replikation sæt. To SNP’er (

IL6R-

rs4129267 og

TBK1-

rs10878182) i høj LD med

IL6R

-rs8192284 og

TBK1-

rs10878176 påvist i opdagelsen undersøgelse af BTL havde posterior sandsynligheder for at have en ikke-nul effekt højere end 90%. Den OR af disse surrogat SNPs var risiko mens dem, der i opdagelsen studiet var af beskyttelse. Fem yderligere SNP’er (

IL21R-

rs9930086 – i høj LD med

IL21R

-rs8049804, og

MAP3K3-

rs7209435, IL17A-rs8193036, FADD-rs7939734, og TLR2- rs3804099) viste posterior sandsynligheder 70%, den tærskel i betragtning til replikation. De yderste periferi af disse 5 SNPs var af samme størrelse og retning som dem, der findes i opdagelsen studiet.

Ikke-ryger delmængde analyse

Tobaksrygning er den stærkeste og mest udbredte miljømæssig risikofaktor for BC og det kan ændre virkningen af ​​SNP’er i inflammationsrelaterede gener. Derfor udførte vi foreningen analyse blandt ikke-rygere at omgå dens virkning. I en sådan sammenhæng, BTL opdaget kun to relevante SNPs (

BCL10-

2.647.396 og

NFKBIA-

rs696) i forbindelse med risiko for BC med en posterior sandsynlighed på mindst 80%. De to SNP’er blev også påvist ved AUC-RF (se figur 2b). Når vi udvidet posterior sandsynlighed (≥75%), antallet af SNP’er detekteres af begge fremgangsmåder øges op til 8 i 8 gener (se tabel 4). ELLER posterior betyder varierede fra 1.12-1.16 for disse SNP’er viser en øget risiko for BC, når man sammenligner de to homozygote genotyper, og fra 0.89-0.91 for dem med en beskyttende virkning. Univariate logistisk regressionsanalyse givet betydelige resultater for de 8 SNPs med et minimum

s

værdi

af 0,0032, ikke korrigeres ved multiple test. OR mediane posterior densitet svarende til 9 SNP’er-signatur detekteres af BTL var 2,73, med en bageste sandsynlighed på 99% for at være . 1 og et interval mellem 1,35 og 6,66 som 95% troværdig interval (se figur S3)

AUC-RF opdaget en optimal delmængde af 93 variabler i relation til BC, 90 som var SNPs (tabel S4). I modsætning til resultaterne i den samlede befolkning, køn var den vigtigste kovariant relateret til BC blandt ikke-rygere, og alder og region var på den tredje og fjerde position, hhv.

Almindelige SNPs mellem total og ikke- ryger datasæt

tal 2c og 2d viser antallet af SNPs opdages af både BTL og AUC-RF i SBC /Epicuro studie for både hele befolkningen og ikke-ryger individer. Der var ingen fælles SNPs detekteret af BTL for de befolkningsgrupper sæt med posteriore sandsynligheder større end 80%. Men når den bageste sandsynlighed anvendte var, ≥75%, blev påvist tre SNPs i begge datasæt:

MAP2K4-

rs4791489,

PRF1

-rs10999426 og

BCL10

-rs2647396.

Når fokus på AUC-RF resultater, 24 SNPs (

ABCA1-

rs2230806,

AICDA-

rs2580874,

ALOX5-

rs1369214,

BCL10-

rs2647396,

CD2-

rs3136701,

CD4

rs2707210,

FADD-

rs7939734,

FASLG-

rs929087,

H2AFX-

rs640603,

H2AFX-

rs643788,

IKBKB-

rs3747811,

IL15RA-

rs2296135,

IL21R-

rs2189521,

JAK3-

rs2286662,

MAP2K4-

rs4791489,

MASP1-

rs710459,

NFKBIA-

rs696,

OPRD1-

rs204076,

PRF1-

rs10999426,

relationer

rs11820062,

relationer

rs1466462,

SCARB1-

rs4765621,

TBK1

-rs10878178 og

TMED7-

rs2052834) blev identificeret i begge datasæt, der repræsenterer 43% og 27% af de udvalgte i alt og ikke-ryger fag hhv.

diskussion

Som alle komplekse SNPs sygdomme, BC er ikke en eneste SNP /gen lidelse. Tværtimod kan mange SNPs med små effekter føre til svækkelse af de vigtigste veje er involveret i deres patofysiologi. Identifikationen af ​​sådanne SNP-signaturer er en analytisk udfordring, der kræver anvendelse af nye omfattende statistiske metoder. Til vores viden, er dette den første undersøgelse om BC analysere et stort antal SNPs med BTL der har identificeret en delmængde af dem i fællesskab at bidrage til denne fænotype med en relevant størrelse af risiko, meget højere end der tilbydes af rygning (OR = 5 [ ,,,0],2]), den vigtigste risikofaktor for BC.

Tretten SNPs i 13 gener blev identificeret ved både BTL og AUC-RF, der kan betragtes som en intern validering. SNPs i

CASP3

,

IL6R

,

SCARB1

,

MAP2K4

CD14_IK

viste en beskyttende virkning mens de i

PRF1

,

IL17R

,

ABCA1

,

MASP1

,

TLR2

,

IL17C

,

FADD

ICAM1

var forbundet med en højere risiko for BC. Hver SNP viste en lille individuel virkning, som ikke kunne have været identificeret af logistisk regression, den fælles analytisk fremgangsmåde, der anvendes i GWAS, efter anvendelse af konservative Bonferroni korrektion for multiple test.

Vi fandt tidligere offentliggjorte beviser om foreningen af flere af disse SNP’er /gener med risiko kræft trods for, at denne information ikke blev anvendt i SNP selektion. Blandt dem,

SCARB1

koder for scavenger receptor klasse B type I-genet, en celleoverfladereceptor, der binder til high-density lipoprotein kolesterol (HDL-C) og medierer HDL-C optagelse [24], [ ,,,0],25].

SCARB1

-rs4765621 kort til intron 1 og er blevet forbundet med en øget risiko for BC i kombination med

SLC23A2

-rs12479919,

AKR1C3

-rs2275928 og

PLA2G6 – iBooked.dk rs2016755 [26]. Denne SNP er i bindingsuligevægt med

SCARB1

-rs4765623 der har været forbundet med renalcellecarcinom [27].

MAP2K4

koder en dobbelt specificitet Ser /Thr protein kinase. Alleliske ubalancer i dette gen er blevet rapporteret i blæretumorer [28]. Endvidere deletioner og mutationer af

MAP2K4

er beskrevet human pancreas, lunge, bryst, testikel, og kolorektale cancercellelinjer, hvilket antyder en tumor suppressor rolle [29].

MAP2K4-

rs4791489 ligger 1226 bp nedstrøms af genet og det er den første undersøgelse til at rapportere en forening med en fænotype.

IL7R

koder for receptoren for IL-7, en cytokin involveret i T-celle differentiering og aktivering.

IL7R

variation er blevet forbundet med kroniske inflammatoriske sygdomme og cancer:

IL7R

-rs1494555 har været forbundet med en øget risiko for mavekræft [30], hæmatologiske neoplasmer – ved interaktion med en høj BMI – [31], og ikke-småcellet lungekræft, hvor den blev opdaget af både logistiske regression og tilfældig skov test [31]. Denne SNP fører til en Ile

138Val substitution for hvilke der ikke er funktionel beviser.

CD14

spiller en stor rolle i patogen-aktiveret signaltransduktionsveje og i produktionen af ​​inflammatoriske cytokiner [32].

CD14_IK-

rs2569190 har været forbundet med prostatakræft i afroamerikanere [33], og med kranspulsåren og cerebrovaskulære sygdomme [34], [35].

PRF1

koder for perforin 1, en af ​​de vigtigste toksiske proteiner af cytolytiske granuler og en central effektor i T-celle- og naturlig killer-cellemedieret cytolyse. Dens ændringer forårsager familiær hemophagocytic lymphohistiocytosis type 2 (HPLH2), en sjælden og dødelig autosomal recessiv lidelse i den tidlige barndom.

PRF1

-rs10999426 er blevet grupperet med andre gener associeret med cytotoksiske T-celler i en kolorektal cancer undersøgelse: høj ekspression af de cytotoksiske cluster gener var forbundet med en forlænget sygdomsfri overlevelse [36]. Opløseligt interleukin-6-receptor-α-underenhed (

IL-6R

) er et potent cytokin spiller en vigtig rolle i immunresponset. Ændret gen-ekspression er blevet associeret med multipelt myelom, autoimmunsygdomme og prostatakræft risiko [37]. Den SNP

IL6R

-rs7529229, i bindingsuligevægt med

IL6R

-rs8192284, er også blevet forbundet med risiko for myelomatose [37].

Vi yderligere fokuseret på vurdering af ikke-rygere til at skille den potentielle modificerende effekt af tobak på sammenhængen mellem genetiske varianter og blærekræft risiko. Kun to polymorfier associeret med BC blev påvist af både analytiske metoder:

NFKBIA-rs696

BCL10-rs2647396

.

NFKBI

er involveret i reaktion på stress, regulerer

COX-2

og proinflammatoriske cytokiner, og er en vigtig mediator af onkogenese [38].

NFKBIA-rs696

homozygositet er blevet forbundet med en dårligere overlevelse i svenske patienter med kolorektal cancer [39]. Andre undersøgelser har knyttet sletning af

NFKBIA

med glioblastom multiforme [40] og Hodgkins lymfom prøver [41].

NFKBIA-

rs696 er i koblingsuligevægt med rs8904, en variant, der har været forbundet med smerte sværhedsgrad i patienter med lungecancer [42].

BCL10

, associeret med beskyttelse fra BC i vores undersøgelse, spiller en vigtig rolle i NF-kappaB og STAT signalveje [40], er det blevet foreslået at deltage i bugspytkirtlen carcinom [43] og

MALT

lymfomer som en del af t (1,4) (p22, q32) translokation [44].

BCL10-rs2647396

er intron og ingen funktion er kendt for denne polymorfi.

Brug en uafhængig befolkning og surrogat SNPs i høj LD med dem, der i opdagelsen studiet, vi gentaget foreningen med SNPs i

IL6R

og

TBK1

identificeret ved BTL. Den omstændighed, at de opnåede i replikation undersøgelse yderste periferi var i modsat den tilsvarende detekteret i opdagelsen undersøgelse kan forklares ved brug surrogat SNPs. Greene

et al.

Nyligt vist med simuleret data, at forskelle i allelfrekvens også kan give en inversed allelisk virkning i et replikation undersøgelse [45]. Når tærsklen til den bageste sandsynlighed blev sænket til 70%, blev sammenslutningen af ​​yderligere fem SNPs også kopieret. Samlet set var vi i stand til at replikere 30% af de udvalgte SNPs fra BTL tilgængelige i TXBC studiet, et tal, der er bemærkelsesværdigt, når man overvejer at BC i høj grad er forårsaget af miljømæssige faktorer, og at begge undersøgelser kommer fra forskellige geografiske områder og fra centre med tydelig patient referral mønstre (i SBCS undersøgelsen fleste centre er almindelige hospitaler mens TXBC undersøgelse blev udført på MD Anderson Cancer center). Andre foreslåede årsager til manglende replikation er genetisk heterogenitet, miljøvekselvirkninger, aldersrelaterede afhængige effekter, utilstrækkelig statistisk styrke, og gen-gen interaktioner, sidstnævnte forklaring peger på en større kompleksitet af den underliggende genetiske arkitektur [45]. Vi har ikke forsøgt at replikere SNPs identificeret af AUC-RF fordi denne metode afhænger i høj grad af de oprindelige variable overvejes. Sørgeligt, data fra en række af de oprindelige SNPs overvejes i opdagelsen fase var ikke tilgængelige i undersøgelsen bruges til replikering.

Den nuværende undersøgelse har flere store styrker. Vigtigt er det, det gælder innovative analytiske tilgange beskæftiger sig med den biologiske kompleksitet fænotype. Association analyser blev udført ved at anvende en normaliseret regressionsmodel (BTL) og en parametrisk variabel udvælgelsesmetode (AUC-RF), ud over den indre markør ubetinget logistisk regression, anvendes i de fleste associationsstudier. De første to metoder overvinde den væsentligste begrænsning af sidstnævnte da de anser alle den genetiske information i fællesskab. Anvendelsen af ​​individuelle logistisk regression giver mening under den antagelse, at kun få gener påvirker genetisk disposition [12], hvilket bestemt ikke er tilfældet for BC. BTL mener a priori, at det meste af SNPs har en lille (hvis nogen) effekt på udvikling af sygdom, og udfører en markør specifik skrumpning af effekt skøn [20]. Denne tilgang tillader beskæftiger sig med de “små

n

stor

s”

problem og forhindrer overfitting. De los Campos m.fl. [22] foreslog denne metode som et interessant alternativ til at udføre regressioner på markører under en additiv model. Vi betragtes som forbundet til BC disse SNPs med en posterior sandsynlighed 0,8 for at have en effekt større (mindre) end 0, som i [45]. Andre kriterier, som Bayesian LOD score 3,2 [46] eller “arvelighed af markøren” 0,5% [47], er blevet anvendt i tidligere anvendelser af BL. Valget af disse kriterier er vilkårlige, fordi de ikke er blevet formelt sammenlignet endnu. Tværtimod betyder AUC-RF påtager sig intet model og mener alle mulige interaktioner mellem de kovariater inkluderet i analyserne. Det giver et mål for betydningen af ​​den variable, selv om det ikke angive, om effekten af ​​denne variabel er beskyttende eller risikabelt. Det er også vigtigt at understrege, at de udvalgte variable med AUC-RF ikke nødvendigvis signifikant associeret med egenskaben; snarere, de repræsenterer kombinationen af ​​genotyper, der bedst forudsiger indikatoren sygdom og er således fortjener yderligere undersøgelse. Vi gav prioritet til de SNPs udvalgt af begge metoder, selv om SNPs udvalgt af kun én af dem, bør ikke kasseres på grund af den anden karakter og forudsætninger for hver metode. Yderligere metodiske styrker af undersøgelsen er den store stikprøve størrelse, de høje erhvervsfrekvens, og den høje kvalitet af oplysninger om eksponeringer og genotypebestemmelse af SBC /Epicuro Study.

Men har brug for nogle begrænsninger skal overvejes ved fortolkningen disse resultater. Det er muligt, at potentielt informative modtagelighed markører ikke blev udvalgt til genotypebestemmelse. Desuden kan ufuldstændig mærkning af de udvalgte gener være fremkommet ved brug af et ældre HapMap frigivelse for at vælge tag SNPs. Derfor bør ikke ses bort fra disse gener med SNPs uden relevante resultater i denne undersøgelse som potentielt er forbundet med BC. Som for de begrænsninger af den anvendte metode, BTL antager kun en additiv arvegang, og ingen interaktioner blev overvejet. En fælles ulempe ved machine learning metoder, såsom AUC-RF, er, at de typisk identificere et SNP sæt, der giver den højeste klassifikation nøjagtighed, men ikke nødvendigvis svarer til en stærk association med sygdommen. Faktisk tendens machine learning tilgange til at introducere falske positiver, idet optagelsen af ​​mange SNPs øger klassificering nøjagtigheder [48].

Den store forskel i Risikoestimaternes efter BTL mellem den samlede og den ikke-ryger datasæt antyder en potentiel modificerende virkning af tobak over SNP-signatur på BC risiko. Mens statistisk underdimensioneret resultaterne ikke kan kasseres, en stor rygning * SNPs interaktion vurdering overvejer alle SNPs indgår i undersøgelsen skal udføres. Denne analyse kræver yderligere metode innovation og store beregningsmæssige infrastruktur.

Som konklusion, vi rapporterer her fælles virkning af flere varianter i inflammatoriske gener stærkt forbundet med BC risiko. Brugen af ​​multi-SNP vurdering tilgange til at udforske de skjulte arvelighed af komplekse sygdomme er meget lovende i foreningen analyse feltet. Mens anvendelsen af ​​disse metoder på en genom-plan er ligetil, den store beregningsmæssige efterspørgsel repræsenterer den største hindring og få studier har anvendt dem til at genom-dækkende data i forbindelse [15] eller forudsigelse indstillinger [49] indtil stede. Vores er en af ​​de første undersøgelser, der anvender sådanne metoder til et stort sæt af SNPs i kræftforskning.

Materialer og metoder

Etik erklæring

informeret skriftligt samtykke blev opnået fra undersøgelsens deltagere. Undersøgelsen blev godkendt af Institutional Review Board af det amerikanske National Cancer Institute, de etiske komitéer for hver deltagende hospital, MD Anderson Cancer Center, og Baylor College of Medicine.

studiepopulation

befolkningen betragtes i denne analyse stammer fra den spanske blærekræft /Epicuro Study. Dette er et hospital-baseret case-kontrol undersøgelse gennemført i 1998-2001 i 18 hospitaler i fem områder i Spanien (Asturias, Barcelona storbyområde, Vallès /Bages, Alicante og Tenerife), som beskrevet andetsteds [50]. Støtteberettigede sager blev i alderen 21-80 år og nyligt diagnosticeret af en histologisk bekræftet overgangsordning celle karcinom i urinblæren baseret på system WHO og International Society of Urologiske Patologi [51] i 1998. 0,0001.

Be the first to comment

Leave a Reply