PLoS ONE: Målrettet Re-sekventering Identificerede rs3106189 ved 5 ‘UTR af TAPBP og rs1052918 ved 3’ UTR af TCF3 at være forbundet med den samlede overlevelse af kolorektal cancer Patients

Abstrakt

Nylige undersøgelser har vist, kraften i dybe re-sekventering af hele genomet eller exome i forståelsen cancer genomer. Imidlertid målrettet indfangning af udvalgte genomiske hele gen-kropsregioner, snarere end hele exome, har flere fordele: 1) generne kan vælges baseret på biologi eller en hypotese; 2) mutationer i promotor og intron regioner, som har vigtige regulatoriske roller, kan undersøges; og 3) billigere end hele genomet eller hele exome sekventering. Derfor designede vi custom high-density oligonukleotid mikroanalyse (NimbleGen Inc.) at indfange ca. 1,7 Mb målregioner omfatter de genomiske regioner af 28 gener relateret til kolorektal cancer, herunder gener, der tilhører WNT signalvejen, samt vigtige transkriptionsfaktorer eller colon -specifikke gener, som er overudtrykt i kolorektal cancer (CRC). De 1,7 Mb målrettede regioner blev sekventeret med en dækning varierede fra 32 × til 45 × til de 28 gener. Vi identificerede i alt 2342 sekvensvariationer i CRC og tilsvarende hosliggende normale væv. Blandt dem, 738 var nye sekvens variationer baseret på sammenligninger med SNP-databasen (dbSNP135). Vi valideret 56 af 66 SNPs i en separat kohorte af 30 CRC væv ved hjælp Sequenom MassARRAY IPLEX Platform, hvilket tyder på en validering på mindst 85% (56/66). Vi fandt 15 missense mutationer blandt exoniske variationer, til 21 synonyme SNP’er, der blev forudsagt ændre exoniske splejsning motiver, 31 UTR SNPs, der blev forudsagt at forekomme ved de transcriptionsfaktor bindingssites, 20 intron SNPs beliggende nær splejsningssites, 43 SNPs i konserveret transcriptionsfaktor bindingssites og 32 i CpG-øer. Endelig har vi bestemt, at rs3106189, lokaliseret til 5′-UTR af antigenpræsenterende tapasin bindende protein (TAPBP), og rs1052918, lokaliseret til 3’UTR af transkriptionsfaktor 3 (TCF3), var forbundet med den generelle overlevelse af CRC patienter.

Henvisning: Shao J, Lou X, Wang J, Zhang J, Chen C, Hua D, et al. (2013) Målrettet Re-sekventering Identificerede rs3106189 ved 5 ‘UTR af TAPBP og rs1052918 ved 3’ UTR af TCF3 at være forbundet med den samlede overlevelse af tarmkræft Patienter. PLoS ONE 8 (8): e70307. doi: 10,1371 /journal.pone.0070307

Redaktør: Hiromu Suzuki, Sapporo Medical University, Japan

Modtaget: 14. marts 2013; Accepteret: 19. juni 2013; Udgivet: August 5, 2013 |

Copyright: © 2013 Shao et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne undersøgelse blev støttet af tilskud fra Ministeriet for Videnskab og Teknologi, Kina (2006DFA32950, ​​2006AA02A303, 2012AA02A204,2011ZX09307-001-05) og en bevilling fra National Science Foundation, Kina (81.072.060 /H1618). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

med 639.000 dødsfald om året på verdensplan, kolorektal cancer er den tredje mest almindelige form for kræft og den anden hyppigste årsag til kræft dødsfald i den vestlige verden (WHO, februar 2009 http: //www.who .int /mediacentre /faktablade /fs297 /da /) og i Kina [1], [2]. Til dato har tilbøjelighed til colorektal cancer været kendetegnet ved identifikation af sjældne arvelige mutationer i et lille antal etablerede gener, såsom mutationer af

APC

gen, et gen først identificeret som familiær adenomatøs polypose (FAP) locus-gen [3], der bidrager til kolorektal tumorigenese [1], [4]. SNP’er (single-polymorfier) ​​er den hyppigste form for variation i det menneskelige genom, der forekommer en gang hvert flere hundrede basepar hele genomet [5].

Nylige undersøgelser har vist potentiale magt dybe re-sekventering af kandidatgener i humane populationer til at opdage sjældne varianter og støtte i forståelsen af ​​komplekse menneskelige træk [6]. Traditionelt har cancer genom re-sekventering blevet udført under anvendelse af exon amplifikation og konventionel Sanger sekventering [7] – [9]. På det seneste har det hele genomet eller hel exome (ved exome fanger) blevet brugt på grund af teknologiske fremskridt og reducerede omkostninger i næste generation sekventering [10] – [12]. F.eks Bass

et al.

Anvendt hele genomet sekventering at sekventere tumorer 9 CRC patienter og identificeret 11 i ramme genfusion arrangementer, herunder fusion af VTI1A og TCF7L2, som blev fundet i 3 af 97 kolorektal cancere [13]. Den Cancer Genome Atlas Network nylig udført exome capture DNA-sekventering af tarmkræft og identificeret ofte muterede gener, herunder APC, TP53, KRAS, PIK3CA, FBXW7, Smad4, TCF7L2, nationale tilsynsmyndigheder, ARID1A, Sox9 og FAM123B (WTX) gener [14].

i stedet for at indfange hele exome, målrettet fangst af udvalgte gener af interesse vil reducere omkostningerne og potentielt flytte NGS til klinisk praksis. For eksempel Pritchard

et al.

Udviklet Coloseq, hvor udvalgte områder på 1,1 Mb af DNA, herunder 209 kb i

MLH1

,

MSH2

,

MSH6

,

PMS2

,

EPCAM

,

APC

, og

MUTYH

var målrettet, taget til fange og udsat for NGS [15]. Forfatterne kunne identificere 28/28 (100%) patogene mutationer i MLH1, MSH2, MSH6, PMS2, EPCAM, APC, og MUTYH [15].

Vi var interesserede i målrettet fangst af genomiske regioner herunder promotorer og intron regioner af gener relateret til en vej eller et netværk af gener med bestemte egenskaber for at forstå cancerbiologi. Der er flere fordele ved denne fremgangsmåde: 1) kan vælges generne baseret på biologi eller en hypotese; 2) mutationer i promotor og intron regioner, som for nylig er blevet foreslået at have vigtige regulatoriske roller, kan undersøges; og 3) teknikken er billigere end hele genomet eller hele exome sekventering. Derfor har vi designet custom high-density oligonucleotid mikroarrays (NimbleGen Inc.) til at fange i alt ca. 1,7 Mb målregioner omfatter de genomiske regioner af 28 gener relateret til kolorektal cancer, herunder exon, intron, 10 kb opstrøms og 5 kb nedstrøms sekvenser efterfulgt af analyse under anvendelse af Illumina Genome Analyzer. De valgte gener omfatter dem, der tilhører den WNT signalvejen, samt vigtige transkriptionsfaktorer eller kolon-specifikke gener, der er over udtrykkes i CRC.

Resultater

Målrettet Re-sekventering af genomiske regioner herunder Initiativtagere af Key WNT pathway og andre CRC-relaterede gener

Som WNT signalvejen er en kritisk vej impliceret i CRC [16], udvalgte vi to Wnt pathway gener (http: //www.genome. jp /Kegg /sti /HSA /hsa04310.html) for at begynde vores undersøgelse. Derudover valgte vi 22 vigtige transkriptionsfaktorer (transskription regulator aktivitet GO: 0.030.528) og fire kolon-specifikke eller beriget gener [17], der er mere end udtrykt i kræft baseret på data i laboratoriet samt data er tilgængelige i det offentlige domæne (f.eks GSE8671, GSE15960, GSE24551, GSE41258 fra GEO-databasen). Den endelige liste over de udvalgte 28 gener er vist i tabel 1 med anmærkninger.

For at reducere omkostningerne, vi først sekventeret en pulje på 30 CRC væv (CRC pool) og en pool på 30 tilstødende normale væv (CRN pool) og derefter valideret SNPs identificeret ved hjælp af PCR eller Sequenom teknologier. Vi skabte en brugerdefineret oligo array ved hjælp NimbleGen teknologi til at indfange de målsekvenser. Den samlede længde af de mål genomiske regioner designet var 1,7 MBP. De optagne DNA’er blev underkastet sekventering under anvendelse af Illumina Genome Analyzer. Efter fjernelse af PCR dubletter fra de rå sekvenser, den gennemsnitlige dækningen varierer fra 32x til 45x, og dækningen ved sekvensanalyse længde for de målrettede områder af hvert gen varierede fra 83,5 til 100%. Dækningen for de forskellige områder af målgener afveg, som kan være på grund af ejendom NimbleGen sekvens capture-teknologi, sekvens kompleksitet eller andre karakteriserede faktorer. Den rå sekventering data blev deponeret i NCBI sekvens læse arkiv (SRA) under tiltrædelsen nummer SRX277359.

Vi tabelform de dækningsområder af alle 28 gener ved at sammenligne med regioner under de designede sonder eller på de samlede målrettede regioner, herunder promotorer og 3’distale områder (tabel 1) til at beregne indfangning effektivitet NimbleGen tilgang. Målt på de målrettede regioner, medianen dækningsområder var 98,1 og 99,5% for CRC og CRN væv henholdsvis og spænder fra 83,5 til 100% (Tabel 1). I NinbleGen probe design, blev proberne ikke tænkt som overlappende oligoer at dække de fuldstændige regioner, men snarere som prober, fordelt blandt målregionerne med særlige karakteristika optimeret til DNA capture. Dækningen beregnet af de regioner, der er omfattet af de designede sonder alle overstige 100% (tabel 1), hvilket tyder på, at capture prober fanget tilstødende sekvenser ud over deres komplementære sekvenser, hvilket resulterede i, at de sekventerede regioner faktisk udvidet ud over de regioner, der var omfattet af sonderne.

indholdet GC blev beregnet for hver position af reference- sekvenser centreret i en 81-bp vindue for at undersøge, om de dækningsområder var påvirket af GC-indhold af tilfangetagne regioner. Dækningen for hver position blev talt efter fjernelse duplikerede sekvenser. Tilstrækkelig dækning af 40X blev opnået for regioner med et GC-indhold mellem ca. 15-75% (figur 1A, 1B). Vi næste undersøgt, om forskellen i dækningen påvirket påvisning hyppigheden af ​​sekvensvariationer. Vi beregnet den Spearman korrelation for SNP tælle og den tilsvarende dækning ved hjælp R (www.r-project.org). Her blev dækningen talt efter fjernelse sekvens dubletter. Korrelationskoefficienterne var -0,51 og -0,38 for CRC og CRN prøver henholdsvis tyder lille korrelation mellem SNP opdagelse og læs dækning. Vi yderligere beregnet, om SNP procentdel udgjorde de samlede SNPs med forskellige dækningsområder (Figur 1C). Vi fandt, at påvisning frekvens forblev fladt, når sekvensen dækningen steg fra 40X til 60X for CRC væv. Vi fandt imidlertid, at detektion frekvens i det normale væv pools forøges, når sekvensdækning nåede ca. 55X til 65X (fig 1C). Disse forskelle kan foreslå en højere heterogenitet blandt det normale væv pool end CRC væv pool, hvilket kan forklares ved en lignende tumor biologi eller mutation profiler blandt CRC væv. Den afsløre frekvens faldt da sekvensen dækningen var større end 65X, sandsynligvis på grund af falsk høj dækning genereret for de gentagne sekvenser for disse regioner.

(A) GC-indhold og dækning i CRC (kolorektal cancer) væv. (B) GC indhold og dækning i CRN (kolorektal normalt væv) væv. (C) Forholdet mellem sekvensdækning og SNP-detektion. Røde linje viser sekvensen dækning og procentdelen af ​​SNPs detekteret ved, at dækningen i CRC pool og grønne linje i CRN pool (D) Venn-diagram af SNPs for CRC og CRN prøver. (E) En oversigt over SNPs identificeret i kræft og tilstødende normale væv.

Efter dataanalyse, vi identificerede i alt 2342 sekvens variationer i CRC og tilsvarende tilstødende normale væv. Blandt dem, 738 var nye sekvens variationer baseret på sammenligninger med den nuværende SNP database (dbSNP135, tabel S1). 1226 variationer var fælles for CRC og normale colon væv, mens 374 og 742 variationer var unikke for hver vævstype (figur 1D).

I de to poolede prøver, frekvensen af ​​mutation sats varierede fra 0,354 til 4,942 pr kilobase for forskellige gener. De fleste variationer opstod i intron regioner, med kun 5% af de variationer, der forekommer i de exoniske regioner.

Vi tilfældigt udvalgt otte SNPs for validering dækker variationer findes i intron og i exoniske regioner. For validering, vi brugte allel-specifik PCR (AS-PCR) til at genotype enkelt nukleotid polymorfier [18], [19]. Hver SNP blev analyseret individuelt med en genspecifik primer-par i et separat kohorte af 22 CRC prøver og 24 CRC tilgrænsende normale væv fra de tilsvarende patienter og fire raske donorer (Tabel S5). Vi fandt, at dataene for fire af SNPs var konsistent mellem sekventering data og PCR validering. For eksempel blev påvist de SNPs for MSX2 og KAT5 100% ved sekventering tilgang og ved PCR-validering. For rs80186078 i TFDP1 gen, kun påvist vi SNP i CRC væv ved sekventering og validering af det i både CRC og CRN væv, men ikke hos raske donorer ved AS-PCR validering. Men vi også observeret en uoverensstemmelse mellem sekventering af de samlede prøver og PCR validering af de enkelte prøver. For eksempel blev rs11186694 og rs17107140 påvist i både CRC og CRN prøver ved sekventering, men kunne ikke påvises ved AS-PCR i individuelle prøver. Dette resultat tyder på en falsk positiv identifikation af SNP’er eller en fejl i AS-PCR. Vi har ikke forsøgt at designe yderligere PCR primere til AS-PCR, som vi bestemt, at AS-PCR var besværligt og manglede følsomhed [20]. Desuden blev nogle af SNP’er (fx chr11:65481267_TG) påvist i en samleprøve, men blev fundet i både CRC og normale væv, når analyseret ved PCR validering af de enkelte prøver. Dette resultat antyder en falsk negativ identifikation af SNP’er i en af ​​de poolede prøver. Det kan imidlertid ikke være overraskende fordi hvis allel frekvens af SNP’er er lav i en af ​​de poolede prøver, kan det blive savnet af sekventering af poolede prøver.

På grund af den lave effektivitet og følsomhed SNP validering ved PCR, besluttede vi at bruge Sequenom MassARRAY IPLEX Platform for valideringsundersøgelserne. Vi valgte 66 SNPs til validering i en separat kohorte af 30 CRC væv, fordi DNA anvendt til sekventering blev udtømt. I sidste ende, var vi i stand til at bekræfte eksistensen af ​​56 SNPs i de 30 CRC væv (tabel S6), hvilket tyder på en validering på mindst 85% (56/66), i betragtning af at nogle af afsløring fejl kan skyldes forskelle i prøven populationen.

Funktionel konsekvens af de identificerede Sequence variationer

Vi fandt 15 SNPs, der ville ændre proteinsekvenser blandt de exoniske variationer i CRC og normale colon væv, herunder 14 missense mutationer og 1 nonsense mutation (figur 1E og tabel 2). Disse missense mutationer kan påvirke funktionen af ​​de muterede proteinprodukter. Romanen SNP chr13:114288328_CT kun identificeret i CRC væv ville resultere i et stop codon, hvilket ville medføre opsigelse af oversættelsen af ​​TFDP1 (NP_009042, Q200 *) og tab af Transc_factor_DP_C domæne i afkortede TFDP1 protein. Effekten af ​​denne afkortede TFDP1 på CRC carcinogenese stadig at blive undersøgt.

Fire af mutationerne ikke valideres af Sequenom s MassARRAY IPLEX (tabel S6) og blev derfor udelukket fra yderligere analyse. Fire af de resterende 11 missense sekvens variationer identificeret i CRC og normale colon væv var nye mutationer. Den online værktøjer PolyPhen, støvtætte og PROVEAN blev anvendt til at forudsige de funktionelle konsekvenser (tabel 2). Alle tre programmer forudsagt, at de hidtil ukendte mutationer for MSX2 (A197T) ville påvirke de funktionelle domæner af proteinet og kan have funktionelle konsekvenser. Den NEXN (G245R) variation blev forudsagt at have funktionelle konsekvenser ved SIFT og PolyPhen programmer (tabel 2). PolyPhen forudsagde en anden mutation i NR3C1 gen, som skal sandsynligvis skade (tabel 2). Vi vurderede også, om disse 11 mutationer er blevet tidligere rapporteret for CRC. Ti af dem har ikke tidligere blevet rapporteret at være associeret med CRC og derfor blev identificeret for første gang (tabel 2). En af dem, har rs459552 i APC-genet blevet rapporteret at give en beskyttende virkning for CRC med en odds ratio på 0,76 (CI = 0,60 til 0,97) blandt CRC patienter [21].

Der var 29 synonyme SNPs påvist i den kodende region i CRC og CRN prøver og 73 SNP’er i 5′- eller 3′-UTR-regioner. FastSNP blev anvendt til at forudsige de regulatoriske roller disse SNP’er herunder exon splejsning enhancer (ESE), exon-splejsning lyddæmper (ESS), motiv ændringer for synonyme SNP’er (tabel 3), og TF bindingssteder ændringer for UTR SNP’er (tabel 4). ESE finderen kan identificere Eses anerkendt af individuelle SR proteiner, som højt konserverede splejsning faktorer, og RESCUE-ESE kan søge sekvenser med ESE aktivitet. I modsætning hertil kan FAS-ESS identificere ESS. De forudsigelse resultater fra de tre beregningsværktøjer blev kombineret for at bekræfte, om enkelt nukleotid variation ville ændre splejsning motiv. Den transkriptionsfaktorbindingssites forbundet med de mål SNPs blev identificeret ved TFSEARCH hjælp FastSNP. I alt 21 synonyme SNP’er blev forudsagt at ændre exon splejsning motiver, og 31 UTR SNPs blev forudsagt at ske på det transskriptionsfaktorbindingssteder og derfor kan påvirke gentransskription. Romanen SNP chr2:219524460_CA (5’UTR i BCSIL) blev også fundet i konserverede transkriptionelle bindingssteder (tabel S2).

For at forstå de funktionelle konsekvenser af de intron-SNP’er, online værktøj SNPnexus blev brugt til at anmærke det SNPs. Afstandene til splejsningssteder blev beregnet ved SNPnexus. Der var 20 intron SNPs beliggende nær splejsning sites med en afstand mindre end 30 bp, og kun én var roman. Mutationerne i disse regioner kan påvirke splejsning og transkription. C6orf1, ETV4, KAT5 og VAV1 hver havde to varianter i nærheden splejsningssteder, og TNKS2 havde 3 variationer i nærheden splejsning sites (tabel 5). SNP rs2271959 (chr17:41622740_GT, ETV4) var 5 bp væk fra splejsning stedet og blev opdaget kun i CRN væv med høj tillid. Der var 43 intron, opstrøms eller intergeniske SNP’er i bevaret transkriptionsfaktorbindingssites (Tabel S2) og 32 i CpG øer (tabel S3).

De offentlige chip-seq datasæt, især KODE projektet, give store TF binding eller DNAase overfølsomhedsreaktioner sites i forskellige cellelinjer. Her brugte vi RegulomeDB at anmærke de SNPs med regulatoriske regioner. Hver SNP fik en score, der repræsenterede forskellige regulatoriske regioner ved RegulomeDB (tabel S1, tabel 6). Den førnævnte, sandsynligvis skadelig, missense SNP rs1166698 (NEXN, validere ved Sequenom) modtog en score på 1b, hvilket var det højeste i denne undersøgelse, hvilket indikerer, at SNP var involveret i mange vigtige regulatoriske regioner. En anden 1b SNP var rs1860661, som ligger i intron af TCF3 og ikke testet af Sequenom. Blandt de 2342 SNPs blev 1062 beliggende i TF bindende regioner defineret af chip-seq teknologi.

Analyse af sammenhænge mellem SNPs og samlede overlevelsestid

Vi valgte ni SNPs (tabel 7 ), der blev godkendt af Sequenom MassARRAY IPLEX teknologi og med allel heterozygosities på over 0,4 til analyse af sammenhængen mellem SNPs og CRC patient overlevelse. Vi indsamlede prøver fra et sæt af 117 patienter med detaljerede kliniske oplysninger for denne analyse ved hjælp af Sequenom MassARRAY IPLEX teknologi. Fordelingen af ​​de 117 patienternes demografiske og clinicopathologic karakteristika er sammenfattet i tabel 8, og genotype data er sammenfattet i tabel S7.

Vi analyserede først Hardy-Weinberg ligevægt af hver SNP og fandt, at kun SNP rs1053023 afveget fra Hardy-Weinberg ligevægt (tabel 9, s 0,05); P-værdier for andre SNPs varierede fra 0,3265 til 1. Effekten af ​​de ni SNPs på den samlede overlevelsestid blev vurderet i 117 CRC patienter, der anvender Kaplan-Meier-metoden og plottet ved hjælp af Stata 12 (www.stata.com) analyseprogram statistisk . Vi fandt, at to SNP’er (rs3106189 og rs1052918) var forbundet med den generelle overlevelse af CRC patienter (figur 2) efter den dominerende model med hazard ratio på 0,25 (P = 0,009) og 0,28 (P = 0,024), henholdsvis. SNP rs3106189 blev også signifikant associeret med CRC patientoverlevelse med tilsætningsstoffet model (hazard ratio = 0,33, P = 0,021; tabel 7). SNP’en rs3106189 lokaliseret til 5′-UTR af TAPBP og SNP rs1052918 lokaliseret til 3’UTR af TCF3. For SNP rs3106189, antallet af patienter med heterozygot og homozygote varianter var 42 og 7 hhv. For SNP rs1052918, antallet af patienter med heterozygot og homozygote varianter var 47 og 22 henholdsvis. Patienter, der bærer en af ​​de to varianter synes at have højere sandsynligheder for at overleve længere.

(A) Kaplan-Meier plot for rs3106189 lokaliseret til 5′-UTR of TAPBP. (B) Kaplan-Meier plot for rs1052918 lokaliseret til 3’UTR af TCF3. Y-aksen, CRC overlevelsessandsynligheden; X-aksen, måneder fra kirurgi. Blå linjer er homozygot vildtype (vilde), grøn er homozygote variant (var), rød er heterozygot variant (het).

Diskussion

I dette manuskript, beskriver vi vores analyse pipeline, der består af (1) indledningsvis sekventering puljede DNA-prøver, efterfulgt af validering og yderligere analyse i større kohorter af prøver til omkostningsreduktion og (2) en hypotese-drevet målrettet opfange og analyse af SNP’er og deres foreninger med kræft fænotyper. Pooling genomiske DNA’er til sekventering har den fordel, at prøvefremstilling og sekventering omkostninger. For eksempel ville fange 30 individuelle prøver kræver bruge 30 capture arrays til at udføre hybridisering og prøve inddrivelser, som er kedelig og kan potentielt introducere prøve-til-prøve variationer under udarbejdelsen prøven scenen. Sekventering 30 individuelle prøver vil også være væsentligt dyrere end sekventering én pulje. Selv om det er muligt at anvende stregkoder og multiplexing reaktioner og sekventering for at opnå lignende sekvens dækning på et tilsvarende omkostninger for pooling prøver, ville prøvefremstillingen kompleksitet være væsentligt højere. I en nylig GWAS analyse af type 1-diabetes (T1D), offentliggjort i Science, Nejentsev

et al.

Re-sekventeret exons og splejsningssites på 10 kandidatgener i DNA-puljer fra 480 patienter og 480 kontroller at identificere sygdomsfremkaldende form 1 diabetes (T1D) varianter og derefter testet deres sygdom forening i over 30.000 deltagere [22]. Forfatterne kunne identificere fire sjældne varianter, der uafhængigt sænkede T1D risiko [odds ratio, 0,51-0,74; P = 1,3 × 10 (-3) til 2,1 x 10 (-16)] i interferon induceret med helicase C-domæne 1 (IFIH1) [22].

En anden særligt træk ved vores analyse pipeline er, at vi sekventeret de genomiske regioner, der omfattede exoniske og intronregioner, dvs. 10-kb-promotoren og 5-kb nedstrøms genomiske regioner af de udvalgte gener. Denne metode var i modsætning til de fleste undersøgelser, at kun analyserede exoniske sekvenser (exome capture) [23], [24]. Det er vigtigt at inkludere promotorregionerne i analysen, som SNP’er i promotorregioner er blevet forbundet med tumorigenese. For eksempel Bond

et al. Viste

at en enkelt-nukleotid polymorfisme i MDM2 promotoren kunne dæmpe p53 tumor suppressor pathway og fremskynde tumordannelse hos mennesker [25]. Passarelli

et al.

Viste, at SNP’er i østrogenreceptoren beta-promotoren er forbundet med overlevelse af postmenopausale kvinder med CRC [26]. Polymorfier i de UTR region i gener er også blevet fundet at være relateret til cancer. For eksempel Zhang

et al.

Konstateret, at en polymorfi i 3’UTR-regionen af ​​insulin-lignende vækstfaktor I (IGF1) genet forudsiger overlevelse ikke-småcellet lungekræft i en kinesisk population [27] . . Hao

et al

konstateret, at en SNP (rs3213245, -77T C) i XRCC1 gen 5 ‘UTR bidrager til formindsket promotor-aktivitet og øget risiko for ikke-småcellet lungecancer [28]. Vi har identificeret og valideret ved anvendelse Sequenom platform adskillige SNPs der lokaliseret til 5 ‘eller 3’ UTR af generne (tabel S6). For eksempel, rs3106189 af TAPBP og rs8041394 af GTF2A2 lokaliseret til 5 ‘UTR’er, og rs1051425 af ETS2 og rs1052918 af TCF3 lokaliseret til 3’UTRs (tabel S6). Den funktionelle betydning af disse SNPs er endnu ikke fastslået.

Vi har valgt gener relateret til WNT vej, da Cancer Genome Atlas Network fundet mutationer i 16 forskellige gener i Wnt veje, herunder APC, CTNNB1, FAM123B og TCF7L2 [14]. Vi udvidede analysen af ​​Wnt pathway-gener til regioner ud over exome analyserede Cancer Genome Atlas Network, og vores tilgang har potentiale til at identificere de mutationer, der modulerer genekspression eller splejsning i yderligere til identifikationen af ​​de strukturelt skadelige mutationer i exonerne .

Vi identificerede i alt 2342 sekvensvariationer i CRC og tilsvarende tilstødende normale væv. Blandt dem, 738 var nye sekvens variationer baseret på sammenligning med den nuværende SNP database (dbSNP135, tabel S1). Vi valgte 66 SNPs til validering i en separat kohorte af 30 CRC væv. Vi var i stand til at bekræfte eksistensen af ​​56 SNPs i de 30 CRC væv (tabel S6), hvilket tyder på en validering på mindst 85% (56/66), i betragtning af at nogle af afsløring fiaskoer kan skyldes forskelle i prøvepopulationen . Denne validering sats er i overensstemmelse med den offentliggjorte validering på 85,4% for NGS bruger Illumina platformen [29]. Desuden er det blevet rapporteret, at forskellige valideringsplatforme herunder Sanger sekventering Pyrosequencing, Sequenom MassArray eller et snapshot SNP Detection mangler følsomhed til at bekræfte sekvensvarianter identificeret ved dyb sekventering i tumorer, som kan være kontamineret med DNA’er fra normale væv, eller som kan indeholde multiple kloner [30].

Vi identificerede 14 missense exoniske mutationer i CRC og normale colon væv (tabel 2). SNP (G245R) på NEXN genet (Nexilin; F actinbindende protein) blev forudsagt at have funktionelle konsekvenser. De roller NEXN genet i kræft er endnu ikke undersøgt. To nye SNP’er i den nukleare receptor underfamilie 3, gruppe C, del 1 (NR3C1) og lysin acetyltransferase 5 (KAT5) gener fandtes kun i CRC væv, men ikke i normale colon væv. KAT5 (også kaldet TIP60 eller HIV-1-Tat interaktive protein) er en histon-acetyltransferase (HAT), og det spiller en vigtig rolle i reguleringen chromatin remodeling og i DNA-reparation og apoptose [31]. I tarmkræft, er KAT5 nedregulering forbundet med mere avancerede stadier af kolorektal cancer [32]. NR3C1 (alias, glucocorticoidreceptor) viste sig at være epigenetisk dereguleret i colorektal tumorigenese [33]. Endvidere hypermethyleret NR3C1 er en CRC-gen med mikrosatellit ustabilitet [34]. Disse nye SNP’er i KAT5 og NR3C1 generne garanterer bekræftelse, og der er behov for yderligere funktionelle undersøgelser for at vurdere de funktionelle konsekvenser af mutationer og deres forhold til kræft, såsom hvorvidt SNPs ville efterligne epigenetiske forskrifter disse gener.

Vi identificerede også SNPs, som kan påvirke exon splejsning, fordi de lokaliserer til ESE (exon splejsning forstærker) og ESS (exon splejsning lyddæmper), som er afgørende i exon splejsning. For eksempel har vi identificeret SNP’er i langt opstrøms element (FUSE) binding protein 1 (FUBP1), peroxisomproliferatoraktiveret receptor alpha (PPARa), og transkriptionsfaktor DP-1 (TFDP1), der kan påvirke exon splejsning for disse gener, og disse SNP’er blev fundet kun i CRC væv (tabel 3). . Zhang

et al

viste, at en SNP (-195 C T; dbSNP ID: rs1056932), der ændrer et potentielt bindingssted for en exon splejsning forstærker kan påvirke risikoen for non-Hodgkin lymfom [35]. De funktionelle konsekvenser af de SNPs, der lokaliserer til ESE eller ES-sekvenser i FUBP1, PPARa og TFDP1 generne garanterer yderligere undersøgelse

Vi bestemt, at rs3106189, lokaliseret ved 5 ‘UTR af TAP protein (tapasin;. TAPBP ), og rs1052918, lokaliseret i 3’UTR af TCF3, var forbundet med den samlede overlevelse CRC patienter (Tabel 7 og figur 2) med hazard ratio nåede 0,28 (P = 0,024) og 0,33 (P = 0,021) henholdsvis. Disse data antyder, at disse to varianter giver beskyttende virkninger for CRC patienter. Interessant anden variant, som vi identificeret, rs459552 i APC-genet, er tidligere blevet rapporteret at give en beskyttende virkning for CRC med en odds-ratio på 0,76 (CI = 0,60-0,97) blandt CRC patienter [21]. Men vi ikke analysere denne SNP af Sequenom teknologi og derfor ikke kunne vurdere, om konstatering er også sandt i vores datasæt.

TAPBP koder et transmembrant glycoprotein der medierer samspillet mellem nyligt samlet hovedhistokompatibilitetskompleks ( MHC) klasse i-molekyler og transportøren associeret med antigen forarbejdning (TAP) [36]. Nedregulering af TAPBP ekspression er blevet observeret for flere cancertyper, herunder CRC, som en immun flugtmekanismen af ​​humane tumorer [37]. Tab af TAPBP udtryk er blevet observeret i 80% af høj kvalitet intraepitelialneoplasi (HIN) sammenlignet med autolog kolorektal slimhinde, i 63% af de primære adenokarcinomer i fase III og 79% af de matchede lymfeknudemetastaser [38]. Ex vivo indføring af TAPBP ekspression i en murin lungecarcinom model forøget overfladeareal MHC klasse I og restaureret modtagelighed af tumorceller til antigenspecifik cytotoksiske T-lymfocytter (CTL) at dræbe [39]. SNP rs3106189 ligger inden for en H3K27Ac histon varemærke, som ofte findes i nærheden aktive regulatoriske elementer, og inden H3K9Ac og H3K4me3 mærker (UCSC genom browser; Figur S1). Endvidere er rs3106189 lokaliseret blandt bindingssteder for flere transkriptionsfaktorer, herunder interferon regulatorisk transkriptionsfaktor 1 (IRF-1), IRF-2 og IRF-7. Den nøjagtige funktionelle konsekvens af varianten ved rs3106189 locus kræver yderligere undersøgelse

transskription faktor 3 (TCF3; E2A immunglobulin forstærker bindende faktorer E12 /E47). Er medlem af TCF /LEF transkriptionsfaktor familie, der er central i regulering epidermal og embryonale stamceller identitet og er involveret i WNT signalvejen [40]. I brystkræft, TCF3 er involveret i reguleringen af ​​brystkræft celledifferentiering tilstand og tumorgenicitet [40]. Endvidere overekspression af TCF3 er delvist ansvarlig for butyrat-resistente fænotype af CRC fordi TCF3 undertrykker hyper-induktion af Wnt aktivitet ved butyrat [41].

Be the first to comment

Leave a Reply