PLoS ONE: Brug Forudgående oplysninger fra den medicinske litteratur i GWAS af Oral Cancer Identificerer Novel modtagelighed Variant på kromosom 4 – ADAPT Method

Abstrakt

Baggrund

Genom-dækkende associationsstudier (GWAS ) kræver store stikprøvestørrelser at opnå tilstrækkelig statistisk styrke, men det kan være muligt at øge magten ved at indarbejde supplerende data. I dette studie undersøgte vi muligheden for automatisk at hente oplysninger fra den medicinske litteratur og udnytte disse oplysninger i GWAS.

Metoder

Vi har udviklet en metode, der søger gennem PubMed abstracts for pre-tildelt søgeord og nøglebegreber, og bruger disse oplysninger til at tildele tidligere sandsynligheder for forening for hver enkelt (SNP) med fænotypen af ​​interesse – den Justering association Priors med Tekst (ADAPT) metode. Association resultater fra en GWAS efterfølgende kan placeres i forbindelse med disse priors hjælp af Bayes False Discovery Sandsynlighed (BFDP) rammer. Vi oprindeligt testet tilpasse ved at sammenligne placeringer af kendte modtagelighed alleler i en tidligere lungekræft GWAS, og efterfølgende anvendt den i en tofaset GWAS af oral cancer.

Resultater

Kendt lunge kræft modtagelighed SNPs var konsekvent placeret højere ved at tilpasse BFDPs end ved p-værdier. I oral cancer GWAS, vi søgte at kopiere de fem bedste SNPs som sorteret efter ADAPT BFDPs, hvoraf rs991316, som ligger i

ADH

gen region 4q23, viste en statistisk signifikant sammenhæng med oral cancer risiko i replikation fase (

pr-sjældne allel log additiv p-værdi [p

trend]

= 2,5 × 10

-3). Den kombinerede eller for at have en ekstra sjælden allel var 0,83 (95% CI: 0,76-0,90), og denne association var uafhængig af tidligere identificerede modtagelighed SNPs, der er forbundet med overordnet UADT kræft i denne genregion. Vi undersøgte også, hvis rs991316 var forbundet med andre kræft i øvre aerodigestive tarmkanalen (UADT), men ingen yderligere association signal blev fundet.

Konklusion

Denne undersøgelse understreger den potentielle nytte af systematisk indarbejde forudgående viden fra den medicinske litteratur i genom-dækkende analyser ved hjælp af ADAPT metodologi. ADAPT er tilgængelig online. (Url: https://services.gate.ac.uk/lld/gwas/service/config)

Henvisning: Johansson M, Roberts A, Chen D, Li Y, Delahaye- Sourdeix M, Aswanis N, et al. (2012) Ved hjælp af Prior Oplysninger fra den medicinske litteratur i GWAS af Oral Cancer Identificerer Novel modtagelighed Variant på kromosom 4 – Adapt metode. PLoS ONE 7 (5): e36888. doi: 10,1371 /journal.pone.0036888

Redaktør: Olga Y. Gorlova, The University of Texas M. D. Anderson Cancer Center, USA

Modtaget: December 20, 2011; Accepteret: April 9, 2012; Udgivet: 25. maj 2012 |

Copyright: © 2012 Johansson et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Denne forskning er blevet støttet af EU-FP7 tilskud [LarKC, url: https://www.larkc.eu] [FP7-215535]. Finansiering af undersøgelse koordinering, genotypning af replikation undersøgelser og statistisk analyse blev leveret af USA National Cancer Institute (R01 CA092039 05) og National Institute of Dental og kraniofaciale Research (1R03DE020116). Støtte til de centrale studier Europa og ARCAGE genom-dækkende blev leveret af Inca (Institut National du Cancer, Frankrig. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet.

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Risiko virkninger af fælles modtagelighed varianter af komplekse lidelser – herunder de fleste kræftformer – er generelt små (dvs. OR 1.5) [1] og genom-dækkende forening undersøgelser (GWAS) kræver en stringent betydning tærskel (f.eks p-værdi. 10

-7) på grund af byrden af ​​multiple test således GWAS for kræftrisiko kræver store stikprøvestørrelser for at have tilstrækkelig statistisk styrke. Det er derfor problematisk at gennemføre GWA studier af mindre almindelige kræftformer, for hvilke rekruttere et tilstrækkeligt antal sager er vanskelig. der kan være fordele i at indarbejde yderligere beviser indsamlet gennem komplementære eksperimenter eller andre informationskilder. Sådanne oplysninger kan indarbejdes med GWAS resultater ved hjælp af simple Bayesianske metoder [2] for eksempel metode udviklet af Wakefield [3]. Dette bruger den omtrentlige Bayes faktor (ABF), estimeres ved anvendelse beta skøn og standardafvigelser af gen-variant til sygdom foreninger, sammen med de forudgående odds for nulhypotesen at generere Bayes False Discovery Sandsynlighed (BFDP). Derfor er BFDP tilvejebringer et estimat af sandsynligheden for, at det observerede resultat repræsenterer en falsk positiv association, og kan anvendes i stedet for p-værdier, når de placeres eller på anden måde at evaluere associationsresultater. Den største vanskelighed i gennemførelsen af ​​en sådan fremgangsmåde i GWAS tildeler relevante og realistiske forudgående sandsynligheder for association med sygdom for hver undersøgt enkelt (SNP).

Potentiale forudgående information til gen-sygdom relationer kan hentes fra forskellige kilder, for eksempel udtrykket quantitative trait loci (eQTL) -forsøg, pathway ontologi databaser og litteratur scanninger [2]. I erkendelse af, at et stort antal modtagelighed varianter identificeret gennem GWAS bor nær plausible kandidatgener [4], vi den hypotese, at det er muligt at udvinde forudgående viden fra tekstbaserede medicinske litteratur for at øge den statistiske styrke til påvisning modtagelighed SNPs for som sådanne oplysninger foreligger.

for at vurdere om det er muligt og potentielle fordele ved en sådan undersøgelse design, vi udviklet en metode, der automatisk henter relevante data fra PubMed abstracts for at generere forudgående sandsynligheder for en genom-dækkende undersøgte varianter blive involveret i en bestemt sygdom, og efterfølgende indarbejder disse data med foreningen resultater fra GWAS hjælp af BFDP ramme [5], de Justering Association Priors med Tekst (ADAPT) metode. ADAPT blev efterfølgende anvendt i en GWAS af oral cancer (OC) [6] – [10].

Resultater

Power beregninger for BFDP og p-værdier

Som beskrevet af Wakefield [3], [11] den BFDP skøn kan anvendes som middel til at evaluere og rapportere bemærkelsesværdige foreninger i sin egen ret. Men forestille vi en bredere anvendelse af en hybrid, tofaset studiedesign, hvor SNPs, som anses for tilstrækkeligt “bemærkelsesværdigt” ifølge deres BFDP skøn valgt til replikation i en uafhængig undersøgelse befolkning og evalueret ved hjælp af replikation p-værdier. For eksempel, at vedtage en BFDP cut-off på 0,8, når der vælges SNPs til replikation indebærer, at en falsk ikke-opdagelse er fire gange så dyrt som en falsk opdagelse, eller at vi forventer i gennemsnit en ud af fem SNPs valgt til replikering at være forbundet med sygdommen. Falsk ikke-discovery omfatter alle “sande” modtagelighed SNP til stede i datasættet, der ikke opnår en BFPD på under 0,8. Her ser vi sande modtagelighed SNPs blive associeret med fænotypen af ​​interesse i statistisk robust og reproducerbar måde, selvom do indebærer funktionel kausalitet. For at vurdere den statistiske styrke for at vælge modtagelighed SNPs af oral cancer ved hjælp af vores case-kontrol serie af 791 tilfælde og 7,012 kontroller, evalueret vi den statistiske effekt i henhold til (ligning [eq.] 9, se statistiske analyser). Disse power beregninger var baseret på 300.000 SNPs at blive evalueret i GWAS, at 100 sande modtagelighed SNPs af oral cancer indgik i datasættet og jævnt fordelt på tværs af de tidligere kategorier (dvs.

N * = 100, N

1 * = N

2 * = N

3 * = 33,3)

. Vi overvejede tre forudgående kategorier (

J = 3 fotos), og de overordnede SNPs i GWAS bliver distribueret som

C

1 = 0,875, C

2 = 0,10, og C

3 = 0,025

. Vi kan beregne de forudgående odds for nul-hypotesen for de tre forudgående kategorier under disse forudsætninger i henhold til (eq. 7), som giver

PO

1 = 7874, PO

2 = 899, og PO

3 = 224

. Den statistisk styrke til at opnå en BFDP på ​​0,8 for SNPs med en OR på 1,25 i hver af de tre forudgående kategorier er vist i figur 1. Til sammenligning vi omfatter beføjelse til at bruge BFDP antager den samme

N *

men med alle SNPs tildelt samme før. Under disse antagelser beføjelse til at opdage tilknyttede SNPs i

C

3

eller

C

2

er steget, mens at ofre en vis magt til dem i

C

3

. Dette viser de potentielle fordele ved at vedtage en sådan Bayesian ramme i GWAS, hvis kategorierne og deres priors passende vælges.

Disse power beregninger antager en evaluering af 300.000 SNPs, hvoraf 100 er virkelig forbundet med resultatet og distribueret jævnt over tre forudgående kategorier hhv. Den overordnede fordeling af SNPs på tværs af de tre forudgående kategorier antages at være [87,5%; 10%; 2,5%]. Flad PO antager en enkelt forudgående kategori.

Vi inkluderede også supplerende power beregninger i figur S1 ved at variere antaget antal sande modtagelighed SNPs.

Validering af ADAPT metodologi

for at udføre en indledende

proof-of-principle

evaluering af ADAPT-BFDP metode, vi anvendt det til data fra vores tidligere rapporteret lungekræft GWAS [12]. For det første brugte vi tilpasse web service til at generere forudgående sandsynligheder for SNPs baseret på den medicinske litteratur (se Materiale og metoder). Nøgleordene var grupperet efter prioritet, den første gruppe, herunder overordnede ord, der er specifikke for lungekræft, for eksempel “Lungekræft” og “lunge karcinom«, den anden gruppe omfattede mere generelle ord specifikt relevante for lungekræft, f.eks “Rygning”, “nikotin”, “ikke-småcellet karcinom”, og den tredje gruppe omfattede mere generiske ord, der ikke udelukkende betydning for lungekræft, men for kræft i almindelighed, f.eks ‘Kræftfremkaldende’, ‘DNA-skader “,” neoplastiske’, ‘apoptose’. Vi derefter søgte gennem alle PubMed abstracts for hvert gen og tildelte tidligere odds ifølge (eq. 7). Vi inkluderede kun litteratur udgivet før datoen for den første lungekræft GWAS [12] for at undgå bias.

For det andet, vi delt vores oprindelige lungekræft GWAS i en række mindre delmængder at simulere GWAS med lavere statistisk magt. Dette blev udført ved tilfældigt at udvælge (lige fordelinger af sager og kontroller) 50% og 75% af den samlede data serie 100 gange. GWAS analyse for alle subseries blev derefter udført og resultater sorteret efter p-værdi og ved BFDP hjælp priors anslået ved hjælp af ADAPT webtjeneste. Vi sammenlignede placeringen af ​​BFDPs og p-værdier inden for hver subseries (50%, 75% eller 100%) for fem modtagelighed varianter identificeret ved lungekræft GWAS, der er blevet uafhængigt replikeret i flere studier (tabel 1) [12] – [14 ]. Ud af disse fem SNP’er blev fire tildelt forhøjede priors der resulterede i klare forbedringer i ranking, når du bruger BFDP skøn i forhold til p-værdier. For eksempel, når prøvetagning 75% af de fuldstændige data indstille rs401681 SNP på 5p15.33 blev rangeret på 2709 ved p-værdi og på 664 af BFDP.

Novel genom-dækkende forening analyser

Vi efterfølgende foretaget en GWAS af oral cancer. Denne scanning fulgte en tofaset design, med foreningen resultaterne af hele genomet opdagelse fase klassificeret efter ADAPT-BFDPs.

Discovery fase.

I opdagelsen fase, efter kvalitetskontrol, genom -dækkende analyse blev udført i 791 tilfælde og 7,012 kontroller. Q-Q plot analyse angav ikke nogen bemærkelsesværdig inflation generelt (λ

inflation = 1,04), hvilket tyder på, at skjulte population underkonstruktioner havde ringe eller ingen indvirkning på resultaterne af genomet-dækkende analyse (figur S2). ADAPT blev ansat på grundlag af Pubmed abstracts, hjælp nøgleord er relevante for oral cancer (tabel S1) på en måde sammenlignes med lungekræft eksperimentet skitseret ovenfor. Ud af 293,211 evaluerede SNP’er blev 149.998 grupperet som

C

1

, 137.576 blev grupperet som

C

2

, og 6637 blev grupperet som

C

3

. Vi evaluerede de enkelte SNP BFDP skøn ved hjælp af en grundlæggende følsomhedsanalyse tilgang ved tre forskellige sæt af antagelser om antallet af sande modtagelighed SNPs, nemlig

N * = 50, N * = 100 og N * = 500

. Vi anvendte en BFDP grænse på 0,80 til valg SNPs for replikation, og seks SNPs mødtes dette kriterium for alle

N * Hotel (tabel 2). Fordi vi allerede havde vurderet og bekræftet 6

th rangeret SNP (rs1789924,

AHD1C

) i en tidligere undersøgelse af den samlede UADT kræft (Tabel 2) [11], blev fem SNPs udvalgt til replikation. Disse SNPs omfattede rs1888732 på 1p22.3 (log additive odds ratio [OR

trend] = 0,70, 95% konfidensinterval [95% CI]: 0,61-0,81,

BFDP

100

= 0,06 ), rs3130559 på 6p21.33 (OR

trend = 0,76, 95% CI: 0,65-0,88,

BFDP

100

= 0,57), rs10801805 på 1p22.2 (OR

trend = 1,30, 95% CI: 1,16-1,46,

BFDP

100

= 0,58), rs991316 på 4q23 (OR

trend = 0,81, 95% CI: 0,72-0,91,

BFDP

100

= 0,62), og rs10008621 på 4q35.2 (eller

trend = 0,72, 95% CI:. 0,60-0,86,

BFDP

100

= 0,66)

replikering analyse.

Efter kvalitetskontrol og statistisk analyse i replikation serien, kun rs991316 viste en statistisk signifikant sammenhæng med oral cancer risiko (

pr-sjældne allel log additiv p-værdi [p

trend]

= 2,5 × 10

-3, tabel 2). En graf af -log

10 p-værdier og parvis r

2 estimater for SNP’er inkluderet i GWAS fase af

ADH

genregion er givet i figur 2. OR sammenlignet med de store homozygoter i den kombinerede datasæt (GWAS + replikering data) var 0,88 (95% CI: 0,78-1,01) for heterozygoter, og 0,67 (95% CI: 0,57-0,79) for de mindre homozygoter. Den ELLER forbundet med at have en ekstra sjældne allel (log-additive model) var 0,83 (95% CI: 0,76-0,90), og denne forening blev uafhængigt gentaget (

p

trend

0,05) i de to største replikation undersøgelser (Latinamerika og ORC studier, tabel S1,

p

heterogenitet

= 0,67). Den rs991316 SNP er beliggende i et område af 4q23 som omfatter flere gener, der koder forskellige

alkoholdehydrogenase

(

ADH

) subunit gener, dvs.

ADH6

,

ADH1A

,

ADH1B

,

ADH1C

, og

ADH7

gener. I ADAPT litteratursøgning blev to gener tildelt som potentielt relevant for rs991316 SNP,

ADH1C

og

ADH7

, ligger ca 49 kb centromere og 11 kb telomert af rs991316 hhv. SNPs i denne region (dvs. rs1229984 [

ADH1B

], rs1789924 [

ADH1C

] og rs971074 [

ADH7

]) er tidligere blevet sat i forbindelse med den samlede UADT kræft. Men rs991316 var dårligt korreleret med rs1229984, rs1789924 og rs971074 (r

2 0,05), og konditionering risikoanalysen på disse SNPs ikke især påvirke OR af rs991316 (OR

justeret 0,84). Endvidere undersøgte vi, hvis rs991316 var også forbundet med andre UADT subsites bortset fra oral cancer, men stratificeret analyse afslørede, at risikoen virkning rs991316 var begrænset til oral cancer (mundhule og oropharynx), men ikke kræft i hypopharynx, larynx eller spiserøret (

p

heterogenitet

= 0,03, figur 3). Tilsammen disse resultater tyder på, at rs991316 SNP er forbundet specifikt med oral cancer, men ikke med andre UADT kræftformer inden denne population, og at foreningen er uafhængig af tidligere opdaget modtagelighed SNPs af UADT kræft i denne region. Endvidere kan denne forskellighed i risikoområder effekter mellem mundtlige og andre UADT kræftformer også forklare, hvorfor denne variant ikke blev påvist i vores oprindelige GWAS af den samlede UADT kræft.

P-værdier angiver styrken af ​​foreningen for hver SNP i GWAS med oral cancer vises på -log10 skalaen (venstre Y-akse), mod deres positioner på kromosom 4 (Build 36,3). Farven på hvert punkt og SNP repræsenterer graden af ​​koblingsuligevægt (r

2) med rs991316 ifølge HapMap fase II CEU data. Fremhævet i figuren er rs1229984, rs1789924 og rs971074, som er blevet rapporteret at være forbundet med UADT kræftformer tidligere, såvel som den rs991316 SNP, som blev opdaget at være forbundet specifikt med oral cancer i den aktuelle undersøgelse. rs1229984 blev ikke genotype eller tagget af en proxy-variant på HumanHap300 BeadChip men blev genotype af Taqman assay i de samme prøver fra Centraleuropa og ARCAGE undersøgelser, som indgår i opdagelsen fase af nuværende GWAS, og r

2 mellem rs1229984 og rs991316 blev estimeret i de 3.513 kontroller fra centraleuropæiske og ARCAGE studier. Rekombinationshastighederne tværs af regionen vist ved den lyseblå linje afbildet mod højre y-akse. Gener i regionen er repræsenteret med pilespidser angiver retningen af ​​transskription.

a) Bortset fra OR for CT heterozygoter og TT homozygoter, som blev anslået i forhold de store CC homozygotes, alle OR og 95 % initiativerne blev estimeret ved hjælp af loggen-additive model, korrigeret for alder, køn og center. Alle emner fra genom-dækkende og replikering faser med tilgængelige co-variates blev inkluderet i denne analyse (ikke generiske kontroller). De overordnede Eller for kræft i mundhulen og oropharynx er vist ved den stiplede lodrette linje. b) P for heterogenitet viser forskelle i eller mellem strata og blev afledt af Cochran Q test. c) Aldrig drikker var emner, som enten rapporteret 0 g alkoholindtagelse pr dag, eller rapporteres at være aldrig drikker, lys drikkende forbruges 0 og 6,06 g alc./day, forbruges mellemliggende drikkende 6.06 og 46,3 g alc ./day, og storforbrugere forbruges 46,3 g alc./day. d) hypopharynx blev larynx, og spiserør tilfælde ikke inkluderet i ovenstående analyser.

Stratificeret analyser

Vi har udført yderligere stratificeret risikoanalyser for rs991316 (figur 3), men bortset fra den heterogene risiko effekt på den samlede oral cancer, i forhold til andre UADT kræftformer (

p

heterogenitet

= 0,03), blev ingen klare effekt ændringer observeret (

p

heterogenitet

0,10). blev observeret nogle tankevækkende evidens for effekt modifikation af køn (

p

heterogenitet

= 0,11), foreningen med risikoen er stærkere blandt mænd. Nogle tegn på tobaksrygning og alkoholforbrug også modificere foreningen med risiko blev også observeret, med risiko at blive mere udtalt med højere niveauer af at ryge og drikke, men formelle tests støttede ikke interaktion (

p

interaktion

= 0,15 og 0,10 for rygning og alkoholindtag, henholdsvis). Yderligere justering af vigtigste rs991316 risikoanalyse for at drikke og ryge ændrede ikke OR estimater (data ikke vist).

Diskussion

Vi rapporterer en metode til at hente information fra tekstbaserede medicinske litteratur og estimere forudgående sandsynligheder for forening for alle undersøgte i GWAS, de Justering association Priors med Tekst (ADAPT) metode SNPs. De priors kan efterfølgende integreres med tilknytning resulterer i en Bayesian mål for noteworthiness foreningsfrihed for hver SNP til sygdom forening.

En af de vigtigste argumenter for udførelse GWAS er, at tilgangen er agnostiker, hvilket giver mulighed for at opdage nye modtagelighed loci uden udlede forudgående overbevisninger om betydningen af ​​specifikke gener (f.eks sammenligne med kandidaten gen tilgang). Men mange genetiske følsomhed varianter detekteret i GWAS bor nær plausible kandidatgener, og ADAPT-BFDP metode giver mulighed for at udnytte denne information i en automatisk måde. ADAPT søger automatisk gennem PubMed abstracts for relevant forudgående tegn på engagement i den pågældende sygdom. Kombineret med BFDP statistiske grundlag, tilpasse inkorporerer forudgående oplysninger med foreningen resultater fra GWAS, og dermed give SNPs nær gener tidligere impliceret i sygdommen af ​​interesse en højere placering.

Vi oprindeligt valideret ADAPT-BFDP baseret på GWAS data for lungekræft, og bemærkede, at validerede modtagelighed SNPs konsekvent blev placeret højere ved ADAPT-BFDP skøn end ved p-værdier (tabel 1). Metoden blev efterfølgende anvendt i en beskedne størrelse GWAS af oral cancer (ca. 800 sager) med dårlig statistisk styrke til at opdage de mellemliggende risiko effekter typisk observeret i GWAS (≤40% statistisk styrke til at vælge en SNP for replikation ved p 10

-5 antager en OR på 1,25). Ved rangordning foreningen resultater i overensstemmelse med ADAPT-BFDPs og replikering de fem bedste SNPs, identificerede vi et nyt modtagelighed variant af kendte orale og UADT kræft modtagelighed region af

ADH

gen klynge på 4q23. Vi undersøgte, om sammenslutningen af ​​rs991316 kunne forklares ved bindingsuligevægt med tidligere identificerede risikofaktorer varianter af den samlede UADT kræft på dette locus [8], [15], herunder rs1229984, rs1789924 og rs971074, men deres parvise korrelationer var lave og konditionering risikoanalysen på disse SNPs påvirkede ikke OR estimat af rs991316. Endvidere viste klart, haplotypeanalyse at varianten alleler af disse SNP’er var placeret på forskellige haplotyper (data ikke vist), hvilket yderligere styrker den uafhængighed inferens af disse modtagelighed SNP’er. Vigtigt er det, blev den rs991316 SNP ikke forbundet med andre UADT kræftformer (figur 3), dermed støtter begrebet en ny forening, som bevis for association med andre UADT kræft sites er blevet noteret med de tidligere opdaget modtagelighed SNPs.

Vi anerkender, at enhver metode, der tager ikke-kurateret forudgående oplysninger i betragtning i associationsstudier er ufuldkommen og underlagt forskellige bias [2], og ADAPT-BFDP metode har flere begrænsninger. Som tilpasse søgninger PubMed abstracts for tilstedeværelsen af ​​præ-tildelte søgeord og semantisk relaterede begreber, det endelige resultat (rangordning af BFDPs i stedet for p-værdier) vil privilegium SNPs i nærheden af ​​gener, der er blevet undersøgt i forhold til slutpunktet af interesse . Som vist i figur 1, er der et tab i statistisk styrke til SNPs om hvilke relevante forudgående oplysninger. Denne sanktion, der pålægges nye gener og gen ørkener synes i modstrid med agnostiker karakter af en GWAS, selvom stærke forening signaler vil forblive højt rangeret ved hjælp af enten metode.

Metoden er også følsomme over for den formodede antal virkelig tilhørende SNP’er (

N *

). Forøgelse dette tal vil give flere SNPs at passere tærsklen BFDP, men det vil ikke ændre deres placering. I et to fase design, hvor antallet af SNPs opbevares i den anden fase er bestemt af den anden fase effekt [16], kun den relative placering i den første fase er relevant og valget af

N *

er uvæsentlig. Derimod er andelen af ​​virkelig tilknyttede SNPs i hvert tidligere kategori påvirker placeringen ved at ændre forudgående sandsynlighed for forening for hver variant.

Endvidere den nuværende gennemførelse af ADAPT bruger en forholdsvis enkel tekst mining algoritme, og som sådan, stadig forholdsvis rå. For eksempel tager det ikke frekvensen af ​​nøgle-ord matcher i betragtning, når tildeling af Priors, heller ikke tage hensyn til, hvis de enkelte undersøgelser rapporterer positive eller negative studieresultater. Sådanne strategier vil blive evalueret i fremtidige implementeringer af Adapt, samt metoder, der sigter på at udvide søgeord i semantisk relaterede begreber. Desuden tilpasser øjeblikket tildeler individuelle SNPs til gener simpelthen baseret på deres placering, f.eks hvis de er inden for 50 kb fra et givet gen. Her synes det nyttigt at også tage bindingsuligevægt hensyn, som er blevet implementeret i genet relationer på tværs impliceret Loci (GRAIL) metoden [17]. Ligeledes at tilpasse sig, GRAIL bruger tekst mining af PubMed abstracts at prioritere SNPs i GWAS, men gør det ved at identificere gener, der er funktionelt relateret til flere andre gener i højere grad, end hvad man kunne forvente ved en tilfældighed. Mens gral metode har den fordel, at den ikke kræver fænotype af interesse, der skal undersøges i forhold til et bestemt gen før, heller ikke gavne, når sådanne oplysninger foreligger. Derfor ser det ud til både at tilpasse sig og gral metoder kan vise sig nyttige sammen eller på egen hånd, prioritere SNPs fra indledende GWA scanninger for yderligere opfølgning.

Det er vigtigt, vi påtænker at bruge ADAPT-BFDP metoden som supplerende redskab – ikke som en erstatning – til den mere traditionelle GWAS tilgang (dvs. p-værdi ranking), f.eks ved først at bruge p-værdi baseret ranking at opdage genetiske loci i en agnostiker måde, og efterfølgende, at ADAPT-BFDP metode yderligere udnytte dataene med potentiale til at opdage varianter, der kan ellers ville blive overset. Selv om det generelt ikke anbefales at foretage underdimensioneret undersøgelser, kan tilpasse-BFDP metoden også hjælpe påvisning af modtagelighed loci når statistiske styrke er dårlig, for eksempel i stratificeret genom-dækkende analyse såsom i underdimensioneret oral cancer GWAS. Faktisk rs991316 SNP blev rangeret 76

th ved p-værdier, og denne modtagelighed SNP ville ikke have været medtaget i replikation fase havde vi vedtaget at kopiere kun de meget top klassificeret varianter af p-værdier. Desuden, hvis antallet af SNPs valgt til replikation havde været tilstrækkelig dybt til at omfatte rs991316, den statistiske beviser for replikation (

P

trend

= 2,5 × 10

-3) ikke ville være blevet anset bemærkelsesværdigt efter justering for multiple test i replikation fase (dvs. en Bonferroni korrigeret signifikans tærsklen til p = 0,0007). Derfor fremgår det, at Adapt-BFDP strategi bistået påvisning og validering af rs991316 variant. ADAPT proces kan også let tilpasses til forudgående underretning af de samlede gener i stedet for enkelte SNP’er, og som sådan, kan også være nyttige i genomiske applikationer, såsom exome eller genom baseret sekventering studier. Desuden kunne flere informationskilder potentielt inkluderet i Bayesian rammer, for eksempel pathway ontologi databaser, andre tekstbaserede metoder, herunder gral eller komplementære eksperimenter såsom genom-dækkende eQTL analyse [18].

Konklusioner

denne undersøgelse bekræfter, at det er muligt at inkorporere omfattende forudgående oplysninger i en automatiseret måde at hjælpe med at prioritere SNPs i GWAS for yderligere opfølgning, i dette tilfælde fra tekstbaserede medicinske litteratur ved hjælp af ADAPT-BFDP metodik . Til støtte for dette, rapporterer vi en ny modtagelighed SNP af oral cancer i

ADH

gen region 4q23, der var forbundet med risiko uafhængigt af tidligere identificerede risikofaktorer SNPs den samlede UADT kræft i denne region. Vi har gjort det tilpasse metodologien til rådighed for forskersamfundet via en web service (url: https://services.gate.ac.uk/lld/gwas/service/config).

Materialer og metoder

Etik erklæring

Alle deltagere gav skriftligt informeret samtykke til at deltage i undersøgelsen, og IARC etiske komité (IEC) godkendte denne forskning.

Hentning af oplysninger fra den medicinske litteratur ved hjælp ADAPT

for at udtrække relevante oplysninger fra den medicinske litteratur i en omfattende og uvildig måde, vi udviklet Justering Association Priors med Tekst (ADAPT) metode. Tilpasse identificerer relevante PubMed abstracts for hver RefSeq gen gennem Entrez genet database (url: https://www.ncbi.nlm.nih.gov/gene), hvor alle undersøgelser, der har undersøgt et bestemt gen er cross refereres med PubMed. Til denne undersøgelse blev helst gen inden for 50 000 basepar af en SNP kortlagt sammen med de abstracts forbundet med dette gen. Det er også muligt at bruge GeneRif tekster, som er korte og manuelt kommenterede resuméer af hver forskning papir, i stedet for PubMed abstracts. Disse GeneRif tekster leveres direkte i Entrez gen-database. Alle relevante abstracts efterfølgende udvindes for søgeord og centrale begreber vedrørende vigtige funktioner på sygdommen eller fænotype af interesse, herunder ætiologiske og mekanistiske faktorer. Denne minedrift udføres ved hjælp GATE (url: https://gate.ac.uk) [19], der deler abstracts i sætninger, tokenizes sætningerne i individuelle vilkår, finder den del af talen for poletter, og bryder hver token ind dens vigtigste komponent (morfologiske root). Abstracts blev også kortlagt til UMLS koncepter ved hjælp MetaMap [20], [21]. Poletter og koncepter blev opbevaret i et GATE Mimer indeks for at lette hurtig genfinding og lagre mapping mellem individuelle SNPs og relevante abstracts [22]. Nøgleord for minedrift blev også behandlet med GATE at give morfologiske rødder og tilstedeværelse af disse blev efterfølgende kontrolleret i indekset for hver SNP.

Vi tildelt søgeord i en af ​​tre grupper, G1, G2 og G3, gruppe G1 indeholder ord af højeste betydning for fænotype, og gruppe G3 indeholder relevant, men subjektivt mindre vigtige ord. Baseret på tilstedeværelsen af ​​relevante søgeord, kan hvert gen og proksimale SNPs logisk tildeles én af otte mulige binære kombinationer af G1, G2 og G3. Til vores formål definerede vi tre kategorier (

C

i, i = 1,2,3

):

C

1

= {Not

G

1

, Ikke

G

2

, Ikke

G

3

}

C

2

= {mindst én af

G

1, G

2, G

3

men ikke alle}

C

3

= {

G

1, G

2, G

3

}.

Vi udviklede en web-tjeneste, der giver brugeren mulighed for at foretage forespørgsler nøgleordet over en vilkårlig sæt SNPs i tide, f.eks en liste over SNPs inkluderet på et bestemt genom-dækkende BeadChip (url: https://services.gate.ac.uk/lld/gwas/service/config). Dette returnerer en klassifikation i alle 8 mulige kategorier, så yderligere kollapse af brugeren. Vi tilbyder også en R-script, der anslår de forudgående sandsynligheder for hver SNP og re-rangerer GWAS resultater i overensstemmelse med BFDP skøn. Dette vil give efterforskerne til frit at anvende tilpasse metodologien uden at overføre deres forening resultater online (url: https://services.gate.ac.uk/lld/gwas/service/rscript).

Be the first to comment

Leave a Reply