PLoS ONE: opdage kræft Gene Networks kendetegnet ved gentagne genomiske Ændringer i en Population

Abstrakt

Høj opløsning, har hele systemet karakteriseringer demonstreret evnen til at identificere genomiske regioner, der gennemgår genomiske afvigelser. Sådanne forskningsindsats sigter ofte på at knytte disse regioner med sygdom ætiologi og resultat. Identifikation af tilsvarende biologiske processer, der er ansvarlige for sygdom og dens udfald fortsat udfordrende. Brug nye analytiske metoder, der udnytter strukturen af ​​biologiske netværk, er vi i stand til at identificere de specifikke netværk, der er meget væsentligt, nonrandomly ændret af regioner kopi nummer forstærkning observeret i en systemteoretisk bred analyse. Vi demonstrerer denne metode i brystkræft, hvor staten af ​​en delmængde af de veje er identificeret gennem disse regioner er vist at være stærkt forbundet med sygdom overlevelse og tilbagefald

Henvisning:. Efroni S, Ben-Hamo R, Edmonson M, Greenblum S, Schaefer CF, Buetow KH (2011) opdage kræft Gene Networks kendetegnet ved gentagne genomiske Ændringer i en population. PLoS ONE 6 (1): e14437. doi: 10,1371 /journal.pone.0014437

Redaktør: Toshi Shioda, Massachusetts General Hospital, USA

Modtaget: Juni 17, 2010; Accepteret: 8 okt 2010; Udgivet: januar 4, 2011

Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Public Domain erklæring hvori det hedder, at når det først er i det offentlige rum, dette arbejde kan frit gengives, distribueres, overføres, ændres, bygget på, eller på anden måde bruges af alle til ethvert lovligt formål

Finansiering:. SE er finansieret af EU gennem sit internationale reintegrationslegater (IRG) program. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Biologiske fænotyper fremstå som en konsekvens af gener interagerer gennem komplekse netværk. Onkogenese har vist sig at være afhængig af biologiske netværk, der styrer processer såsom apoptose, fremadskridende alderdom, proliferation og angiogenese [1], [2]. Det er imidlertid klart, at den nuværende viden om, hvilke processer påvirker forskellige kræft fænotyper er ufuldstændig. Dette gælder især, når det kommer til at forstå processer i forbindelse med udfald sygdom.

En kompleks samling af genomiske forandringer forekomme under tumorceller evolution, herunder mutationer, translokationer, og kopier nummer ændringer. For eksempel har genom-dækkende analyse af brystkræft ved en lang række teknikker reproducerbart demonstreret tilbagevendende mønstre af kopi nummer ændring (CNA) [3], [4], [5], [6], [7], [8], [ ,,,0],9], [10], [11]. Ekspressionen af ​​gener i disse ændrede segmenter er blevet påvist at være korreleret med kopitallet tilstand af regionen [3], [9], [12], [13], [14], [15], [16], [17], [18], [19]. Det er imidlertid uklart, om disse tilbagevendende mønstre udgør den vigtigste sæt CNAs eller udgør kun en delmængde af de vigtigste områder.

Mønstre af kopi nummer ændring har vist sig værdifuld i klassificering af kræft undertyper og kan tjene som indikatorer for patientresultatet [19]. Disse ændringer målgener der påvirker net, der giver tumorer med en selektiv fordel i forhold til celler med normal sammensætning. På grund af deres tilknytning til resultatet, er det sandsynligt, at de også påvirke processer, der driver kliniske fænotyper og reaktion på interventioner.

Identifikation af processer er omfattet af de definerede regioner gennem hele systemet analyse er kompleks. For eksempel kopiantallet-ændrede regioner indeholder et stort antal gener. Der er også en enorm grad af mellem-individuel heterogenitet i opgørelsen af ​​regioner sig at blive ændret.

Arbejde af andre til at identificere processer, der understøtter komplekse træk har kombineret arvet varianter og netværksanalyse at kortlægge multifaktoriel, heterogene sygdomsfænotyper [20]. I dette arbejde, forfatterne udvide traditionelle gen kortlægning tilgange ved at medtage formodede gen interaktioner at løse heterogenitet. Andre har undersøgt flerdimensionelle datasæt, som indbefatter forskellige målinger genom målestok samtidigt i forbindelse med veje [21], [22], [23] .. De gælder statistisk metode til måling pathway berigelse og anvende gen-udtryk data til vurdering variation af pathway aktivitet. Gennem sådanne analyser de hypotesen nye cellefunktioner.

I arbejdet præsenteres her, vi komplimentere og udvide disse tilgange til systematisk at analysere somatiske CNAs at identificere biologiske net, der danner kræft fænotyper. Vi demonstrerer fremgangsmåden anvendende brystkræft data sæt Chin et al [24]. Vi identificerer ændrede veje forskelligt målrettet med kopi nummer aberration.

lighed med tidligere tilgange vi addresse heterogenitet mønstre ved at anerkende, at forskellige mønstre af CNA kan repræsentere alternative ruter at kræftceller kan tage for at ændre den samme centralt sæt fælles biologiske processer. Den tilsyneladende heterogenitet i kort placering forbundet med CNAs kan simpelthen afspejle, at de gener, som omfatter et givet net er fordelt over hele genomet. Vi tester derfor, om de enkelte kanoniske veje er ikke-tilfældigt målrettet tværs kopi nummer skift regioner. I modsætning til tidligere tilgange, vi udnytte eksisterende netværksstruktur i modsætning til de novo skabe netværk. Netværket interaktion struktur for disse kanoniske netværk derefter gearede til kortlægning fænotyper. Vi udnytter tidligere beskrevne metoder [25] for at afgøre, om ændret tilstand af ikke-tilfældigt ændrede processer kan forudsige patientens udfald.

Resultater

Chin et al. har tidligere rapporteret genom-dækkende kopital og genekspression analyse af 145 primære brystcancertumorer [19]. Disse ændringer blev bestemt ved hjælp af genom BAC-array CGH [26], [27], [28], [29] består af 2464 AKB udvalgt på omtrent mega grundintervaller langs genomet som beskrevet tidligere [26], [28]. Udnytter denne datasæt og fremgangsmåden beskrevet i Materialer og metoder, genet indholdet af hvert segment er beskrevet i Chin et al. blev identificeret.

Canonical biologiske netværk information og gen-struktur indhold blev opnået fra offentlige kilder [30], [31], [32] .En alt 565 kanoniske veje blev undersøgt. Disse veje repræsenterer samlinger af interaktioner, der er delmængder af større biologiske netværk kurateret at fange specifikke funktioner. Derfor deres gen indhold er ikke enestående. Indholdet af disse veje gen varierer dramatisk. For eksempel som den sti “nedbrydning af RAR og RXR af proteasomet [33]) indeholder kun 2 gener mens IL12-signalvejen” [34], [35], [36]) indeholder 80.

at tage højde for heterogenitet af gen involvering når analysen udføres ved anvendelse af en netværksmodel vi definere en ny statistisk variabel (beskrevet i ligning (2.5) og (2.6) i Materialer og fremgangsmåder). Betydning for hver vej tværs prøver blev vurderet ved hjælp af Fishers Omnibus [49], og justeret for multipel sammenligning ved hjælp af Bonferoni metoden.

Anvendelse af metoder til de data, som Chin et al., Vi identificerer veje, hvor gener ændret af CNAs er meget væsentligt overrepræsenteret i forhold til tilfældige forventninger (tabel S1).

for at illustrere de forskellige overrepræsentation mønstre for et givet net vi præsentere CNA begivenheder forbundet med sti “Cdc25 og CHK1 “[37] (figur 1). I figuren er genamplifikation betegnet gennem en lilla firkant og gendeletion gennem sorte firkanter.

Lilla rektangler betyde genamplifikation og sorte firkanter betyde sletning. Hver kolonne repræsenterer et tilfældigt valgt emne med i alt 18 forsøgspersoner. Hver række repræsenterer et andet gen af ​​syntesevejsgener. Forskellige fag målrette “Cdc25 og CHK1” sti gennem skiftevis genomiske strategier. Vejen som en enhed, men er målrettet hele befolkningen.

Som figur 1 viser, ingen enkelt gen i vej synes at være den differentierede mål for CNA tværs prøver de 18 brystcancer viste … eller når de undersøges på tværs af de resterende 127 individer i undersøgelsen.

på den anden side, kan vi se, at vejen, som en enhed, er målrettet i næsten alle fag i panelet (hele panelet af emner for denne vej er medtaget i tabel S2). Bemærk, det metriske (se materialer og metoder) kompenserer for pathway størrelse. Som sådan, at opnå en signifikant p-værdi, større veje nødt til at akkumulere et større antal genamplifikationer eller sletninger.

Vi næste vurderet, om de netværk identificeret ved overrepræsentation af CNA er forbundet med udfaldet sygdom. Brug pathway aktivitet og sti konsistens scores [26], vi grupperet de personer i henhold til deres pathway målinger og udførte overlevelse analyse. Når vi stratificere patienterne til to grupper, kan vi trække overlevelseskurverne og kontrollere, om de adskille befolkningen i en signifikant måde (figur 2).

Denne vej, der er blevet fremhævet gennem sin stærkt signifikant p-værdi som mål for genomiske ændringer, er meget signifikant i sin evne til at stratificere patienternes prognose. Figuren viser, hvordan betydelige genomiske ændringer indikerer en sti betydning som lagdeling værktøj

iteration over samling af hundredvis af veje, finder vi 29 veje, der opfylder betydning kriterier for p. 0,05 (tabel S3) . Men når der korrigeres for multiple test ved hjælp af Bonferroni-metoden kun to veje betydeligt målrettet af genomiske ændringer er også stærkt forbundet med overlevelse, “” Hypoksisk og ilt homeostase regulering af HIF-1-alpha “[38], [39], [40] og glycosaminoglycan nedbrydning [dommere].

En alternativ metode til at justere for flere sammenligninger til vurdering betydning er at validere resultater de veje, der viser marginal betydning på tværs af datasæt. To offentlige datasæt med udtryk og resultatet sygdom blev udvalgt fra Gene Expression Omnibus database (https://www.ncbi.nlm.nih.gov/geo) [41] Det første datasæt (GSE2990) [42] indeholdt 189 individer. Den anden (GSE3494) [43] indeholdt 251 individer. Genekspression i begge datasæt udnyttet Affymetrix platform til bestemmelse af genekspression tilstand. Af de oprindelige 29 veje observeret at være signifikant associeret med overlevelse i Chin et al. [19], 8 blev observeret at være betydelig i GSE2990 og 8 blev observeret at være betydelig i GSE3494. blev observeret i alt 4 veje til at være betydelige i alle tre datasæt. Overensstemmelse mellem datasættene er mere end man ville forvente ved et tilfælde alene.

Diskussion

Ovenstående resultater tyder på, at gener i CNA ikke-tilfældigt målrette processer er vigtige for onkogen tilstand. I arbejdet præsenteres her, giver vi et middel til objektivt at identificere de biologiske processer, der kan være målet for disse ændringer. Desuden veje over-repræsenteret i disse segmenter viser forskelle i aktivitet og konsistens, der er relateret til kræft resultat.

Det samlede antal veje er identificeret som ikke-tilfældigt målrettet er slående. En mulig forklaring er den manglende uafhængighed af genet indhold forbundet med hver sti. Hierarkisk klyngedannelse af veje udnytter p-værdien er forbundet med den ikke-tilfældige målretning (tabel S4) bekræfter, at veje med tilhørende navne almindeligvis klynge med høj korrelation (r 0,5, data ikke vist). Inspektion af vejen p-værdier på tværs af individer viser enorm variation (tabel S4). Dette antyder forskellige underliggende molekylære mekanismer køre onkogenese. Desværre, ingen indlysende mønster af gruppering af individer tegner analysen af ​​sti-specifik variation.

CNA har tidligere vist at vise association med patient resultat [44], [45], [46], [47] ). I Chin et al. [19] individuelle kopi nummer ændrede segmenter viste association med overlevelse og sygdom tilbagefald, men udført ujævnt. Når det tages som et sæt, fandt de, at ændring af en hvilken som helst af det, de er identificeret som “tilbagevendende amplikoner” var forbundet med reduceret overlevelse varighed (p 0,04) og fjernt recidiv (p 0,01).

De opnåede resultater fra forløb-baseret analyse af det samme datasæt producere en markant forbedring og foreslå, at veje kan repræsentere en bedre måde at evaluere tilbagevendende ændringer. To veje viser en yderst signifikant sammenhæng inden Chin et al. alene og 4 veje viser signifikans på tværs af flere data ekspressionssystemer datasæt. På grund af den høje dimensionalitet af systemer-dækkende data, er der altid en fare på over montering. Som sådan bør resultater fra en individuel undersøgelse ses skeptisk. Men den betydelige konkordans på tværs af flere giver uafhængig validering,.

Den øgede reproducerbarhed og omfanget af den virkning, der er forbundet med sti tilstand sammenlignet med observeret i direkte undersøgelse af “tilbagevendende” regioner kan skyldes flere faktorer. På et mekanisk niveau, undersøgelse af data på vejen niveau tillader information fra forskellige regioner, som skal integreres på tværs af netværket. Den omstændighed, at et givet tilbagevendende region amplificeres ikke længere den kritiske prædiktor. Hvad kommer i stedet, er betydningen af ​​sæt af ændrede regioner, hvis individuelle medlemmer ramt forskellige dele af en målrettet vej. Veje pre-aggregere effekterne af flere gener. Som sådan er det muligt at detektere multigenfamilier interaktioner, der påvirker kræft fænotyper, men som, hvis ikke sammenlægges i en vej, måske ikke opfylder testen af ​​statistisk signifikans i en lille datasæt.

CNA er kun én faktor, kunne køre pathway involvering i fænotyper. Mange andre genomiske mekanismer (fx individuelle genmutationer, epigenetisk aktivering /lyddæmpende) kan påvirke tilstanden af ​​vejen. Som sådan veje identificeret her repræsenterer en delmængde af dem sandsynligvis involveret.

Konceptuelt er det sandsynligt, fordi vejen er den underliggende enhed af fænotypen med fokus på veje øger signal og reducerer støj. Genomiske forandringer som samler sig under onkogenese og sygdomsprogression forekomme tilfældigt. Den observerede sammenhæng sandsynligvis opstår, fordi visse processer skal ændres for at nå frem til den given fænotype. Tilsyneladende genomisk heterogenitet, “støj”, opstår, fordi der er flere måder en vej kan ændres. Alle disse måder er “signal” fra perspektivet af en vej.

Det er muligt at spekulere, at analyse ligner dem, der udføres for kopiantal ændring vejen (ovenfor) kan vise sig nyttig for andre genomanalyser såsom genom-dækkende mutationsmønstre skærme eller associationsstudier. For eksempel er de komplekse mutationsmønstre set i 1672 generne kendetegnet ved human og brystcancer [48] er alle observeret at mutere gener i en eller flere af 6 kanoniske pathways tilstand identificeret fra genekspression data, som universelt adskiller tumor fra normal [25] . Ligeledes kan komplekse, lave odd-nøgletal haplotype foreninger mønstre afspejler heterogene ruter til at ændre almindelige veje. Ovenstående observationer har flere praktiske implikationer i overvejer næste generation interventionsstrategier. Først de netværk som grundlag for at designe kombinatoriske behandlingsformer. Undersøgelse af netværk og deres aktivitet stater, giver en rationel middel til at bestemme, hvilken kombination af gener skal målrettes for at ændre tilstanden af ​​kritiske noder. Det er også interessant, at ikke alle ændringer i veje tilstande påvirker udfaldet. Denne observerede forskel i effekt på resultat, hvilket kan afspejle resultatet af naturlige eksperimenter med tumoren, kan også vise sig vigtige i prioriteringen, hvilke gener og interaktioner kan være mest produktivt mod at forbedre resultatet.

Materialer og metoder

Mapping Entrez Gene til Golden Path

NCBI s Entrez Gene database indeholder 36470 menneskelige optegnelser, 25441 af dem kommenterede som proteinkodende. For hvert gen i dette sæt anvendte vi en række forskellige metoder til at finde sin placering Golden Path genomsekvens. Version (hg18) af genomet databasen indeholder omfattende anmærkninger, som vi brugte så vidt muligt. I nogle tilfælde brugte vi BLAT at finde genomiske steder.

Positionerne på ca. 18.342 (~54%) gener blev kommenteret direkte på Golden Path s refLink og refGene borde. Mens dette er den mest ligetil reference, det efterlader 18,128 gener unmapped, 6757 (~18.5%) af dem protein-kodning.

I tilfælde, hvor en direkte gen annotation ikke var tilgængelige, vi søgte Golden Path er anmærkninger til placeringer af associerede sekvenser fra en række kilder, der er anført nedenfor i prioriteret rækkefølge:

mRNA tiltrædelser fra Entrez Gene ‘s “gene2accession” table

cross-refereres tiltrædelser fra HUGO databasen

cross-refereres tiltrædelser fra uniSTS databasen

primær repræsentativ sekvens fra associeret UniGene klynge

mRNA sekvenser fra tilhørende UniGene klynge

EST-sekvenser fra tilhørende UniGene klynge

Tiltrædelse blev indsamlet fra hver af disse kilder i sving, og derefter kiggede op i forskellige Golden Path annotation tabeller (all_mrna, stsMap, clonePos, og all_est). Et lokalt bygget database af mRNA og refseq Blat resultater (samlet af Robert Clifford) blev også søgt, at give nogle ekstra kampe. De resulterende genomiske placeringer af søgningen sekvenser blev aggregeret, og accepteret som genets position, hvis de steder faldt inden for en 3 mb region (3 mb bliver en noget vilkårlig cutoff baseret på den største observerede refLink-baserede gen kortlægning af ca. 2,3 mb). Hvis et kromosom anmærkning var tilgængelig fra Entrez Gene, HUGO, eller uniSTS blev genomiske positioner kun, hvis de var på det samme kromosom. En kendt kromosom anmærkning var påkrævet i tilfælde af UniGene mRNA og EST sekvens opslag.

I de tilfælde, hvor tiltrædelsesforhandlingerne anmærkninger var tilgængelige, men positionerne blev ikke fundet, udførte vi vores egne blat søgninger. Det var nødvendigt for visse klasser af tiltrædelser, der ikke optræder i Golden Path databasen (fx “XM_” -serien af ​​forudsagte refseqs). Hvis et kromosom anmærkning var til rådighed for genet, blev en BLAT søgning køre kun mod at kromosom, ellers alle kromosomer blev ransaget. Resultaterne blev samlet og accepteret som genets position, hvis de faldt inden for en 10 mb eller mindre område. Dette er en mindre strenge krav end anvendt i tiltrædelsen-baserede kortlægning systemet, men det kan give mindst en generel position, meget mere specifik end en cytogenetisk-koordinatsystem (den eneste kortlægning tilgængelige oplysninger for nogle Entrez Gene poster). Hvis der blev fundet plausible kampe på flere kromosomer, blev genkortlægning afvist som tvetydig.

Blat resultater kommenteret med en af ​​fire kategorier af match typer, så kommentarerne kan udelukkes senere, hvis de anses for bred. De fire kategorier er:

En enkelt perfekt match for forespørgslen sekvens blev fundet. Den ideelle kortlægning resultat.

Mere end en perfekt match til forespørgslen sekvens blev fundet.

En enkelt næsten perfekt match (mindst 95%, men mindre end 100% identitet) blev fundet.

Flere nær-perfekte kampe blev fundet

præferencebehandling blev givet til perfekt refseq matcher i resultaterne -. dvs en perfekt BLAT match til en refseq blev betragtet genets genomiske position, uanset tilstedeværelsen af ​​andre nær-perfekte kampe i resultaterne

Hvis kortlægning mislykkedes ved enhver af de ovennævnte metoder blev forsøgt et par rå metoder til sidste udvej:.

Hvis et gen var placeret på en NCBI genomisk contigsekvensen (NC_ * serie tiltrædelse via EG s “gene2refseq” tabel), og en tilstødende gen på det samme kromosom, arm,

og bandet kunne findes i Golden Path, den relative

afstanden mellem de to gener i NCBI sekvens

blev anvendt til Golden Path koordinater at tilnærme

sin holdning.

Hvis et gen havde kun et cytogenetisk placering tilgængelig, koordinater af Golden Path-kortlagt gener med samme cytogenetiske placering blev aggregeret og en union af deres position genereret. De resulterende kortlægninger er meget bred, men i det mindste peger på en generel molekylær region, der stadig kan være nyttig i nogle tilfælde.

Kortlægning AKB til Golden Path

Den anden datasæt skal kortlægges til Golden Path bestod af sættet af BAC’er anvendes i CGH arrays fra Chin et al [24]. Som med Entrez Gene mapping proces, Golden Path annotation database indeholder et ideelt bord til vores formål, “bacEndPairs”, holder de genomiske positioner af AKB, hvis ende sekvenser er begge blevet kortlagt. Det er dog kun ca. 39% af AKB i vores sæt indeholder en post i denne tabel. Den “fishClones” tabel forudsat tilknytninger for yderligere 6% af AKB. For resten har vi brugt BAC-relaterede anmærkninger som grundlag for kortlægning.

NCBI klon registreringsdatabasen forudsat en væsentlig kilde til BAC anmærkninger. Fra det, vi udvundet BAC-relateret tiltrædelsen ende sekvens, STS og kromosom oplysninger. Registreringsdatabasen også krydsforbindelser til uniSTS, hvorfra vi indsamlet ekstra relaterede tiltrædelser. Vi søgte efter de resulterende sekvenser i Golden Path er all_mrna, clonePos, stsMap og all_ests borde. Vi tog også især lægge mærke til eventuelle kampe for BAC ende sekvenser. Ud over klon registreringsdatabasen, vi brugte også anmærkninger fra UCSF 2.0 arrays (data fra https://cancer.ucsf.edu/array/analysis/), samt GenBank optegnelser refererer BAC navne i titlen blok. Genome kortlægninger blev accepteret til BAC’erne hvis de var længere end 500 kb i længden, og tilknytninger til tvetydige kromosomer blev afvist.

For AKB, der ikke kunne findes ved hjælp NCBI klon registreringsdatabasen eller UCSF array-anmærkninger, forsøgte vi en surrogat-baseret kortlægning tilgang. Chin et als [1] CGH array-anmærkninger forudsat ru genomiske positioner (i megabaser) hvis koordinater på linie mest tæt sammen med en ældre genom build, HG16. For hver BAC, vi udvundet sekvens ID’er fra HG16, der blev kommenteret som værende tæt på denne position. Sæt af sekvenser blev ekstraheret fra hver af de all_mrna, stsMap, og all_est annotation tabeller. For mRNA og STS’er, vi brugte sekvenser lokaliseret inden for plus eller minus 5 kb af målet placering. For EST’er, tog vi sekvenser inden for plus eller minus 1 kb af målpositionen. Disse udtrukne sekvenser blev anvendt som surrogater for AKB, og så op i hg18, søgning (i prioriteret rækkefølge) mRNA, STS’er og EST’erne. Denne fremgangsmåde blev anvendt til at generere hg18 positioner til ca. 8,7% af BAC’er.

I BAC’er, der ikke kunne mappet til hg18 benytter en af ​​de ovennævnte fremgangsmåder blev et andet gennemløb udføres for at finde generere omtrentlige positioner baseret på interpoleret tilstødende BAC steder. For hver BAC, forsøgte vi at finde flankerende AKB med hg18 tilknytninger. Vi anvendte derefter relative forskydninger til hg18 positioner baseret på afstande i HG16 positioner. Dette blev kun for ca. 1,4% af AKB.

BAC forbehandling.

To sæt modificerede genomiske positioner genereres for hver BAC, som vi kalder udvidet og forlænget koordinater.

Udvidet koordinater er et forsøg på at kompensere for de mange tilfælde, hvor BAC kortlægning og end-sekvens oplysninger er ufuldstændige. De er beregnet til at sikre, at alle AKB dækker et minimum af genomet, og at fuldt kortlagte AKB ikke fortrænge AKB har mindre komplette kortlægning anmærkninger. Dette omfatter udvidelse kortlagt BAC koordinerer op til ca. 165kb, som er vores observation af medianen størrelse AKB hvor begge ende-sekvenser er blevet kortlagt. Koordinater er ikke udvidet i de tilfælde, hvor begge ender sekvenser er blevet kortlagt, eller hvis den eksisterende kortlægning information spænder 100 kb eller mere. Hvis en enkelt ende sekvens kortlægning er kendt, udvidelsen fremstillet væk fra den forankrede ende, ellers koordinaterne udvides ligeligt i begge retninger. Sammenstød i forbindelse ekspansion mellem nært-kortlagte AKB opdages og løses af en multi-pass proces, hvor den tilgængelige mellemliggende rum er tildelt ligeligt mellem AKB. Hvis ekspansion i en retning forårsager en kollision med en nabo BAC, er passende kompenserende udvidelse forsøgt i den anden retning, medmindre herpå er fastsat af tilstedeværelsen af ​​en kendt ende sekvens.

Udvidede koordinater bygge videre på de udvidede mappings ved at dividere-tildelte områder af genomet mellem tilgrænsende BAC’er. Dette giver pseudo-flisebelægning dækning af genomet, tillader en given region at være forbundet med den mest hensigtsmæssige BAC i sættet. Generering udvidede koordinater kræver udvidede koordinater beregnes først, for at tillade den mest retfærdige tildeling af mellemliggende regioner.

udvidet og forlænget koordinater beregnes dynamisk baseret på BAC medlemskab af CGH-array der arbejdes med. Mens HG16-baserede CGH arrays havde til formål at prøve genomet med jævne mellemrum, er deres beregnede positioner i hg18 ikke så pænt fordelt. Til disse formål BAC’erne blev arrangeret som vi observerede dem i hg18.

Der er tilfælde, hvor BAC koordinerer overlap. I tilfælde, hvor en BAC er beregnet til at ligge helt inden et større BAC, jo mindre BAC modtager de samme endelige koordinater som større BAC (det væsentlige betragtes som en dublet). I tilfælde, hvor en BAC delvist overlapper med en anden, er koordinaterne i overlapningsområdet uændret, og ingen udvidelse eller forlængelse udføres på enden med overlap.

Tilknytning AKB med gener

Der er tre grundlæggende typer af skæringspunkterne mellem gen og BAC koordinater:

genet kortlægning udelukkende ligger inden for BAC kortlægning

genet kortlægning ligger til dels i BAC kortlægning og delvis uden

genet kortlægning er større end BAC kortlægning. Dette kan ske for gener med meget brede cytogenetisk-afledte gen tilknytninger.

Gene-til-BAC sammenslutninger af den første type er trivielt at beregne. De to sidstnævnte tilfælde kræve nogle ekstra skridt for at afgøre, om et gen skal være forbundet med en BAC eller ej. Foreninger generelt afvises, hvis længden af ​​BAC mapping er mindre end en tredjedel af længden af ​​genkortlægning. Dette forhindrer associationer i at blive dannet på grundlag af uvæsentlige overlapninger. Hvis koordinater anvendes det udvidede sæt BAC, er en forening afvises, medmindre mindst 50% af genet koordinater ligger inden for BAC koordinater. Da der i udvidet tilstand AKB flise genomet helt, dette trin sikrer, at gener i grænseregionerne vil blive overdraget til en BAC udelukkende. Specifikke sammenslutninger af BAC’er og deres gener er tidligere blevet beskrevet i Chin et al. [24].

Identifikation Gener i Copy Number Altered Regionsudvalget. For at identificere de gener i kopi nummer ændrede regioner var det nødvendigt at oversætte BAC’er koordinat bruges i komparativ genomisk hybridisering (CGH) analyser i genom koordinater. Dette indebar kortlægning af Entrez Gene databasen og CGH AKB til et fælles koordinatsystem rum (Golden Path menneskelige genom build hg18), og derefter overlejring resultaterne. Disse processer er beskrevet i den supplerende materiale [19].

Kortlægning Gener til Pathways

Vi bestemt listen over gener, der anvendes i hver vej i ved forespørgsel af Pathway Interaction Database [49].

p-værdi for en pathway s genomiske ændringer i en bestemt prøve

Hver vej netværk er taget som et sæt af gener. Det er, for hver vej, og ifølge (2.4), vi listet de gener, som er medlemmer af vejen.

For at bestemme sandsynligheden for, at en vej er at blive ramt af præcis k hits, vi først beregne sandsynligheden for, at vejen er tilfældigt ramt gange. Med G-gener kvantificeret i en given platform (fx en platform, der dækker hele genomet vil dække omtrent G = 24.000) og N

i gener i en pathway i (N

i er normalt mellem 10-70 gener) får vi: (2.4) sandsynligheden for tilfældigt at ramme nul til

k

jeg

,

j

gener, da

M

j

gener er ændret i prøve

j

er den hypergeometriske kumulative fordelingsfunktion: (2.5) den tilhørende p-værdi er derfor defineret som: (2.6)

p-værdi for en global sti målretning på tværs af en befolkning

for at kunne statistisk kvantificere genomisk målretning af en sti på tværs af en population af emner, vi har brug for at gentage på tværs af p-værdier, der er defineret i (2.5). Dette er i realiteten en kombination af en sidede binomialtest. Dette er blevet løst ved forskellige teknikker, herunder Fishers Omnibus [50], som vi bruger her. Denne test statistik for sti

jeg

udtrykkes her som: (2.7) og den tilsvarende p-værdi er: (2,8) hvor er Chi-square kumulative fordelingsfunktion og

d

er antal frihedsgrader (antal prøver).

Støtte oplysninger

tabel S1.

Bonferroni korrektion blev anvendt på p-værdier beregnet ved hjælp af Fisher Omnibus test for at løse problemet med flere sammenligninger. Værdien for signifikans var tildele til at være 8,834 × 10

-5, hvilket er 0,05 /566 (når 566 er antallet af veje). Tabel S1 viser alle 566 veje beregnet ud fra Chin s datasæt med p-værdien beregnet via Fisher Omnibus test. Desuden blev hver p-værdi justeret og sti signifikans blev omfordelt

doi:. 10,1371 /journal.pone.0014437.s001

(0,65 MB DOC)

tabel S2.

Tabel S2 viser hele panelet af emner for den følgende sti “cdc25 og Chk1 regulatoriske vej som svar på DNA-skade”. Denne vej består af 9 gener. Denne tabel viser kopitallet ændringer på tværs af 145 brystkræft patient: -1 indikerer sletning, 1 angiver forstærkning og 0 indikerer ingen væsentlig ændring

doi:. 10,1371 /journal.pone.0014437.s002

(0,19 MB DOC )

tabel S3.

Tabel S3, præsenteres her, viser alle veje, der viser sig at være betydelig hjælp Kaplan-Meier overlevelsesanalyse. Alle veje, der præsenteres her viste sig at være betydeligt målrettet gennem kopi nummer ændring ved hjælp af Fisher Omnibus test (efter korrektion). Alle 29 veje blev testet i to flere offentlige datasæt få fra GEO (https://www.ncbi.nlm.nih.gov/geo). . A – aktivitet, C – konsistens

doi: 10,1371 /journal.pone.0014437.s003

(0,05 MB DOC)

Tabel S4.

Tabellen beskriver den Fishers Omnibus værdi for hver vej.

Be the first to comment

Leave a Reply