PLoS ONE: formode Temporal bekendtgørelse af kræft genmutationer i Individuel Tumor Samples

Abstrakt

Den tidsmæssige rækkefølge af kræft genmutationer i tumorer er afgørende for at forstå og behandling af sygdommen. Eksisterende metoder er i stand til at udlede den rækkefølge af mutationer, der er identificeret på samme tidspunkt i de enkelte tumorprøver, forlader heterogenitet af ordren ukendt. Her viser vi, at gennem et komplekst netværk tilgang, som er baseret på den nyligt definerede statistik –

Carcinogenese information ledningsevne

(CIC), kan den tidsmæssige rækkefølge i individuelle prøver effektivt udledes. Resultaterne antyder, at tumorsuppressorgener måske oftere indlede rækkefølge af mutationer end onkogener, og hver type kræft kan have sin egen unikke rækkefølge af mutationer. De første mutationer synes at være dedikeret til at erhverve den funktion at unddrage apoptose, og nogle ordre begrænsninger kan afspejle mulige regelmæssigheder. Vores tilgang er helt datastyret uden parameterindstillinger og kan forventes at blive mere effektiv som flere data bliver tilgængelige

Henvisning:. Guo J, Guo H, Wang Z (2014) formode Temporal bekendtgørelse af Kræft genmutationer i Individuelle tumorprøver. PLoS ONE 9 (2): e89244. doi: 10,1371 /journal.pone.0089244

Redaktør: Raya Khanin, Memorial Sloan Kettering Cancer Center, USA

Modtaget: 22 oktober, 2013; Accepteret: 20 Jan 2014; Publiceret: 27 feb 2014

Copyright: © 2014 Guo et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Naturvidenskab Foundation of China under tilskud nr. 61273217; Chinese 111 program af ‘Advanced Intelligence og netværkstjeneste’ under tilskud nr. B08004. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. Zhanyi Wang er med Kina mobil forskningsinstitut, men det ændrer ikke forfatternes overholdelse af alle de PLoS ONE politikker om datadeling og materialer.

Introduktion

Kræft er en genetisk sygdom forårsaget af mutation af kræft gener består af onkogener og tumor-suppressor gener. I de fleste tilfælde cancer, forekommer multiple mutationer i en procedure kendt som tumor progression [1], [2]. For at forstå tumorprogression, er blevet udført undersøgelser for at modellere generelle lovmæssigheder om den tidsmæssige rækkefølge af mutationer for en given type af cancer ved anvendelse af både eksperimentelle og beregningsmæssige metoder [3] – [7]. Som en kanonisk model, blev rækkefølgen af ​​mutationer for kolorektal cancer rekonstrueret gennem tumor størrelse og kvalitet [8]. De seneste beregningsmodeller udlede de typiske tidsmæssige rækkefølge begrænsninger for visse typer kræft ved at simulere tumor progression som en stokastisk proces [9] – [11]. Trods disse fremskridt er der stadig ingen veldefineret metode til at udlede rækkefølgen af ​​mutationer identificeret på samme tid i de enkelte prøver, selv om denne slutning er nødvendig for at afsløre heterogenitet i størrelsesordenen mutationer i en cancer. For nylig, da ny generation sekventering bliver udbredt, mutationen landskaber i forskellige kræftformer bliver afsløret en efter en. Resultaterne har vist, at mutationer i en kræft ofte demonstrere statistiske korrelationer med hinanden eller endda forårsage og virkning forbindelser af induktion mellem den tidligere og den sidstnævnte [12] – [18]. Men disse sammenhænge /forbindelser er ikke blevet udnyttet, fuldt ud i at udlede den tidsmæssige rækkefølge af mutationer.

Fra et Informatik perspektiv, denne undersøgelse definerer en statistisk måling for at tildele værdi til de korrelationer eller forbindelser, der er nævnt ovenfor, og modellere mutationerne inden for et komplekst netværk, kan hvorigennem udledes den tidsmæssige rækkefølge af mutationerne i de enkelte prøver. Vi kalder målingen

Carcinogenese information ledningsevne

(CIC), som måler sikre adgang for overførsel af oplysninger af kræft gen har muteret til transkription processen med en given un-muteret kræft-gen til at fremkalde sin mutation. Statistisk set kan sikre adgang estimeres ved de enkelte forekomst frekvenser og den sekventielle samtidig forekomst hyppigheden af ​​de to gener ‘mutationer i prøver kræft. Derudover bør også overvejes konkurrence blandt de oplysninger sendes fra flere muterede gener til den givne un-muterede gen som enhver vellykket afsendelse vil forårsage målgenet til at mutere, og dermed slutter mutationen processen. I denne undersøgelse kalder vi to mutationer findes i de samme cancer prøve co-occurrent mutationer. Mens de fleste genomiske undersøgelser giver denne mængde på en indirekte måde, her sigter vi på udrede rækkefølgen af ​​forekomst af to mutationshændelser fra det enkle samtidig forekomst. Ud fra disse sekvenser af mutation forekomst, kan den sekventielle samtidig forekomst frekvens beregnes (Materialer og fremgangsmåder). Baseret på denne idé har vi defineret CIC fra kræft-gen

jeg

til kræft-gen

j

som: (1), hvor () er forekomsten frekvensen af ​​mutation af genet

jeg

(

j

) i kræft, er den sekventielle samtidig forekomst hyppigheden af ​​mutation af genet

jeg

efterfulgt af mutation af genet

j

, og er prioriteringen af ​​genet

jeg

i forhold til andre mutant gener til at sende oplysningerne til gen

j

. Vi har konstateret, at. I denne ligning er det sæt af prøver kræft med mutant gener

jeg

og

j

, er antallet af prøver i sættet, og er en indikator funktion, der er lig med 1, hvis de muterede gener ,

j

jeg

i prøven. Ellers er lig 0. Derfor den højeste prioritet af en vil blive tildelt, hvis er større end i enhver prøve af sættet, og jo flere gange, jo større værdi. Vi betragter formel (1) som en måling af carcinogenese oplysninger ledningsevne, fordi forholdet er et estimat af den maksimale chance for, at gen

jeg

sender carcinogenese oplysninger til gen

j

og forårsager dens mutation, den ratio er et skøn over den maksimale chance for, at mutation af genet

j

skyldes carcinogenese modtaget fra gen

jeg

, og er prioriteringen af ​​kommunikationsforbindelsen i forhold til andre forbindelser til gen

j

. Værdien af ​​intervaller fra 0 til 1. Ligesom definitionen af ​​

aktivering force

, en måling vi tidligere foreslået til vægtning links til komplekse netværk [19], at definitionen af ​​CIC følger formlen for tyngdekraften, hvis vi forestiller os forholdene og som masser og den prioritet som afstanden. Statistik defineret på denne måde vil sandsynligvis distribuere deres værdier i en magt lov, som er praktisk til at analysere komplekse netværk af indviklede relationer herunder i biologi [20] – [24]

En af udfordringerne ved beregning CICS. er manglen på tumor prøver, der kan bruges som kilde til de sekventielle samtidig forekomst frekvenser af kræft genmutationer fordi mutationer af forskellige gener i en cancer prøve normalt identificeres samtidigt ved sekventering. For at tackle denne udfordring, præsenterer vi en iterativ procedure, at par CIC beregning og slutning af sandsynligheden for hver potentiel rækkefølge af kræft genmutation. (COSMIC) database Anvendelsen af ​​denne procedure til Katalog over somatiske mutationer i Cancer [25], [26] viste, at iteration nåede konvergens inden færre end 10 loops, og de konvergerende resultater tyder væsentlige konklusioner.

Materialer og metoder

iterativ inferens ordning

for at udføre den iterative inferens procedure en stor mængde stikprøver kræft med kræft genmutationer identificeret ved genom-dækkende sekventering er nødvendig. Med datasættet, fastlægge vi de grundlæggende statistik over forekomst og ikke-sekventiel co-forekomst frekvenser af kræft genmutationer. Ud fra disse grundlæggende statistikker, den iterative inferens for antallet af prøver pågældende begynder og CIC resultater og sandsynlige ordrer for kræft genmutation for hver prøve pågældende bestemmes når iteration når konvergens. Fig. 1 illustrerer en oversigt over proceduren.

(a) forekomsten og samtidig forekomst frekvenser af kræft genmutationer og bestemmes ud fra tilgængelige prøver, hvor og er antallet af kræft gener målrettet i undersøgelsen . En forekomst af et gen vil blive talt, hvis den er muteret i en af ​​prøverne, og en samtidig forekomst af et par gener vil blive talt hvis begge er muteret i en af ​​prøverne; derfor, og. (B) På grundlag af princippet om maksimal entropi er de oprindelige værdier for de sekventielle co-forekomst frekvenser sat som. (C) carcinogenese information ledningsevner,, beregnes ud fra vektoren af ​​og matricen af. Det bør bemærkes, at måske ikke være lig med, hvilket indebærer, at matrixen af ​​repræsenterer en rettet netværk. (D) For hver af prøverne pågældende, er sandsynlighederne for hver potentiel rækkefølge af de muterede gener i prøve beregnes i overensstemmelse med CIC for hver ordre (Methods). (E) matrix er genbestemmes af matrixen af ​​og forholdet mellem sandsynligheden vægtede antal ordrer indikerede, at

i

indtræffer før

j

til antallet af samtidig forekomst frekvens er det vigtigt at bemærke, at ikke er lig med i almindelighed. Hvis matrix af ikke har nået kriteriet om konvergens, vil de udledte ordrer ikke betragtes som stabil og en ny løkke af beregningen af, og vil blive udført. Ellers (f), er ordrer med en sandsynlighed større end tilfældig chance og de tilsvarende sandsynligheder og betragtes som de forelagte resultater. For eksempel, på alle 6 potentielle ordrer for en prøve med tre mutant cancer gener

en

,

b

c

, ordrer og er identificeret som de sandsynlige dem på grund af sandsynligheder for 0,7 og 0,2 (højere end en tilfældig chance for 1/6).

Iterativ procedure for CIC beregning og inferens af mutation orden

Efter definition, sekventiel co-forekomst frekvenser er nødvendigt at skønne det CIC værdi. Dog kan dette krav ikke opfyldes af de nuværende databaser, herunder COSMIC. For at overvinde denne vanskelighed, vi vedtager en iterativ procedure at koble slutning af de forekommende mutation ordrer og beregningen af ​​CIC. Først, vi jævnt opdele en ikke-sekventiel samtidig forekomst frekvens i de to mulige sekventiel co-forekomst frekvenser til at beregne de indledende CIC. Vi derefter udlede mutation ordrer med de indledende CIC at repredict de sekventielle co-forekomst frekvenser, gentag CIC beregning og inferens af mutation ordrer indtil en konvergerende resultat er opnået.

Baseret på princippet om maksimal entropi vi først bruge et ensartet forudgående fordeling af forekomsten ordrer, hvilket betyder, at for den ikke-sekventielle samtidig forekomst hyppigheden af ​​mutation af to gener

jeg

og

j

, de to mutation ordrer

i

j

j

jeg

forekomme med samme sandsynlighed. Derfor er den nødvendige sekventielle samtidig forekomst frekvens indstilles som halvdelen af ​​den tilsvarende ikke-sekventiel frekvens. Med denne indstilling vi beregne den oprindelige CIC mellem hvert par cancer gener.

Vi derefter beregne CIC at en ordre på mere end to mutant gener besidder. I denne beregning, må vi overveje, at hver af de foregående gener kan sende carcinogenese information parallelt med et target-gen i den rækkefølge. Derfor låner vi princippet om computing modstand i et kredsløb, som er en parallel-by-seriel procedure; vi opsummere alle de parallelle CIC fra de foregående gener til et target-gen i for at bestemme

fase CIC

af ordren og derefter formulere

For CIC

ved cascading alle

fase CIC

s. Overvej ordre

APC → ATM → KRAS

som eksempel; denne ordre indeholder to faser af oplysninger sende,

→ ATM

→ KRAS

. I den første fase, kan oplysningerne sendes fra én kilde,

APC

. Derfor ,, CIC fra

APC

til

ATM

, blot bliver CIC af første fase. I anden fase, men både

APC

og

ATM

kan blive informationskilde, der kræver summation af de to parallelle CIC som CIC af anden fase. Efter den parallelle trin i hver fase skal reciprocals af

fase CIC

s, betragtes som modstande, er serielt summeres som den reciprokke af den

orden CIC

. Trinene er opsummeret som følger:

Parallel skridt

:

Serie trin

:.

k

th gen i den rækkefølge er de oplysninger, der modtager genet på

(k-1)

th fase og har

k-1

afsendere af parallel information. En ordre, der består af

n

gener har

n-1

faser af carcinogenese information ledning. Generelt har vi ligningen, hvor er CIC af fase

k

, er CIC fra gen til gen, og er indekset af genet ved position i den rækkefølge.

Baseret om definitionen af ​​CIC, en større CIC værdi af en eventuel ordre indebærer lettere carcinogenese information overledning inden ordren. Blandt alle konkurrerende ordrer, jo større CIC værdien af ​​en ordre, jo større sandsynlighed for forekomst af ordren. Vi derfor formode, at CIC af en ordre er positivt proportional med sandsynligheden for ordren forekommende. Ved beregning af sandsynligheden for hver potentiel ordre ved en lineær afbildning fra CICS alle de potentielle ordrer for et givet sæt af mutante gener, summen af ​​sandsynlighederne for alle de potentielle ordrer er lig med én. Formelt for en prøve med

n

mutant cancer gener, antallet af potentielle ordrer er

n

!; Vi kortlægger CIC af orden

m

(

m

= 1, 2, …,

n

!) i sin sandsynlighed ved hjælp af ligningen

Efter bestemme sandsynlighederne for alle mulige rækkefølge mutationerne, vi redetermine de forudsagte sekventielle co-forekomst frekvenser som følger: hvor er sandsynligheden for orden

m

prøve

l

, og

L

er antallet af prøver pågældende. er en indikator funktion, der er lig med 1, når genet

jeg

indtræffer før gen

j

for

m

prøve

l

og lig 0 i alle andre sager, og er den ikke-sekventielle samtidig forekomst frekvens mellem gen

jeg

og gen

j

. Hvis genbestemmes værdier er næsten identisk med de gamle eller bliver konvergent, de beregnede CIC og dermed de afledte ordens sandsynligheder kan betragtes som pålidelige resultater. Ellers CICS og rækkefølgen sandsynligheder skal genbestemmes i en ny løkke. Den iterative procedure fortsætter på denne måde, indtil konvergens er opnået. I praksis kan kriteriet om konvergens anses for opfyldt, når den absolutte forskel mellem de nye og gamle værdier af monotont reducerer til en tilstrækkelig lille værdi.

Fordi vi begynder den iterative procedure med en indledende forudsigelse af den sekventielle co-forekomst frekvenser fra ikke-sekventielle frekvenser baseret på den maksimale entropi princippet, hvilket giver den maksimale ændring potentiale af de sekventielle co-forekomst frekvenser i første iteration, vil ændringen falde gradvist og endelig bliver ubetydelig. Denne forudsætning blev verificeret i undersøgelsen; en tilfredsstillende konvergens blev nået inden for færre end 10 løkker på inferens procedure ved hjælp af et sæt prøver fra COSMIC database.

iteration baseret på COSMIC data når konvergens inden for 10 loops. Her bruger vi beregningen af ​​CIC fra

KRAS

til

APC

at indføre proceduren i detaljer. I første omgang, vi beregne forekomsten frekvenser = 125 og = 209 og en ikke-sekventiel samtidig forekomst frekvens = 79 fra COSMIC database. Ved at definere halvdelen af ​​den ikke-sekventielle samtidig forekomst frekvens (79) som den sekventielle frekvens, vi fastslå, at = 39,5. Når man sammenligner med de sekventielle co-forekomst frekvenser fra andre end gener

KRAS

til genet

APC

i hver af de 79 prøver, viser sig at have en gennemsnitlig ordre på 1,47. Derfor prioritet = 1,47, og den oprindelige værdi af = (39,5 /125) * (39,5 /209) /1.47

2 = 0,028.

Brug de indledende CIC mellem alle kræft genpar, vi estimerer sandsynligheden for hver potentiel mutation forekomst rækkefølge i hver prøve på den ovenfor beskrevne måde. Ifølge de sandsynligheder, kan de ikke-sekventielle samtidig forekomst frekvenser være ujævnt fordelt på sekventielle frekvenser. For de 79 prøver i dette eksempel, er forholdet mellem

KRAS

APC

vs.

APC

KRAS

baseret på den tilsvarende samlede sandsynlighed for hver ordre er 0,28: 0,72. Derfor opdaterer vi værdien af ​​= 79 * 0,28 = 22,1, og prioriteten bestemmes derefter med det nye. Med disse nye værdier, vi redetermine.

konvergens og dens modstykke i de gentagelser er vist i fig. 2. Dette eksempel viser, at værdierne nå et tilfredsstillende konvergens efter blot 6 iterationer. Dette eksempel repræsenterer også den almindelige situation, så vi endte beregningen af ​​CIC efter 10 gentagelser i denne undersøgelse.

CICS (a) og dens modstykke (b) hurtigt nå konvergent som gentagelser af beregning udføres . Efter 6 gentagelser, har en tilfredsstillende konvergens er nået.

Kompleksitet af inferens procedure

CIC beregning har en kompleksitet

O Hotel (

n

2), hvis antallet af kræft-gener i undersøgelsen er

n

og inferens af sandsynlighederne for alle potentielle ordrer for en prøve med

m

mutant cancer gener har en kompleksitet

O Hotel (

m! m

2). I vores undersøgelse,

n

er lig med 397 og

m

spænder fra 2 til 8. Derfor kompleksiteten af ​​

O Hotel (

m! M

2) kan variere meget for forskellige prøver. I virkeligheden, i løbet af inferens for de 1.118 prøver rapporteret i undersøgelsen, blev størstedelen af ​​den tid, der forbruges af et par prøver med det maksimale antal mutant cancer gener. Det er værd at bemærke, at under hele proceduren, vi kun skal beregne CICS én gang i hver sløjfe for at udlede den rækkefølge sandsynligheder for alle prøver. Proceduren for følgeslutning med 10 gentagelser for de 1.118 prøver blev afsluttet inden for 10 minutter på en platform, der består af en PC (4 * 2.66 GHz Quad CPU) og Matlab.

Study data

De rapporterede resultater i denne undersøgelse blev opnået fra en nylig KOSMISK database (udstedt den 12. september

th, 2012) om kodning punktmutationer. Det er en tabel fil, der indeholder navnene på de muterede cancer gener i hver kræft samplet. Mutant gener i samme cancer har samme tumor-id (

ID_tumour

), og inden for

genom-wide-screen

primærside

give de nødvendige oplysninger, der anvendes i denne undersøgelse.

Steps til bestemmelse af forekomst og co-forekomst frekvenser af kræft genmutationer i prøverne

forekomsten og samtidig forekomst frekvenser af kræft gener i cancer prøver blev anvendt til estimere CIC i undersøgelsen, og de grundlæggende statistikker blev bestemt ved hjælp af følgende trin:

Download

kilde

fil

CosmicMutantExport_v61_120912.tsv

gennem ftp: //ftp. sanger.ac.uk/pub/CGP/cosmic/data_export/;

Lav en

midlertidig

fil ved at opnå de poster med værdien “

y

‘i’

genom-dækkende screen

‘felt fra

kilde

fil

Lav en

primære

fil ved at opnå registreringer af cancer gener defineret af filen

Table_1_full_2012-03-15.xls

i

Cosmic

hjemmeside fra den

midlertidig

fil og raffinering optegnelserne i sekvenser af

Gene_name

ID_Sample

;

Lav en

mutation_sequence

fil, hvor hver post er en liste over de muterede gener i den samme prøve baseret på

primær

fil , og kassér den post, kun indeholder et gen navn i

mutation_sequence

fil

Tæl forekomst og co-forekomst frekvenser af cancer gener baseret på

mutation_sequence

fil.

Resultater

Funktioner af de estimerede CIC

Vi udførte den følgeslutning på kræft-gen mutation data fra genom-dækkende scannede prøver indsamlet i en nyere version af COSMIC database. I alt 1.212 prøver indeholdende 6.281 mutationer i 397 cancer gener var til rådighed til at bestemme de grundlæggende forekomst og co-forekomst frekvenser. Fra disse, 1.118 prøver, hver huser ikke mere end 8 mutante cancergener, blev anvendt i den iterative procedure af CIC beregning og orden inferens. Tabel S1 angiver de 1.118 prøver. Resultaterne viste sig at konvergere inden for 10 iterationer. Efter konvergens, CIC med en værdi større end 1,0E-6 præsenteret en power lov-lignende fordeling over størrelserne, således at det overvældende flertal har en størrelse mindre end gennemsnittet af 4.0E-4 og en meget lille del har en større end gennemsnitlig størrelsesorden (fig. 3, tabel S2). Denne funktion er også sandt for fordelingen af ​​størrelserne af CIC fra (eller til) et givet gen i de fleste tilfælde, hvilket betyder, at kun et lille antal partnere er betydningsfulde i kraft af carcinogenese information ledning til ethvert givent gen. Med andre ord, CICS identificerer de nærmeste partnere i carcinogenese information ledning. Endvidere rettede netværk af cancer gener forbundet af CICS var asymmetrisk og lille verden-lignende. CIC fra gen

jeg

til gen

j

var normalt ulige til, at der fra gen

j

til gen

jeg

; netværket har en række hub gener med mange flere links end normalt. Denne funktion er overensstemmelse med den opfattelse, at signaleringsnetværket i cancer er analog med internettet, som konstruerer en lille verden med hub knuder [27] – [29]. Fig. 4 viser et CIC forbundet net, der dækker 44 cancer gener, herunder hub generne

APC

,

TP53

MLL3

, og links stærkere end 1,0E-2, der viser asymmetri . Asymmetrien af ​​CIC indebærer eksistensen af ​​en præference for bestemte mutation ordrer. Derudover tre hub gener er alle tumorsuppressorgener, og den stærkeste retningsangivende forbindelse, med en værdi på 0,136, er fra

APC

til

KRAS

, en af ​​de hyppigst muterede onkogener , hvilket tyder på en overlegen informationskanal fra mutation af

APC

til mutation af

KRAS

.

CIC større end 1,0E-6 er til stede i en magt lov-lignende fordeling; specifikt logaritmen af ​​antallet af CICS versus logaritmen af ​​deres størrelsesordener giver en stykvis lineær sammenhæng. Baseret på spørgsmålet om, hvorvidt en magt lov fordeling er hensigtsmæssig til at analysere komplekse netværk og bekymringer om upålidelige undervurderede CIC, der kan være forårsaget af reservedele data, kun de CIC større end 1,0E-6 blev anvendt direkte i følgeslutning i denne undersøgelse . CIC udledes som mindre end 1,0E-6 blev erstattet af tærsklen for udjævning.

Fyrre-fire hyppigt muterede cancer gener (i mere end 20 genom-dækkende scannede prøver i COSMIC database) er illustreret med CICS mellem dem større end 1,0E-2. Tykkelsen af ​​forbindelsen er proportional med styrken af ​​den tilsvarende CIC. Når et par gener har tovejs links, er stærkere link tegnes som en lige linje, og den svagere tegnes som en buet linie (se tilfældet med

APC

← →

TP53

) . Asymmetrien kan iagttages ved, at der ikke tovejs links til lignende styrker eksistere mellem genpar, og

APC

,

TP53

, og

MLL3

hver spiller en hub rolle i netværket.

den følgeslutning af sandsynlige ordrer

de udledte mutation ordrer med en sandsynlighed større end tilfældig chance, i det følgende benævnt

sandsynlige ordrer

, forudsat mere konkrete indsigt i tumorudvikling. Vi analyserede de sandsynlige ordrer udledes for de 1.118 kræft prøver pågældende til at undersøge et maksimum på 8 mutation skridt fra indvielse. De primære steder af prøverne blev hovedsageligt placeret i

æggestok Hotel (256),

large_intestine

(

LI

, 180),

haematopoietic_and_lymphoid_tissue

(

HLT

, 148),

prostata Hotel (100),

bryst Hotel (97),

central_nervous_system

(

CNS

, 86) og

upper_aerodigestive_tract

(

UAT

, 72).

tabel S3 lister alle de sandsynlige ordrer og deres sandsynligheder i de analyserede prøver, og tabel 1 viser et udvalg af dem . Baseres på den forventede ordrer, konkluderede vi, at kun en lille del af alle de potentielle ordrer i en given prøve, og denne sandsynlighed højere end tilfældig chance, og den samlede sum af sandsynlighederne for disse ordrer er tæt på antallet af prøver med et forhold af 1034,4 /1118. Dette indikerer, at slutning identificeret en lille del af alle de potentielle ordrer permuterede af det givne sæt af mutante cancer gener som de sandsynlige ordrer. For en prøve, der huser to mutant cancer-gener, den følgeslutning altid tyder stærkt en af ​​de to potentielle ordrer. Men for prøverne med mere end to mutant kræft gener, kan nogle ordrer har sammenlignelige høje sandsynligheder. Selvom vi ikke kan bedømme de enkelte plausibilities af de udledte sandsynlige ordrer på grund af mangel på jorden sandhed for ordrer i de fleste tilfælde kunne deres betydning være stærkt antydet ved at evaluere følgeslutning med prøver af en bestemt kræftform, der er blevet godt undersøgt med hensyn af orden. For eksempel,

APC, KRAS og TP53

er de tre hyppigst muterede gener i kolon kræft, og deres mutation ordrer er blevet godt modelleret [30], [31]. I vores resultater, prøven med mutant cancer gener

APC

og

KRAS

, gav en afledt sandsynlighed på 0,95 for ordren

APC

KRAS

, hvilket var i overensstemmelse med tidligere undersøgelser. For prøven med mutant

APC, KRAS og TP53

cancer gener, tre sandsynlige ordrer af

APC → KRAS → TP53

(0,33),

APC → TP53 → KRAS

( 0,32)

og TP53 → APC → KRAS Hotel (0,19) blev udledt fra 6 potentielle dem, og dette resultat var også i overensstemmelse med tidligere undersøgelser.

BRCA1

germline mutationer giver en høj risiko for bryst- og ovariecancer, men somatisk tab af vildtype

BRCA1

allel har vist sig at normalt opstår

efter

mutation af

TP53

[32]. Efter aftale med denne observation, vi udledte den somatiske mutation orden

TP53 → BRCA1

med en sandsynlighed på mere end 0,99. Disse eksempler giver beviser til støtte for inferens gyldighed.

initiativtagerne sandsynlige mutation ordrer

Identifikation af initiativtagerne til mutation ordrer er blevet betragtet som en af ​​de store udfordringer i studiet af tumor progression [1]. Vores udledes sandsynlige ordrer af mutation forudsat informative hints til at løse denne udfordring. Ved at undersøge de gener, der indleder de sandsynlige ordrer, fandt vi, at initiativtagerne var domineret af tumor-suppressor gener. Et overvældende flertal (mere end 77,5%) af sandsynligheden vægtede antal af de sandsynlige ordrer blev udledt at være indledt, en tumor-suppressor gen i stedet et onkogen. Der var 368 cancer gener i test kræft prøver, blandt dem kun 92 var tumorsuppressorer. Mere specifikt var der 1.858 mutationer af tumorsuppressorer blandt totalt 3.823 mutationer af alle cancer-gener. Derfor den gennemsnitlige chance for tumorsuppressorer at indlede mutation ordrer var 48,6% (1858/3823). Dette viser, at dominans tumorsuppressorer i indledning af mutation ordrer ikke kunne tilskrives tilfældigheder. Derudover forholdene mellem det antal gange et gen var initiatoren til sin mutationsfrekvens var generelt anderledes, hvilket indebærer, at det ikke er sikkert, at der ofte muterede gener muterer tidligt (tabel 2). Betydeligt, sandsynligheden vægtede antal af de sandsynlige ordrer startet af de øverste to tumor-suppressor gen initiativtagerne

TP53

APC

, bestod af procenter som stort som 46,9% og 11,4%, henholdsvis . I modsætning hertil top to onkogen initiativtagere,

PIK3CA

KRAS

, blev fundet i procenter så små som 3,1% og 1,3%, henholdsvis. De øverste initiativtagerne til mutation ved de respektive primære kræft sites foreslog flere detaljer (tabel 3). Generelt var alle cancere hos de store primære steder af prøverne afslørede et tumor-suppressor-gen som deres top initiator. Især

TP53

var en fælles top initiativtager i fire af de tidligere anførte typer kræft,

æggestok

,

UAT

,

bryst

prostata

, med procentdele af 91,5%, 73,4%, 57,6% og 30,4%, henholdsvis. I

LI

kræftformer, den øverste initiativtager var

APC

(57,5%), efterfulgt af

TP53

(29,7%). Begge

CNS

HLT

kræftformer havde nogen åbenbart overlegne initiativtagerne, med

CIC

(13,6%),

PIK3CA

(10,1%) og

TP53

(10,0%) som de tre øverste initiativtagerne til det tidligere, og

TP53

(14,9%),

NPM1

(10,4%) og

MLL2

(9,9%) som de øverste tre initiatorer til sidstnævnte. Set fra initiativtager distribution,

æggestok

,

LI

,

UAT

og

bryst

kræft blev udledt at være domineret af et lille antal tumor -suppressor gener, mens

HLT

,

CNS

prostata

kræftformer blev udledt til at have flere forskellige væsentlige initiativtagere.

Tidligere undersøgelser har foreslået en række kendetegnende funktioner, der skal erhverves for en kræft til at generere, hjælper forskerne med at forstå kompleksiteten i tumor progression i en måde logisk, videnskabelig måde [33], [34]. Vores udledte resultater peger på et forslag, der går et skridt videre. I de fleste kræftformer, kan tidligst erhvervede kendetegnende funktion være

unddrage apoptose

fordi størstedelen af ​​første muterede gener i hver kræftform i tabel 3 (

TP53, APC, KRAS, PIK3CA, NPM1

CIC

) har vist sig at kode for apoptose-regulerende proteiner, og mutationen af ​​alle disse gener er blevet vist at føre til mangelfuld apoptose funktioner. Konkret mutation af

TP53

kan resultere i fjernelse af en vigtig del af DNA-skader sensor, der fungerer til at inducere apoptose [33], [34], mutant former af APC protein kan dæmpe reaktioner på apoptotiske stimuli [35], [36], mutationerne i

KRAS

PIK3CA

kan aktivere veje, der sender antiapoptotiske overlevelse signaler [33], og de proteiner kodet af

NPM1

CIC

har vist sig at fungere i apoptose [37], [38].

Informativ overgange i de sandsynlige ordrer

de overgange i den sandsynlige ordrer yderligere oplysninger om tumor progression.

Be the first to comment

Leave a Reply