PLoS ONE: TAGCNA: En metode til at identificere væsentlige Consensus Begivenheder for Copy Number Ændringer i Cancer

Abstrakt

Somatisk kopi nummer ændring (CNA) er et almindeligt fænomen i kræft genom. Skelne væsentlige konsensus begivenheder (SCE) fra tilfældig baggrund CNAs i et sæt af emner har vist sig at være et værdifuldt redskab til at studere kræft. For at identificere SCE-selskaber med en acceptabel type I fejlrate, bør udvikles bedre beregningsmæssige tilgange baseret på rimelige statistik og null distributioner. I denne artikel, foreslår vi en ny strategi med navnet TAGCNA til at identificere SCE-selskaber i somatiske CNAs, der kan omfatte kræft driver gener. TAGCNA beskæftiger en peel-off permutation ordningen til at generere en rimelig null fordeling baseret på et tidligere trin for at vælge tag CNA markører fra genomet under overvejelse. Vi viser den statistiske styrke TAGCNA på simulerede jorden sandheden data, og validere sin anvendelighed ved hjælp af to offentligt tilgængelige kræft datasæt: lunge- og prostata adenocarcinom. TAGCNA identificerer SCE-selskaber, der er kendt for at være involveret med proto-onkogener (

f.eks

EGFR, CDK4) og tumor suppressor gener (

f.eks

CDKN2A, CDKN2B), og giver mange ekstra SCE-selskaber med potentielle biologiske relevans i disse data. TAGCNA kan anvendes til at analysere betydningen af ​​CNA’er i forskellige cancerformer. Det gennemføres i R og er frit tilgængeligt på https://tagcna.sourceforge.net/

Henvisning:. Yuan X, Zhang J, Yang L, Zhang S, Chen B, Geng Y, et al. (2012) TAGCNA: En metode til at identificere væsentlige Consensus Begivenheder for Copy Number Ændringer i Cancer. PLoS ONE 7 (7): e41082. doi: 10,1371 /journal.pone.0041082

Redaktør: Gayle E. Woloschak, Northwestern University Feinberg School of Medicine, USA

Modtaget: Februar 3, 2012; Accepteret: 17 Juni 2012; Udgivet: 18 Juli 2012

Copyright: © 2012 Yuan et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af Natural Science Foundation of China under Grants 61070137, 91130006, og 60933009; det amerikanske National Institutes of Health under Grants CA160036, CA149147, og GM085665; og projekt støttet af Natural Science Basic Research Plan i Shaanxi-provinsen i Kina (Program Nr 2012JQ8027); Videnskab og Teknologi Research Development Program i Shaanxi-provinsen i Kina (nr 2009K01-56), og de grundlæggende forskningsmidler for de centralasiatiske universiteter (nr K50511030002). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

somatiske kopi nummer ændringer (CNA’er) er fordelt over hele genomet i næsten alle menneskelige kræftformer [1]. En af de systematiske indsats i at udforske effekten af ​​CNA’er på udvikling af kræft er at skelne væsentlige konsensus begivenheder (SCE), der repræsenterer “driver mutationer” fra tilfældige baggrund CNAs, der repræsenterer “passager mutationer” [2], [3]. Ekstremt høj opløsning array-teknologi og stor samling af cancerpatienter endvidere en omfattende forståelse af de mutationshændelser i et sådant program [1], [3], [4]. Denne mellemtiden fører til en kritisk krav om beregningsmæssige metoder til identificering af betydning aberration, der deles af flere emner.

I øjeblikket er der udviklet mange statistiske metoder. STAC (Betydning Testning for Aberrant Copy nummer) [5] tester CNAs separat for amplificeringer og udeladelser, og det kræver binære input data matricer, hvor ‘en’ repræsenterer forstærkning (eller sletning) og “nul” repræsenterer normal status. Denne fremgangsmåde anvender to komplementære statistikker: frekvens og footprint, at måle hver markør under nulhypotesen, at de observerede CNA regioner er ligeligt placeres overalt i hele genomet, der analyseres. Specifikt “frekvens” statistik som udtryk for den almindelige karakter en afvigelse på tværs prøver og “fodaftryk” statistik bruges til at afspejle den stramme tilpasning af en afvigende region tværs prøver. Desuden er “fodspor” tager hensyn til korrelationer mellem aberrationer og længderne af CNA regioner. Imidlertid har begge statistikken ikke indarbejdet amplituden af ​​aberrationer, så der kan blive savnet nogle vigtige oplysninger, da højt niveau amplificeringer og udeladelser kan føre til forskellige biologiske implikationer i forhold til lav-niveau afvigelser [6]. Svarende til STAC, transportcenter (Genomisk Identifikation af væsentlige lægemidler mod cancer) [3] analyserer også amplificeringer og sletninger separat, men det kræver input data med segmenterede signaler. Denne metode designer en G-score ved at inkorporere både frekvens og amplitude af afvigelser, og tildeler G-score til hver markør for vurdering signifikans er baseret på en semi-nøjagtig tilnærmet null fordeling. Den null fordeling etableres ved at antage, at CNA markører er uafhængige. Derfor er de fælles virkninger mellem tilstødende markører ignoreret i CNA opdagelser [7]. For at forbedre påvisningen magt, en udvidelse af transportcenter, GISTIC2.0 [8], foreslås, som mener sondringen af ​​baggrunden frekvens mellem fokal CNAs og brede CNAs og scorer hver markør proportional med dens amplitude. En anden lignende metode er Dinamic (Discovering Copy Number Afvigelser manifesteret i Cancer) [9], som definerer en oversigt statistik for hver markør og designer en ny ramme for vurderingen betydning. Virksomheden beskæftiger en cyklisk permutation ordning til at generere null fordeling, hvor den strukturelle information af originalen nummer data bevares. Dinamic vedtager endvidere en “peel-off” algoritme til at detektere mindre hyppige markører. Generelt funktion, at ovennævnte metoder andel er deres to etaper, dvs. de har brug for et tidligere trin af diskretisering de CNA signaler ved hjælp individ-sample analysemetoder [10], [11]. For at undgå afhængighed af individuel-analysen, mange forfattere foreslår et-trins beregningsmæssige tilgang. For eksempel, KC-SMART (Kernel foldning: en statistisk metode til Aberrant Region Detection) [12] analyserer rå intensitet forholdet data direkte (dvs. data uden diskretisering i individuelle prøver) for at identificere europæiske andelsselskaber ved hjælp af en ny statistik: Kernel udglattet Estimate (KSE ), som tager højde for signalstyrken af ​​omkringliggende markører; og CMDS (Correlation Matrix Diagonal Segmentering) [13] scoringer hver markør baseret på sine korrelationer med de omgivende steder i de rå nøgletal intensitet. Mange andre tilgange diskuteres af Shah [14] og Rueda

et al

[7]

Inden for de eksisterende tilgange, er tre almindelige og vigtige komponenter sammenfattes således:.. (1) data platform, dvs. rå intensitet forholdet data eller diskretiserede data (svarende til et-trins eller to etaper), til påvisning af SCE-selskaber; (2) statistik i forbindelse med genomiske enheder (

f.eks

markører eller gener.); og (3) null fordeling til test af statistik. , En overraskende vanskeligt spørgsmål her er imidlertid, hvordan man laver en sammenhæng mellem de tre komponenter under hensyntagen CNA strukturer og statistisk signifikans. Indtil videre er der ingen konkrete løsninger på dette spørgsmål. Et-trins metoder kan føre til en stor skævhed signal til de statistikker [15], i hvilken nul fordeling er ikke ligefrem i overensstemmelse med det formål at identificere SCE-selskaber fra tilfældig baggrund CNAs,

f.eks

nulhypotesen underliggende CMDS er, at der ikke er nogen CNA. I dette tilfælde kan SCE detektion magt blive væsentligt påvirket af forekomsten sandsynligheden for tilfældig CNA’er. To-trins metoder ofte udnytte den definerede CNA’er (gevinst eller tab) til at generere null distribution gennem permutationer. Men mange af dem vedtage markør-baserede scoring, men regionalt baserede permutation ordninger såsom Stac og Dinamic metoder. Transportcenter program gør en rimelig sammenhæng mellem de tre komponenter, men det mener ikke korrelationerne blandt markører. Dette kan gøre den statistiske signifikans konservative i flere test [16], og kan ikke være biologisk relevant [7]. Samlet er de fleste eksisterende metoder i enten én-trins eller to-trins rammer kvantificere CNAs og teste betydningen baseret på individuelle markører, der normalt relateret med hinanden. Dette kan føre til en nedsat effekt at opdage CNA regioner især for de mindre ekstreme regioner [7]. Desuden, de normalt generere null distributioner baseret på en blanding af SCE-selskaber (falsk nulhypoteser) og tilfældig baggrund CNAs (sande nulhypoteser). Dette er teoretisk afveg fra den sande null distribution i hypoteseprøvning, faldende betydningen af ​​betydning vurdering.

Med disse overvejelser i denne artikel vil vi foreslå en ny tilgang, TAGCNA, til at identificere SCE-selskaber baseret på løbende segmenteret signal forhold. Tilgangen er sammensat af to trin. Første, idet vælg et tag CNA markører fra genomet analyseret, og derefter producere en ny data matrix bestående af tag markører, der hver er scoret ved inkorporering både frekvens og amplitude af CNA; og for det andet baseret på de data matrix oprette en null fordeling ved hjælp af en peel-off permutation ordningen. De primære kendetegn ved indbefatter: (1) både scoring og permutation udføres baseret på tag markør-niveau, i betragtning af korrelationerne mellem tilgrænsende markører; (2) gennemsnittet af de null distributions- flytter til venstre på grund af den aftagelige procedure på tag markører, konvergerer med den for sandheden null distribution. TAGCNA kan bruges til at analysere data fra individuelle kromosomer samt data fra genom-dækkende undersøgelser. Vi tester sin statistiske styrke på omfattende simulerede jorden sandheden data, og derefter anvende det til to reelle datasæt af lunge og prostatakræft. TAGCNA held identificerer SCE-selskaber, der er forbundet med kendte kræft driver gener, og giver mange ekstra SCE-selskaber med potentielle biologiske relevans.

Materialer og metoder

Data Format

Original data forbehandles gennem individuel sample-analysemetoder såsom CBS [10], [17], og er gemt i matrix

X

(

N

×

L

), hvor hver række repræsenterer en underkaste og hver kolonne repræsenterer en markør. TAGCNA starter arbejde fra dette punkt. Det vedtager tærskler (

θ

amp og

θ

del) til at definere amplificeringer og sletninger i

X

, og adskiller

X

i to matricer

X

amp (

N

×

L

) og

X

del (

N

×

L

). TAGCNA analyserer forstærkning og sletning særskilt, da de generelt betragtes som at spille forskellige roller i udviklingen af ​​kræft.

I matrix

X

amp (eller

X

del), er aberration repræsenteret med en log

2-ratio, og ingen aberration er repræsenteret med et nul. Nedenfor beskriver vi TAGCNA princip at teste betydningen af ​​CNA’erne enten i analysen af ​​forstærkning eller sletning af data matrix.

Valg Tag CNA Markers

Somatisk CNA er en strukturel variation i det humane genom, således proberne i genomet i sagens natur korreleret selvom CNAs er tilfældige baggrundsbegivenheder. Det er ønskeligt at bevare denne sammenhæng og for at maksimere uafhængighed mellem teststørrelser i analysen af ​​CNA’er. Disse overvejelser førte os til at designe TAGCNA at teste CNAs ved at opdele genomet i små korrelation blokke og vælge tag markører i forskellige blokke, som antages uafhængige. Scoring og permutation procedurer TAGCNA udføres derefter på tag markører

(a) En matrix profil 100 emner og 1000 markører.; de hvide farvede positioner angiver kopi nummer ændringer. (B) korrelationsværdi for hver markør, som er det gennemsnitlige koefficient blandt dens omgivende markører. (C) Blok korrelationsværdi resulterede fra partitionen af ​​genomet baseret på (b). (D) En ny data matrix bestående af tag CNA markører (her

N

= 100,

M

= 50); hver tag markør er valgt fra hver blok i (c), hvor de røde prikker er midt i blokkene, der repræsenterer tag markører.

CNA korrelation blok partition udføres baseret på et sæt af emner (Figur 1). Det første skridt er at beregne korrelationskoefficienter mellem tilstødende markører via Pearson korrelation formel [13] 🙁 1) hvor

r

ij

er korrelationskoefficienten mellem markører

jeg

og

j

;

N

er antallet af prøver;

x

ni

er log

2-forhold på emnet

n dele på markør

jeg

; , Og er log

2-forholdet gennemsnit og standardafvigelser af markører

jeg

og

j

på tværs af alle fag. Så får vi en sammenhæng for hver markør

k

som gennemsnittet koefficienter blandt sine omgivende markører ved ligning (2) [13] 🙁 2), hvor

w

er en på forhånd fastsat vindue størrelse omkring markør

k

. Figur 1 (b) viser korrelationen værdi for de 1000 markører i exampled population. For at udnytte den rumlige sammenhæng mellem tilstødende markører, antager vi, at korrelationen værdierne i de nærliggende markører er på samme niveau og beskæftiger CBS algoritme [10] for at opdele hele genomet i blokke, hvor korrelationsværdier skifter mellem sammenhængende blokke (figur 1 (c )). I hver blok, er en tag markør valgt fra dets midterste site. Det totale antal tag markører er antallet af blokke resulterede fra partitionen af ​​genomet. En ny data matrix T (

N × M

) derefter produceret baseret på tag markører (figur 1 (d)), hvor

M

er antallet af tag markører.

Peel-off permutation og vurdering Statistisk betydning

Baseret på data matrix

T

, TAGCNA udfører peel-off permutation [3], [9] for at generere null distribution under hypotesen at der ikke er nogen SCE-selskaber, dvs. at alle tag markører i

T

er passagerer, og derefter vurderer den statistiske signifikans af de observerede tag markører. For at afspejle dette, TAGCNA scores hver tag markør

m

ved at indarbejde frekvens og amplitude af CNA [3] 🙁 3) hvor

t

nm

er log

2-forholdet af emnet

n dele på tag markør

m

i matrix

T

. Bemærk, at betydningen af ​​tag markør formodes at repræsentere betydningen af ​​det tilsvarende genom blok.

Det starter fra tag markør data matrix

T Hotel (

N

×

M

), og genererer null fordeling

D

1 til permutationer på dataene. Baseret på

D

1, signifikansniveau er tildelt hver tag markør. Hvis signifikansniveauet er mindre end en cutoff (

f.eks

0,05), de tilsvarende markører (

f.eks

jeg

th tag markør) vil blive fjernet fra matricen i den næste iteration af permutation og signifikanstest. Denne procedure fortsætter indtil opnå en null fordeling

D

H

, baseret på hvilken der er ingen yderligere tag markører er identificeret væsentlige. I denne procedure, gennemsnittet af de null distributions- bevæger forlod gradvist,

f.eks

i anden iteration,

D

2 bevæger venstre sammenlignet med

D

1.

Vi har nu beskrive proceduren for aftagelige permutation og betydning test i detaljer, som også er illustreret i figur 2. Ved begyndelsen, en null fordeling

D

1 estimeres ved anvendelse permutation på matricen

T

1 (

T

1 =

T

). Baseret på

D

1, er hver tag markør tildelt en p-værdi. Denne algoritme kan opdeles i følgende trin:

I hvert emne, udføre en permutation af tag markører, dvs. tilfældigt placere tag markører i tag placeringer af genomet

I permuterede datasæt

δ

(

T

1), beregne score over tag markør

m

, angivet med

S

m

(

A

(

T

1)),

m

= 1, 2, …,

m

.

Gentag trin (1) og (2)

E

gange, dvs. udføre

E

permutationer af datasættet, og dermed opnå

E

permuteret datasæt

δ

1 (

T

1),

δ

2 (

T

1), …,

δ

E

(

T

1), og de tilsvarende scoringer

S

m

(

δ

1 (

T

1)),

S

m

(

δ

2 (

T

1)), … ,

S

m

(

δ

E Hotel (

T

1)).

Lad

D

1 være fordelingen af ​​max

m S

m

(

δ

(

T

1)) i løbet af alle de

E

permutationer, og definere p-værdi for tag markør

m

0 (

m

0∈ {1 …

M

}) af den yderste højre sandsynlighed [5], [9] 🙁 4), hvor i (·) er den indikator funktion.

Be the first to comment

Leave a Reply