PLoS ONE: Novel Rank-Based statistiske metoder Reveal MikroRNA’er med Differential Expression i flere Cancer Types

Abstrakt

Baggrund

microRNA (miRNA) regulere målgener ved post-transkriptionel niveau og leg vigtige roller i kræft patogenese og udvikling. Variation blandt individer er en væsentlig forstyrrende element i miRNA (eller andre) ekspressionsundersøgelser. Den sande karakter af biologisk eller klinisk betydningsfuld differentiel ekspression kan skjules af variation mellem patient. I denne undersøgelse vil vi identificere miRNA med konsekvent forskellen udtryk i flere forskellige tumortyper ved hjælp af en roman dataanalyse tilgang.

Metoder

Brug microarrays vi profileret udtryk for mere end 700 miRNA hos 28 matches tumorvæv /normalt prøver fra 8 forskellige tumortyper (bryst, colon, lever, lunge, lymfom, ovarie, prostata og testis). Dette sæt er enestående i at sætte fokus på at minimere vævstype og patient relaterede variabilitet hjælp af normale og tumor prøver fra den samme patient. Vi udvikler scoringer til at sammenligne miRNA udtryk i ovenstående matchede prøve data baseret på en streng karakterisering af fordelingen af ​​ordens statistik over en diskret tilstand sæt, herunder eksakte p-værdier. Konkret har vi beregne en Rank Sammenhæng Score (transaktioner med risikovillig kapital) for hver miRNA målt i vores data. Vores metoder er også anvendelige i forskellige andre sammenhænge. Vi sammenligner vores metoder, som anvendes på matchede prøver, at parret t-test og til Wilcoxon-test.

Resultater

Vi identificerer konsekvent (på tværs af de typer kræft målte) differentielt udtrykte miRNA . 41 miRNA er under-udtrykt i cancer sammenlignet med normale, ved FDR (falsk Discovery Rate) på 0,05 og 17 er overudtrykt på samme FDR niveau. Differentielt udtrykte miRNA omfatte kendte oncomiRs (fx MIR-96) samt miRNA, der ikke tidligere universelt associeret med cancer. Specifikke eksempler indbefatter MIR-133b og MIR-486-5p, som er konsekvent nedregulerede og mir-629 * som er konsekvent opreguleret i cancer, inden for rammerne af vores kohorte. Data er tilgængelige i GEO. Software er tilgængelig på: https://bioinfo.cs.technion.ac.il/people/zohar/RCoS/

Henvisning: Navon R, Wang H, Steinfeld I, Tsalenko A, Ben-Dor A, Yakhini Z (2009) Novel Rank-baserede statistiske metoder Reveal MikroRNA’er med Differential Expression i flere kræfttyper. PLoS ONE 4 (11): e8003. doi: 10,1371 /journal.pone.0008003

Redaktør: Thomas Preiss, Victor Chang Cardiac Research Institute (VCCRI), Australien

Modtaget: 26 juli, 2009; Accepteret: 29 oktober 2009; Udgivet: November 25, 2009

Copyright: © 2009 Navon et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. RN, IS og ZY blev delvist støttet af et EU FP6 tilskud, inden for rammerne af den MultiKnowledge Project. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:. RN, HW, AT, ABD og ZY er nuværende medarbejdere i Agilent Technologies. IS var ansat af Agilent Technologies i en del af tiden for undersøgelsen. Forfatterne fuldt overholde alle PLoS ONE politikker på datadeling og materialer.

Introduktion

Gen-ekspression profilering er almindeligt anvendt til at identificere forskelle mellem klasser af celletyper, som manifesterer sig i differentielt udtrykte gener [1] – [4]. En typisk datasæt omfatter snesevis af prøver, hvori ekspressionsniveauerne af tusinder af gener måles. I klassificerede udtryk data sættet af prøver er opdelt i forskellige delgrupper eller klasser baseret på forudgående viden, såsom normale prøver vs tumor prøver eller prøver af forskellige typer kræft. Tilsvarende kan det være opdelt i forskellige betingelser, forskellige stadier eller forskellige terapi relaterede kategorier. Fleste af de nuværende dataanalyse litteratur fokuserer på at overveje hele datasættet i processen med at identificere differentielt udtrykte gener. Forskellige typer af genomisk variation er betydelige og ofte ignoreret forstyrrende faktorer i differentierede udtryk undersøgelser. For eksempel i Shyamsundar et al. [5] forfatterne undersøgelsen messenger RNA ekspressionsniveauet variation i normale humane væv, som viser de potentielle forstyrrende virkninger af inter-væv variation.

Det vil være værdifuldt at identificere statistisk signifikante forskelle i forskellige prøver, der kan opgøres pålideligt tilskrives til den specifikke biologiske tilstand, såsom cancer eller sygdom, i stedet for individuelle biologiske variationer, som anført ovenfor. I mange situationer er der mulighed for seriel samling af væv eller blod fra en patient, forsøgsdyr eller cellelinie [6], [7]. Men mange nuværende analyseteknikker ikke udnytte de unikke relationer i disse data. I andre tilfælde kan klasse eller patient variabilitet maske differential udtryk og skal løses. I denne undersøgelse analysere vi matchede prøver at undersøge tumor vs. normal differentieret udtryk, som er i overensstemmelse for flere tumortyper, og beskrive egnede og robuste statistiske metoder, der understøtter denne undersøgelse.

I øjeblikket hundredvis af microRNA (miRNA) er blevet identificeret hos mennesker. Disse er korte (normalt omkring 22-nt) kodende regulatoriske RNA molekyler og deres sekvenser er offentliggjort i Sanger miRBase [8]. miRNA udtryk profilering er blevet anerkendt for at give værdifulde biologiske oplysninger med potentiale til at supplere eller afløse mRNA profilering [9]. miRNA regulere målgener på post-transkriptionel niveau og spiller en vigtig rolle i udvikling såvel som i kræft [9] – [11] og i andre humane sygdomme, herunder hjertesygdomme [12] – [14], skizofreni [15] og psoriasis [16]. miRNA er stærkt udtrykkes forskelligt i forskellige vævstyper [10]. Derfor, for at identificere miRNA differentieret udtryk på grund af særlige forhold, som vi har brug for at minimere confounding effekt af ovennævnte væv afhængige forskellen udtryk.

Vores mål i denne undersøgelse er at identificere miRNA, der er konsekvent udtrykkes differentielt i flere typer kræft . For at undgå vævstype variabilitet og måle kræft relaterede forskellen miRNA aktivitet i hver type for sig; vi bruger en matchet prøve datasæt bestående af 32 microarray målinger repræsenterer 28 matchede tumor og normale prøver. Vi bruger mikroarrays indeholdende prober for 799 miRNA at profilere miRNA-ekspression i disse prøver.

Vores motivation i at søge miRNA med konsekvent forskellen udtryk i flere typer kræft stammer fra den eksisterende viden, at mange biologiske processer er fælles for forskellige typer af cancere. Især er adskillige gener kendt for at være universelt differentielt udtrykt på tværs af flere cancertyper. Det mest åbenlyse eksempel er p53. p53 blev først opdaget i 1979, og siden da adskillige undersøgelser indikeret sin deltagelse i flere typer kræft. Betydningen af ​​regulerede aktivitet af intakt p53 til at forebygge tumordannelse indikeres af tilstedeværelsen af ​​mutationer i p53 pathway i næsten alle cancertyper [17], [18]. Et andet eksempel på en universel cancer relateret protein er p16. Dette gen er placeret på kromosom 9 og viste sig at være muteret eller slettet i flere typer cancer [19] – [22]. Disse er kun to specifikke eksempler, blandt en lang række cellulære processer, som er alment forbundet med cancer.

Tidligere undersøgelser om betydningen af ​​miRNA i cancer indbefatter Lu et al. [9], der udførte en tumor vs. normal cross-væv analyse under anvendelse bead-baserede flowcytometri teknologi på en ikke-parret måde. Denne undersøgelse viste, at miRNA er tilstrækkelige til præcist klassificere cancervæv efter deres embryonale afstamning, hvilket giver globale karakteristika af miRNA ekspression i cancer. En anden undersøgelse, som Volinia et al. [10], beskrev microarray måling af 228 miRNA i 540 prøver (363 kræft og 177 normal) fra 6 forskellige vævstyper. Ud over at producere miRNA signaturer, forfatterne rapporterede nogle miRNA, der er konsekvent over eller under udtryk, men der var ingen detaljeret statistisk benchmarking for sammenhængen i miRNA differential udtryk. Forfatterne anfører, at når clustering deres data i en ikke-overvåget måde, Hortons prøverne baseret på de typer væv, uanset hvilken status sygdom, hvilket afspejler den høje variation af miRNA ved sammenligning vævstyper. Dette styrker vores påstand ovenfor, der peger på miRNA inter-vævstype basal variation som forstyrrende element, når de søger at måle miRNA kræft forskellen udtryk. Flere andre undersøgelser fokuserer på miRNA i specifikke typer kræft. For eksempel er mir-15 og mir-16 ofte deleteret og /eller nedreguleret i kronisk lymfatisk leukæmi [23], MIR-143 og MIR-145 viser nedsat ekspression i colorektal neoplasi [24], og MIR-155 er opreguleret i humane B-celle lymfom [25].

for at understøtte vores forskning mål, vi har udviklet statistiske metoder, adresse kendetegner fordelinger af stokastiske variable, der opstår fra at sammenligne matchede prøver. I vores tilfælde beregner vi forskellen udtryk i enhver tumortype og derefter statistisk vurdere dens udbredelse i vores datasæt. Vore metoder er baseret på diskrete ordens statistik – k-dimensional vektor, som opnås ved trækning k uafhængige numre ensartet i 1 … N og derefter sortere dem resulterende vektor. Mens fordelingen af ​​ordens statistik løbet kontinuerlige state rum er godt karakteriseret, er dette ikke tilfældet for diskrete udfaldsrum som gentagelser kan så forekomme med positiv sandsynlighed. Computing distributioner relateret til diskrete ordens statistik blev behandlet i [26]. For vores behov vi definerer stokastiske variable i diskrete ordens statistik, fuldt ud at karakterisere deres distributioner og derefter anvende de metoder til de biologiske data til at vurdere statistisk signifikans

For at opsummere, bidrag dette papir består af:.

Streng karakterisering af fordelingen af ​​ordens statistik over en diskret tilstand indstillet samt relaterede stokastiske variable. Denne fordeling er meget anvendelig til at analysere matchede data i en ikke parametrisk setup. Vi sammenligner også vores metoder til parret t-test og til Wilcoxon-test.

Et datasæt med matchede tumor normale prøver, der repræsenterer et repertoire af 8 tumortyper. Sættet er unik i sin vægt på at minimere den vævstype og patient relateret variabilitet ved anvendelse af normale og tumorprøver fra den samme patient.

Ved at anvende de hidtil ukendte statistikker beskrevet ovenfor til vores matchet prøve datasæt vi validere kendte oncomiRs og beskriver flere nye kræft-universal differentielt udtrykte miRNA. Det skal bemærkes, at dette erklærede universalitet kun er underbygget, inden for rammerne af denne undersøgelse, for de 8 typer repræsenteret her.

Metoder

Udgangspunktet for analyse af resultaterne af et gen eller miRNA udtryk profilering undersøgelse er den

udtryk rådata matrix

. Når der beskriver de metoder, vi bruger ordet “gen”, men “miRNA” kan anvendes i flæng. Denne matrix er typisk outputtet af flere præ-behandlingstrin såsom normalisering og filtrering udført på de rå måledata.

Typisk dataanalyse af udtryk profiler starter med identifikation og den statistiske vurdering af gener, der er differentielt udtrykt når man sammenligner forskellige klasser repræsenteret i kohorten. Mange nuværende gen scoring metoder overveje alle udtryk værdier af en given gen. Disse er opdelt i to eller flere populationer ifølge den undersøgte klassifikation. Forskelle mellem de resulterende delmængder af tal vurderes ved hjælp af forskellige statistiske metoder. Gene scoring metoder falder i to hovedkategorier – parametriske metoder og ikke-parametriske (distributions- gratis) metoder. Parametriske metoder antager en vis fordeling for ekspressionen værdier af hvert gen i hver given klasse (for eksempel cancer eller normal) og så scorer gener efter hvor separat klassen specifikke fordelinger er. Eksempler på sådanne metoder er standard

t-test

[27] og

Gaussian Fejl

score [28]. Distribution gratis scoringer, derimod, er ikke baseret på parametriske antagelser. Disse omfatter

Kolmogorov-Smirnov

score [29], og den

Wilcoxon Rank-Sum

test [30] samt

Information

score [31] og

Threshold-nummer-of-fejlklassificeringer

(

TNoM

i korte) [31]. De sidstnævnte parametriske metoder blev anvendt på genekspression og andre genomiske og genetiske data i flere undersøgelser, som i [2], [32] – [35]

Dette arbejde beskæftiger sig med yderligere og potentielt mere relevant information. der kan udledes, når ekspression data kommer fra adskillige patienter, og når alle klasser blev målt for hver patient. For eksempel prøverne før og efter behandling for den samme patient. Et andet eksempel er tumor og normale prøver fra samme væv af hver patient, et design anvendt i dette arbejde. Pointene vi udvikler tager hensyn til i hvor høj grad et gen adskiller to klasser i et stort flertal af patienterne. Fortolkningen er, at et gen er relevant for den underliggende biologi hvis det stærkt udtrykkes differentielt for de fleste af patienterne. Derudover lægger vi et signifikansniveau (p-værdi) til hver relevans score niveau. P-værdien er sandsynligheden for at få dette niveau eller bedre, tilfældigt, som beskrevet nedenfor i yderligere detaljer. Streng statistisk analyse er medvirkende trygt identificere gener, der skarpt adskilte prøve klasser og dermed peger på lovende forskning retninger. Delvise varianter af de metoder, der er beskrevet i dette papir var ansat i [6] og i [36]. Det er særlig vigtigt at arbejde med matchede statistik, når man analyserer miRNA udtryk data, som basal niveau for disse kan være meget varierende, især i forskellige væv [10].

I dette afsnit beskriver vi de statistiske metoder i høj generalitet . Specifikke udførelsesformer i forbindelse med sammenhængende tumor versus normal miRNA differential udtryk, er beskrevet i Resultater afsnit.

Rank Sammenhæng Score (transaktioner med risikovillig kapital)

Rank Sammenhæng Score (transaktioner med risikovillig kapital) er en differential udtryk score for 2 klasser, der tager patient matching i betragtning.

Vi kalder de to klasser klasse A og klasse B. Vi først beregne forskellen udtryk mellem de to klasser for hver patient (eller genstand eller delmængde)

k = 1 … r

og for hver gen

g

. Den differentielle ekspression kan beregnes ved hjælp af forskellige metoder og den valgte metode afhænger af udformningen af ​​undersøgelsen og om antallet af prøver for hver patient. Differential udtryk scoringer inkluderer: fold forandring, Gauss fejl score,

t

-test, TNoM og andre metoder. Ofte antallet af prøver for hver patient og klasse er en, der bruges så enkelt fold forandring.

Dernæst vi rangerer alle generne per patient i henhold til deres differentielle ekspression mellem klasse A og klasse B. For hver gen

g

vi beregne sit rang for

k

th patient:

R

k (g)

– det er et tal mellem 1 og

N

, hvor

N

er det samlede antal af gener. Genet

g

top

for patient k er den mest over-udtrykt i klasse A i forhold til klasse B. Det er rangeret første, og vi indstillet. Den rang af genet mest under-udtryk i klasse A i forhold til klasse B er

N

.

Vores mål er at finde gener med konsekvent høj rang (af forskellig ekspression mellem klasse A og klasse B) på tværs af alle patienter. For hver gen

g

definerer vi rang konsistens score

S (g; r)

som den normaliserede maksimal rang af dette gen blandt alle patienter, dvs.

I andre ord, rang af genet

g

for alle patienter er ikke værre end

S (g; r) · N

for større fleksibilitet i fastlæggelsen konsistens vi tillader outliers. og beregne rang konsistens scoringer

S (g; m)

for

m

ud af

r

patienter. I dette tilfælde for hvert gen, vi bestiller sine rækker og derefter score

S (g; m)

svarer til den normaliserede

m

th mindste rang:

Vi kalder m ud af r rang konsistens score,

S (g; m)

,

m /r

transaktioner med risikovillig kapital. Vi vil undertiden henvises til

r /r

transaktioner med risikovillig kapital simpelthen som transaktioner med risikovillig kapital. Figur 1 illustrerer definitionen af ​​forskellige

m

ud af

r

rang konsistens scoringer. Pseudo-kode for beregning af M /R transaktioner med risikovillig kapital er tilgængelig på tekst S1.

I hver af de 5 patienter /grupper i dette eksempel, rækker generne ændres fra 1 til 1000. Hver kolonne repræsenterer en prioriteret liste for en gruppe. Den valgte for eksempel genet har den værste blandt 5 grupper rang af 200. Derfor dens rang konsistens er score 200/1000 = 0,2; sin rang konsistens score i 3 ud af 5 patienter er 95/1000 = 0,095 som angivet med pile.

Ovenstående analyse vil identificere gener, der er over-udtrykt i klasse A i forhold til klasse B. for at finde gener overudtrykt i klasse B, vi kan udføre den samme analyse, vende prioriteret liste.

for at evaluere den statistiske signifikans af enhver observerede værdi af transaktioner med risikovillig kapital, vi estimerer sandsynligheden for at opnå værdien s, eller bedre, i tilfældige data trukket i henhold til en null-model. Denne sandsynlighed er den

p-værdi

svarende til dette niveau

s

, under den fremherskende null model.

s

-værdier for transaktioner med risikovillig kapital og dens varianter overvejes i dette papir er beregnet under antagelse af uafhængighed af patienterne og af ensartet fordeling af blandt gener inden for hver patient. Disse to antagelser definerer den underliggende null-model.

For at beregne m /r transaktioner med risikovillig kapital

s

-værdi på s, vi beregne sandsynligheden for et gen i top s brøkdel af liste, i mindst m patienter. Lad

V

være en

r

dimensional tilfældig vektor med indgange trukket selvstændigt og ensartet i

1, …, N

. Vi er interesseret i sandsynligheden for, at

m

th mindste post i

V

er mindre end

sN

. Den er givet ved:

Minimum Rank Sammenhæng Score (minRCoS)

Når du arbejder med større prøve sætter spørgsmålet om, hvor mange outliers for at tillade (hvilket m til at vælge) opstår. En mulig principiel løsning er at beregne m /r transaktioner med risikovillig kapital p-værdi for alle mulige værdier af m og vælg værdien af ​​m med den bedste p-værdi. Denne p-værdi skal naturligvis korrigeres for multiple test. I dette afsnit definerer vi den minimale-rank-konsistens score, og vise, hvordan man effektivt karakterisere sin distribution, muliggør beregning af p-værdier (uden yderligere behov for korrektion af flere test). Vi først beskrive beregningerne og derefter analysere den samlede tidskompleksitet

For enhver nummer

N

. 0 vi betegne mængden af ​​rækker {1, ..,

N

} af [

N

]; Lad [

N

]

r repræsenterer sæt af vektorer af længde

r

, hvor hver post er fra [

N

]. Vi bruger

V

at betegne en tilfældig vektor jævnt fordelt over [N]

r.

Givet en vektor vi betegne

m

th mindste tal i

v

af

v

m . Det er, . Givet et indeks, og en rang, vi betegne som

β

(

m

,

t

) sandsynligheden for, at

V

m

vil lige

t

eller mindre. Bemærk, at

β (m, t)

er p-værdien, ved s =

t /N

, m-out-of-r rang konsistens score defineret tidligere, og kan være effektivt beregnet som vist i forrige afsnit.

Vi definerer

minimal rang konsistens score

af en vektor

v

, angivet med

mRCoS

(

v

), ved. I ord,

mRCoS Hotel (

v

) er den bedste (minimal) rang konsistens p-værdi, hvor

m

varierer fra

1

til

r

.

mRCoS Hotel (

V

) er derfor en stokastisk variabel TAGER værdier i [0,1]. Vi har nu beregne den nøjagtige p-værdi er forbundet med

mRCoS Hotel (

V

) ved en given værdi, p:

Da, og et indeks, definere at være den minimale rank

t

sådan, at. Bemærk, at da vi effektivt kan beregne

β (m, t)

for alle, og, kan vi effektivt “invert”

β (m, t)

og compute

τ

m

(

s

). Noter det . Brug ovenstående notation, vi har:

Givet en konstant rækker vektor

C

, siger vi, at en vektor

v

∈ [

N

]

r

er

C

afgrænset

hvis (for alle

m

= 1, ..,

r

). I ord, alle sorteret firmaer i

v

er større (eller lig med) de tilsvarende registreringer

C

. For eksempel vektoren

v

= 3,2 er afgrænset af, da.

Det samlede antal vektorer i [

N

]

r, der er

C

-bounded er angivet ved

B

(

N

,

r

,

C

).

for eksempel, for,

sættet af vektorer afgrænset ved er, og derfor.

ved definitionen af ​​

B Hotel (

N

,

r

,

C

), da

V

vælges ensartet tilfældigt, får vi, hvor

τ

(

s

) angiver vektoren. Derfor har vi reduceret problemet med at beregne en p-værdi for den minimale-rank-konsistens score til den kombinatoriske problem effektivt computing, hvor mange vektorer i [

N

]

r er afgrænset af en given vektor.

Computer

B Hotel (

N

,

r

,

C

) Salg

Givet to heltal ,

N

,

r

, og en vektor

C

, ønsker vi at beregne

B Hotel (

N

,

r

,

C

), at antallet af

C

-bounded vektorer i [

N

]

r. For hver vektor

v

vi definere to egenskaber:.

t (v)

og

k (v)

t (v)

er den maksimale indtastning af

v

. Det er, . Bemærk, at

t (v)

kan antage værdierne 1 til

N

.

k (v)

er antallet af poster i

v

hvis værdi er strengt mindre end

t (v)

. Bemærk, at

k (v)

kan antage værdierne 0 gennem

r

-1.

Disse to egenskaber kan bruges til at partitionere [

N

]

r.

Vi betegner mængden af ​​alle

C

-bounded vektorer for hvilke og. Bemærk, at disse sæt er faktisk disjunkte, og at deres forening dækker alle

C

-bounded vektorer. Ved at bruge kan vi beregne

B Hotel (

N

,

r

,

C

), opsummering over alle mulige værdier af

t

og

k

:

Da der kun er N * r sådanne sæt dette ville give en effektiv procedure til at beregne

B Hotel (

N

,

r

,

C

). Vi bruger en dynamisk programmering tilgang til at beregne alle N * R værdier.

Lad

C Hotel (1 ..

k

) være den første

k

elementer af

C

, der er. Vi bemærker, at i en vektor på (r-k) største rækker lig

t

. Derfor, for at beregne vi behøver kun bestemme positioner inden

v

af

k

mindste værdier, og deres faktiske værdier, således at de alle er strengt mindre end

t

, og er C (1..k) afgrænset:

Vi har nu bruge følgende fremgangsmåde dynamisk programmering til at beregne antallet af

C

-bounded vektorer:

Dette gør det muligt os til effektivt beregne minRCoS p-værdi:

Der er i alt N * r dynamisk programmering nødvendige skridt til at beregne B (N, R, C). I hvert trin, beregning B (t, k, C) skal summere over t * k-værdier af B. I alt kompleksiteten af ​​dynamisk programmering procedure til at beregne B (N, R, C), er derfor O (N

2 * r

2). For at beregne, vi nødt til at udføre et maksimum på r * N transaktioner med risikovillig kapital p-værdi beregninger, hver tage O (r). Derfor kompleksiteten af ​​p-værdi beregningen minRCoS for en given p er O (N

2 * r

2).

Prøver, forsøgsprotokol og Data forbehandling

dataene blev indsamlet fra tilstødende tumor-normal total RNA-prøver købt hos Ambion /ABI (FirstChoice® human tumor /normal tilstødende væv RNA). De matchede par af tumor og normale RNA var fra 14 forskellige patienter og 8 forskellige kræftformer. Vævsprøver blev af forskellige embryonale slægter: Et par fra bryst, lymfom og prostata; to par fra lever, ovarie, testikler og lunge; og 3 par fra colon. Tekniske replikater blev udført for ovarieceller og testes prøver, således i alt 32 microarray data blev anvendt til denne undersøgelse.

For hver microarray måling, blev 100 ng totale RNA’er mærket med Cy3 anvendelse af T4-RNA-ligase pr Agilent miRNA Micorarray Systemer Protocol v1.5. De mærkede RNA-prøver blev hybridiseret på Agilent miRNA microarray (Agilent Menneskelig miRNA Microarray kit V2 – G4470B) i 21 timer ved 55C. De arrays indeholder prober til 723 mennesker og 76 humane virale miRNA fra Sanger database v.10.1. Opstillingerne blev derefter vasket ved stuetemperatur og scannes for at producere de hybridiseringssignaler (Agilent miRNA Micorarray Systems Protocol v1.5). Opstillingerne blev scannet med udvidet dynamisk område ved 5 og 100% PMT hjælp af Agilent scanneren (model G2565AA).

Agilents Feature Extraction softwareversion 9.5.3.1 blev anvendt til dannelse GeneView filer [37]. Disse filer indeholder de behandlede signaler for hver af de 799 miRNA på arrayet. For hver miRNA ekspressions værdier (gTotalGeneSignal) under støjniveauet (gTotalGeneError) erstattes med værdien af ​​den tilsvarende samlede gen fejl. Alle prøver blev derefter normaliseret til at have den samme 75

percentil værdi. De rå og normaliserede data er blevet deponeret i NCBI s Gene Expression Omnibus [38] og er tilgængelige via GEO Series tiltrædelse nummer GSE14985 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc= GSE14985). Alle data er MIAME kompatibel. De normaliserede data er også tilgængelige i tabel S1.

Resultater

Vi anvendte rang konsistens lave metoder til data indsamlet i en undersøgelse af miRNA udtryk profiler i kræftrelaterede prøver. Data indsamlet i denne undersøgelse bestod af parrede prøver af tumor og normale oprindelse. Hvert par af prøver blev taget fra forskellige dele af det samme væv i 14 forskellige patienter og 8 forskellige cancertyper: bryst, colon, lever, lunge, lymfom, ovarie, prostata og testis. De matchede par af prøverne giver os mulighed for at fokusere på ændringer i miRNA ekspressionsniveauerne, der skyldes kræft, og for at minimere den forvirrende effekt af inter-individuelle og inter-væv variabilitet.

Målet med undersøgelsen var at . identificere miRNA universelt differentielt udtrykte i kræft ved hjælp af de statistiske metoder og målinger er beskrevet ovenfor

Vi beregnede tumoren vs. normale differential udtryk for hver miRNA i data på fire forskellige måder: TNoM [31], ikke parret t -test, parret t-test og minRCoS. For de første tre metoder blev signaler log transformeret og i tilfælde, hvor der findes mere end én patient per kræftform blev brugt medianen. Den TNoM og uparret t-test blev beregnet for ikke-parrede sammenligning af alle tumorprøver til alle normale prøver. For den parrede t-test kræft typen matching blev brugt.

For de forskellige varianter af transaktioner med risikovillig kapital (M /R transaktioner med risikovillig kapital og minRCoS), fold ændring blev beregnet for hver miRNA og patient ved at dividere tumor signal ved normale signal. I kræftformer, hvor mere end én patient eksisterer (2 eller 3 patienter) medianen af ​​fold ændringer blev brugt. Dette blev gjort for at bevare patienten matching (indenfor samme cancertype) i vores data. For hver kræft skrive miRNA blev derefter rangeret efter disse værdier for at generere de klassificeret lister nødvendige som input til alle de transaktioner med risikovillig kapital varianter. Anvendelsen af ​​den generelle ramme, der er beskrevet i afsnittet Metoder til vores datasæt derfor fører til følgende semantik:.

klasse A og klasse B er tumor og normal

r = 8.

Hvis en miRNA, betegnet g, har vi for eksempel 6/8 transaktioner med risikovillig kapital (g) = 0,2 for overekspression i tumor vs. normal, så er denne miRNA er rangeret blandt de øverste 20% af miRNA over- udtrykt i tumor vs. normal, i mindst 6 af de 8 forskellige tumortyper. Det er klart, lignende fortolkninger gælde for andre værdier af m og s (6 og 0,2 henholdsvis i eksemplet ovenfor).

Det komplette sæt af resultater af vores analyse, herunder alle de differential udtryk scores og de tilhørende p-værdier, er tilgængelig som supplerende materiale (tabel S2).

Hvis du vil anvende den parrede t-test på disse data, fold ændring blev beregnet for hver miRNA og patient ved at dividere tumor signal ved den normale signal. I kræft typer, hvor mere end én patient findes medianen af ​​udtrykket værdier blev brugt i beregningen folden forandring. Dataene blev derefter logge-transformeret til opnåelse normaliteten kræves af den parrede t-test. Vi bemærker, at selv efter log-transformation, er hypotesen om normalitet af denne fordeling afvist af Jarque-Bera test [39].

De observerede og forventede antal gener for alle minRCoS p-værdier og niveauer, hvor FDR (falsk Discovery Rate) [40] og Bonferroni på 0,05 opnås, er vist i figur 2. Bemærk den særlige overflod af differentielt udtrykte miRNA, sammenlignet med tilfældige data forventede antal.

den øverste plot viser sammenligning af observerede og forventede tællinger af miRNA til minRCoS p-værdier. For hver p-værdi (på x-aksen), det forventede antal miRNA der har denne, eller bedre, p-værdi baseret på det totale antal miRNA på array’et, vises med blåt (svarende til [54]). De røde og grønne linjer symboliserer antallet af observerede miRNA i vores data med disse minRCoS p-værdier. Bundpanelet viser en sammenligning af observerede og forventede antal af gener med minRCoS p-værdier på 0,003 eller mindre (en zoom-in på toppanelet). Linje A angiver Bonferroni tærskel på 0,05, linie B angiver FDR [40] tærskel på 0,05 for de over-udtrykte miRNA (17 miRNA) og linie C angiver FDR grænsen på 0,05 for de under-udtrykte miRNA (41 miRNA).

En heatmap af de væsentligste miRNA identificeret ved minRCoS analyse er vist i figur 3. Det højre panel indeholder top 30 miRNA hvis udtryk niveauer er løbende steget i kræft væv; venstre panel indeholder en liste over top 30 miRNA hvis udtryk niveauer er faldet støt i kræft væv. Specifikke konklusioner og resultater af analysen er beskrevet nedenfor, herunder miRNA, der ikke tidligere universelt forbundet med kræft.

Kolonner repræsenterer cancertyper og rækkerne repræsenterer miRNA. En grøn post betegner en miRNA med en meget høj rang dvs. en, der er under-udtrykt i dette specifikke tumorprøve i forhold til den matchede normale prøve. En rød rektangel angiver en miRNA overudtrykt i tumorprøven. Det venstre panel viser top 30 miRNA universelt under-udtrykt i tumorer rangeret efter minRCoS analyse og højre panel viser top 30 miRNA universelt over-udtrykt i tumorer rangordnet efter minRCoS analyse.

differentielt

Be the first to comment

Leave a Reply