PLoS ONE: En ny kombinatorisk optimering Approach for Integreret Feature Selection Brug forskellige datasæt: En prostatakræft transkriptom Study

Abstrakt

Baggrund

Den fælles undersøgelse af flere datasæt er blevet en almindelig teknik til stigende statistisk styrke til at opdage biomarkører opnået fra mindre undersøgelser. Den fremgangsmåde generelt fulgt er baseret på det faktum, at som det samlede antal prøver stiger, forventer vi at have større magt til at opdage sammenslutninger af interesse. Denne metode er blevet anvendt på genom-dækkende forening og transkriptom undersøgelser på grund af tilgængeligheden af datasæt i det offentlige rum. Mens denne tilgang er veletableret i biostatistik, har indførelsen af nye kombinatoriske optimeringsmodeller at løse dette problem ikke er blevet udforsket i dybden. I denne undersøgelse, introducerer vi en ny model for integration af flere datasæt og vi viser dens anvendelse i transcriptomics.

Metoder

Vi foreslår et nyt kombinatorisk optimeringsproblem, der behandler det centrale spørgsmål om biomarkør påvisning i integrerede datasæt. Optimale løsninger til denne model leverer en funktion markering fra et panel af potentielle biomarkører. Den model, vi foreslår, er en generaliseret version af

(α

β) -k

-Feature Set problem. Vi illustrerer udførelsen af denne nye metode via et udfordrende metaanalyse opgave, der involverer seks prostata kræft microarray datasæt. Resultaterne er derefter sammenlignet med den populære RankProd meta-analyse værktøj og hvad der kan opnås ved at analysere de individuelle datasæt ved statistiske og kombinatoriske metoder alene.

Resultater

Anvendelse af den integrerede metode resulterede i en mere informativ signatur end rang-baserede metaanalyse eller individuelle datasæt resultater, og overvinder problemer som følge af den virkelige verden datasæt. Sættet af generne identificeret har stor betydning i forbindelse med prostatacancer. Den anvendte metode er ikke afhængig af homogenisering eller transformation af værdier til en fælles skala, og på samme tid er i stand til at fange markører associeret med undergrupper af sygdommen

Henvisning:. Puthiyedth N, Riveros C, Berretta R , Moscato P (2015) En ny kombinatorisk optimering Approach for Integreret Feature Selection Brug forskellige datasæt: En prostatakræft transkriptom Study. PLoS ONE 10 (6): e0127702. doi: 10,1371 /journal.pone.0127702

Academic Redaktør: Holger Fröhlich, University of Bonn, Bonn-Aachen International Center for IT, TYSKLAND

Modtaget: November 3, 2014 Accepteret: 17. april, 2015; Udgivet: 24 JUN 2015

Copyright: © 2015 Puthiyedth et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Singh datasæt er findes på hjemmesiden Offentliggørelse Resources de overordnede Institute Cancer Program Legacy: https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N01-N31.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N32-N62.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T01-T30.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T31-T62.CEL.tar.gz. Welsh datasæt er tilgængelig på Genomics Institute for Novartis forskning https://www.stat.cmu.edu/~jiashun/Research/software/HCClassification/Prostate/GNF_prostate_data_CR61_5974.xls. Uma datasæt er tilgængelig på ArrayExpress: (https://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-6919/) under tiltrædelsen nummer E-geod-6919. . L-2695, L-3044 og L-3289 datasæt er tilgængelige i Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) under tiltrædelsen nummer GSE3933

Finansiering: PM er støttet af Australian Research Council (ARC, https://www.arc.gov.au/) Future Fellowship FT120100060. Dette projekt er delvist finansieret af ARC Discovery Project DP120102576, Australien

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Udvinding af oplysninger, der fremkommer fra integration af flere datasæt og omsætte den til domæne viden er et stort problem i flere områder. I dag er flere og flere biologi og sundhedsmæssige undersøgelser rundt om i verden at engagere sig i den nyttige politik forlade deres rå resultater til rådighed for det fælles bedste via offentlige domæne databaser. Denne åbne deling har nydt reproducerbarheden af andre forskeres resultater. De eksisterende online-datasæt er også ved at blive meget nyttigt for udviklingen af nye matematiske og beregningsmæssige metoder til mønstergenkendelse, machine learning og kunstig intelligens metoder. Denne sunde praksis med datadeling bliver nu i stigende grad vedtaget af regeringer og videnskabelige tidsskrifter. Den private og den offentlige sektor er også involveret i “data-mining konkurrencer”, hvor datasættene er lavet bredt tilgængelige og crowd-fremskaffede til dataanalyse. I denne nye, digitale og sammenkoblet global forskning åben data virksomhed, er dette absolut en god retning for videnskab, forskning og udvikling, og vi er overbeviste om at bekræfte, at denne tendens er kommet for at blive.

Udtrykket “meta- analyse ‘henviser generelt til en integreret undersøgelse, der sigter mod at udvikle en konsensus af resultaterne fra de enkelte studier. Sommetider forfattere bruger denne term temmelig løst betyder blot en “gennemgang” af et sæt af eksisterende undersøgelser, der er uafhængigt opnås, men relateret til et sæt fælles spørgsmål af interesse [1]. Når nogle betingelser er opfyldt, kan en integreret undersøgelse bidrage til at forbedre strømmen af analysen ved at øge det samlede antal prøver under overvejelse [2]. Meta-analyser er også et vigtigt redskab, når nogle af de eksisterende undersøgelser har modstridende konklusioner [3] og det overordnede mål er at løse dem, hvis det er muligt. Forøgelse af afsløring magt mindre undersøgelser ved at integrere dem i en større undersøgelse er også blevet en måde at overvinde begrænsninger forskning. Dette er især tilfældet i transcriptomics, og der er en ubestridelig behov for nye matematiske modeller og algoritmer der tager sigte på at udtrække oplysninger ved i fællesskab at studere forskellige datasæt, som ofte indeholder oplysninger, der hentes med forskellige og skiftende teknologiske platforme.

eksistensen af store antal offentligt tilgængelige transkriptom undersøgelser giver en stærk motivation for at udvikle nye matematiske metoder, der hjælper til at udtrække

paneler af biomarkører

ved at ansætte flere microarray datasæt. På trods af det stigende antal undersøgelser, en generel konsensus er endnu ikke nået om hvordan du gør dette [4, 5]. Forskere undertiden kun fremhæve de forhindringer forude, for eksempel ved at pege på de væsentlige forskelle i microarray platforme, forsøgsdesign, procedurer indsamling for prøver, heterogene af laboratorieprotokoller, og hvilke analysemetoder, der anvendes til undersøgelse [6]. De fleste af undersøgelserne ikke er i stand til at give et konkret svar på spørgsmålet om interesse, da for få prøver er indgået i undersøgelsen [7]. Men har brug for, alle disse forstyrrende spørgsmål, der skal overvejes, og fremhæve dem mindsker ikke behovet for at udvikle integrative teknikker til fælles panel af biomarkører elicitering.

Mange undersøgelser har vist, at det er vanskeligt at opnå et pålideligt resultat fra en enkelt datasæt [8-11]. Selv om nogle forskere i sidste ende kan skaffe de økonomiske midler til at gennemføre undersøgelser med stort antal prøver, der fører til større magt til at opdage de enkelte markører, kan en integreret undersøgelse giver et klarere billede som det endelige resultat ville søge konsensus i en række individuelle undersøgelser . Dette viser nødvendigheden af at udvikle kombinatorisk optimering tilgange til at bestemme en betydelig liste af gener fra flere platforme, når vi ser på et panel, der fungerer sammen for en opgave diskrimination på tværs af flere studier.

Integration

Multi-platform data forbliver udfordrende som de datasæt fra forskellige eksperimenter er ikke direkte sammenlignelige på grund af de faktorer, der er forbundet med frembringelsen af datasættet [12]. Nogle af udfordringerne er simpelthen teknisk art, for eksempel de genomiske data kan komme i en lang række forskellige dataformater, hvilket gør direkte integration vanskelig. Datasættene kan omdannes til et fælles dataformat før kombinere dem, men dette er ikke altid muligt [13]. er blevet foreslået adskillige metoder i de senere år for meta-analyse af genekspression data for at finde det sæt af betydelige gener blandt de udvalgte datasæt. De eksisterende meta-analysemetoder enten udføre statistik for hver datasæt eller integrere alle de valgte datasæt i en enkelt stor datasæt til at estimere forskellen genekspression. En rank metode foreslået af Breitling

et al

. [14] og senere udviklet af Hong

et al

. i RankProd BioConductor pakke [15], bruger fold ændringer mellem alle intraklassekorrelation par prøver at beregne datasæt rækker for hvert gen, så kombinerer rækker med det geometriske gennemsnit af rækker på tværs af prøven par. MetaArray er en anden meta-analyse metode foreslået af Choi

et al

. [16], i hvilken dataene omdannes til sandsynligheden for ekspression [17], efterfulgt af filtrering af gener baseret på integrativ korrelationsanalyse. Mergemaid [18] er en anden pakke for meta-analyse, der hjælper til at integrere heterogene platform datasæt på baggrund af bruger-forudsat ID’er af gener. Den standardiserede regressionskoefficienter og z-scores anvendes som et mål for det gen udvælgelsesprocessen danne integrerede datasæt. Selv om disse metoder er i stand til at vælge signaturer fra det integrerede datasæt af heterogene platforme, de er i stand til at håndtere gener ikke er repræsenteret i alle datasæt. En nyligt foreslåede metode kaldet Netsel [19] er en heuristisk rang sammenlægning metode til funktionen markering, der kan anvendes på uensartet sæt af lister. Men RankProd er langt den mest populære af disse metoder, og vi har valgt det som en sammenligning benchmark.

Målet med denne artikel er at præsentere en ny metode til integration af microarray genekspression datasæt, som kan er opnået ved hjælp af forskellige platforme. Vi gør dette uden at skulle omdanne værdierne til en fælles ensartet format og værdiområde. Vi foreslår også en ny kombinatorisk optimering metode til at vælge det bedste sæt af fælles funktioner, der kan skelne de givne klasser. Metoden er en generaliseret version af den velkendte og meget vellykket

(α

β) -k

-Feature Set metode tidligere udviklet af vores gruppe [20, 21] og vi viser her hvordan den kan anvendes til den kombinerede datasæt. Vi benchmark vores nye metode ved at analysere integrationen af seks prostatakræft datasæt produceret ved hjælp af forskellige platforme og fremhæve sine hovedkonklusioner. Vi bevidst rette vores opmærksomhed mod relativt små og også relativt gamle datasæt, noget bort som potentielt “uinteressant” på grund af de fremskridt, de nuværende bioteknologi. Vi sammenligner de integrerede resultater mod indsamling af resultaterne af individuelt anvende traditionel statistisk analyse og

(α

β) -k

-Feature Set metode til hver datasæt. Vi tilstræber at illustrere potentialet i sekundære analyser af disse datasæt ved hjælp af den foreslåede teknik

Strukturen i artiklen er som følger.; de materialer og metoder, der anvendes i dette papir er forklaret i detaljer i afsnit 2; i afsnit 3 præsenterer vi vores resultater ved at anvende den foreslåede integration og har valgmetode på prostatakræft datasæt. I afsnit 4 præsenterer vi nogle drøftelser på grundlag af resultatet. Afsnit 5 indeholder en konklusion af denne undersøgelse og fremtidige retninger.

Materialer og metoder

2.1 Datasæt

De seks offentligt tilgængelige prostatakræft genekspression datasæt anvendt i denne undersøgelse blev indsamlet fra Gene Expression Omnibus (GEO) eller fra den oprindelige kilde. Detaljerne i alle datasæt i dette arbejde er sammenfattet i tabel 1.

De valgte datasæt er blevet genereret ved hjælp af to forskellige platforme. Genekspressionen niveauer af tre af dem blev målt ved anvendelse af cDNA to-kanals arrays og de andre tre ved hjælp Affymetrix arrays. De datasæt er opkaldt efter navnet på den første forfatter af publiceret artikel. Som vist i, er de sidste tre datasæt indsamlet formular samme artikel, så de datasæt er blevet navngivet med den første forfatterens indledende og GEO platform nummer (f.eks. L-2695). Nærmere oplysninger om datasæt er som følger.

I [22], Singh et al. indført et resultat forudsigelsesmodel til at skelne mellem tumor og normale prøver. Datasættet anvendt i denne undersøgelse indeholder 102 vævsprøver opsamlet efter radikal prostatektomi. Prøven består af 50 normale prøver og 52 primære prostata cancer prøver. Dette datasæt blev genereret ved hjælp af Affymetrix HG-U95A v2 (GPL8300) arrays.

Den anden datasæt er blevet bidraget med Welsh et al. [23] i 2001. Undersøgelsen undersøger en terapeutisk tilgang til at differentiere tumor og normale prøver. Datasættet indeholder 55 prøver, der hybridiserede til HG-U95A v2 (GPL8300) arrays. Prøverne på 25 primær tumor og 9 normale væv og resten af prøverne blev taget fra forskellige donorer med forskellige typer af kræft.

Den tredje datasæt er blevet offentliggjort af Uma et al. i 2007 [24]. Denne undersøgelse introducerer et eksperimentelt design til at løse forskellene i cellulære indhold mellem primære og metastatiske tumorer. Datasættet indeholder 63 tumor vævsprøver og 17 normale vævsprøver og er blevet fremstillet ved hjælp af Affymetrix HGU95Av2 arrays.

Lapointe et al. [25] blev der indført en hierarkisk klyngedannelse teknik til at skelne tumor fra normale prøver og at identificere de underklasser af prostatakræft i 2004. Denne undersøgelse blev udført ved hjælp af tre forskellige datasæt fremstillet ved hjælp af cDNA to-kanals arrays; den første Lapointe datasæt (L-2695) indeholder 26 prøver (13 primær tumor væv, 9 normalt væv og 4 metastase vævsprøver). Den anden Lapointe datasæt (L-3044), med en samlet prøve optælling af 41, har 23 primære tumor prøver, 16 normale prøver og 2 metastase prøver. Den tredje datasæt (L-3289) indeholder i alt 45 prøver, heraf 26 primær tumor, 16 normal og 3 metastase prøver.

Vi har begrænset vores undersøgelse kun for de prøver, som har oprindelse i enten primære tumorer eller normalt væv. De samlede antal prøver er derefter 319, hvoraf 202 er primære tumorer og resten er fra normalt væv.

2.2 Integration metode

Den direkte integration af microarray genekspression data fra flere platforme er i princippet, i høj grad lettes, når der findes fællestræk mellem platformene anvendte. forskellige genekspression platforme vil dog målrette gener eller transkripter på forskellige måder med forskellige sæt af prober. Der kan være mange sonder kortlægning det samme gen grund duplikere plettede sonder i microarray chips. På den anden side kan der være et enkelt probe der er knyttet til adskillige gener (eller loci) hvis specificiteten af probesekvensen er ikke godt nok. Disse prober skal kasseres fra den indledende analyse, som det er vanskeligt at analysere disse multiple gener. Desuden kunne den fortolkning af resultaterne via Gene ontologi eller pathway-orienteret databaser blive kompromitteret af de mange kortlægning problemer. Ud over disse vanskeligheder, kan vi også står over for problemet, at en sonde rettet mod forskellige regioner af det samme gen kunne være indirekte overvågning mulige forskellige mængderne af protein isoformer. Denne mange-til-mange karakter af kortlægning problemet gør det vanskeligt at tage en forsimplet tilgang til de væsentlige forskellige kort som platforme producerer deres probe sæt.

I dette bidrag, vi kort på genniveau. For at kortlægge sonderne på tværs af platforme i tabel 1 til gener, har vi brugt en simpel tilpasning politik, forklaret nedenfor; uden skelnen af isoformer og også ignoreret de nævnte problemer. Proberne blev kortlagt ved hjælp af hg19-GRCh37 version af Genome Browser bord produceret af Genome reference Consortium for at undgå misnaming og forskydning af gener. For at opnå et relativt stort antal prober, der kan anvendes i den endelige integrerede datasæt, indsamlet vi dem, der opfylder nogen af de givne tre betingelser:

Hvor proberne er rettet mod den samme sekvens

Hvor målretning sekvenser er overlappende

Hvis målretning sekvenser er i en afstand på højst 1000 basepar

de sonder fra hver datasæt er kortlagt til gener og den tilhørende transskription start og slutposition af målretning gener sammenlignet i henhold til de ovennævnte betingelser. Når der er en fælles målrettet gen for forskellige sonder fra flere datasæt, mener vi de forskellige kombinationer af disse sonder i den kombinerede datasæt. Tilsvarende, hvis de funktioner (transskriptionen start- og slut-sekvenser) har en overlapning mellem dem, eller er i en afstand på højst 1000 bp, vælges også kombinationen af disse prober til at være del af den kombinerede datasæt. Den valgte liste over kombination af prober er givet i supplerende materialer (S1 tabel). Hver unik kombination af sonder fra forskellige datasæt bliver en funktion i den kombinerede datasæt.

2.3 Feature udvælgelsesmetode

I første omgang brugte vi Fayyad og Irani entropi-baserede heuristisk på hver enkelt datasæt for at fjerne intetsigende funktioner. Denne univariat udvælgelse mekanisme er en pre-behandling trin relateret til den Mindste Beskrivelse Længde Princip (MDL) [26]. Formålet med at anvende dette trin i denne fremgangsmåde er dobbelt: det fjerner funktioner, der ikke signifikant forskellig hos raske og sygdomstilstande prøver (således det hjælper ved at reducere dimensionaliteten af problemet), og for det andet det hjælper discretise værdierne (som igen letter det kombinatoriske strategi).

i dette bidrag vi foreslå og analysere en ny kombinatorisk tilgang til at vælge et sæt af

væsentlige funktioner, der kan forklare den multi-platform integrerede datasæt. Vi kalder dette problem Farvet

(α

β) -k

-Feature Set problem. Den fremgangsmåde er en generaliseret version af

(α

β) -k

-Feature Set problem metodologi [27, 28], som er en overvåget funktion udvælgelsesmetode for at vælge en betydelig sæt funktioner, der samlet kan adskille prøvegrupperne. Fremgangsmåden er med succes blevet anvendt i flere undersøgelser af Moscato et al. til at finde biomarkører for forskellige sygdomme [20, 21, 28-34].

(α

β) -k

-Feature Set problem giver en betydelig sæt af gener, der tilsammen maksimere diskrimination mellem klasse og intra-class sammenhæng [33]. Metoden søger at differentiere alle prøvepar som tilhører forskellige klasser ved at vælge et minimum af gener, som ikke nødvendigvis udgør en ensartet udtryk niveau på tværs prøver i hver klasse, men kollektivt give den maksimale mængde beviser. I modsætning hertil rang metoder, der scorer og bestille gener ved deres differential udtryk på tværs af klasserne bringe gen-apparater, der måske ikke arbejder sammen som en signatur, især i komplekse sygdomme, hvis molekylær karakterisering kan præsentere undergrupper.

Det nævnte funktion valg metode fungerer godt med en enkelt ensartet datasæt, men ikke for en integreret datasæt. Den farvede

(α

β) -k-

Feature Set problem håndterer den integrerede datasæt på en ensartet måde og vælger funktioner, der adskiller prøvepar tværs af datasæt. Anvendelsen af en

(α

β) -k-

Feature Set problem metode til meta-analyse hjælper dermed give den bedste sæt funktioner fra den kombinerede datasæt, så forskerne at afsløre de genetiske veje, der deltager i udviklingen af sygdommen.

Her er vi mere formelt præsentere beslutningen versioner af generalisering af

-Feature Indstil problem kaldes

(α

β) -k

-Feature Set problem, den farvede

(α

β) -k

-Feature Set problem, og den generelle

(α

β) -k

-Feature Set problem. I det følgende, lad repræsenterer sæt af binære værdier, dvs. lad

være antallet af funktioner og

antallet af prøver,

være antallet af sample grupper (dvs. forskellige platforme /kohorter /datasæt) og tupel

være klassens etiketter af prøverne.

2.3.1 (α, β) -k-Feature Set.

Instans :.

et sæt, en tupel

∈

, heltal

≥ 0,

Parametre :.

Spørgsmål:.

Er der et sæt

jeg

⊆ {1, …,

} med |

jeg

| ≤

sådan, at for alle

jeg

∈ {1, …,

}

Hvis

jeg

≠

der findes med en sådan, at

≠

for alle

Hvis

der findes med en sådan, at

for alle

nærmere redegørelse for sikre regler for reduktion, der hjælper til at reducere dimensionalitet af

(α

β) -k

Feature Set problem er givet i [20, 32].

2.3.2 Farvede

(α

) -k-

Feature Set.

Instans :.

et sæt, et farvestof funktion

: {1, …,

} → {1, …,

}, en tupel, heltal

≥ 0,

Parametre :.

Spørgsmål:.

Er der et sæt

jeg

⊆ {1, …,

} med |

jeg

| ≤

sådan, at for alle

jeg

∈ {1, …,

} hvor

(

) =

(

)

Hvis

jeg

≠

der findes med en sådan, at

jeg

≠

for alle

Hvis

der findes med en sådan, at

jeg

for alle

i ord Farvet

(α

β) -k

-Feature Set problem instans er konstrueret af en samling af individuelle

(α

β) -k

-Feature Set tilfælde med fælles træk, når sammenligningen af egenskabsværdier er begrænset til prøvepar dannet ud fra hvert enkelt tilfælde. Den “farvede” navn stammer fra antage prøver i hvert enkelt tilfælde er farvet med den samme unikke farve, kan da kun samme farvede prøver kombineres i par.

Det er indlysende, at den samme regelsæt for reduktion af data præsenteret i [21] for

(α

β) -k

-Feature Set problem gælder for en instans af Farvede

(α

β) -k

-Feature Indstil problem, da sidstnævnte er formelt svarer til en større forekomst af et

(α

β) -k

-Feature Set problem ved en passende ommærkning af prøver.

2.3.3 Generaliseret

(α

β) -k-

Feature Set.

i den mest generelle form passende til meta- analyse af datasæt med fælles træk,

(α

β) -k

-Feature Set problem kan angives som følger:

Instans :.

et sæt, en funktion en tupel, heltal

≥ 0,

Parametre :.

Spørgsmål:.

Er der et sæt

jeg

⊆ {1, …,

} med |

jeg

| ≤

sådan, at for alle

jeg

∈ {1, …,

} hvor

(

jeg

) = 1

Hvis

jeg

≠

der findes med sådan, at

jeg

≠

for alle

Hvis

der findes med en sådan, at

jeg

for alle

generelle

(α

β) -k

-Feature Set problem er blevet udtænkt til at beskæftige sig med den mere generelle situation, hvor nogle prøver i én prøve gruppe kan sammenlignes med prøver i en anden prøve, for eksempel. Den binære funktion

(

jeg

) angiver når funktionen værdier for en given vilkårlig prøve par (

jeg

) kan sammenlignes.

i alle tidligere formuleringer, prøverne er blevet præsenteret som en vifte af

+1 binære værdier, selv om dette ikke er strengt nødvendigt. Klassen Etiketten kan være en kategorisk variabel TAGER værdier over en (typisk små) sæt kategorier eller klasser. Funktionerne kan have værdier af enhver art, så længe der eksisterer en meningsfuld sammenligning i stand til at afgøre, om to værdier anses ens eller forskellige.

2.3.4 Farvede

(α

β) -k-

Feature Set som en Integer Programming problem.

Dernæst præsenterer vi Farvet

(α

β) -k-

Feature Set problem som en Integer Programming optimering problem. Lad

være så givet før. Da prøven grupper er disjunkte, findes der ingen fælles prøver mellem to af dem. For enhver prøve

enhver funktion

∈ {1, …,

}, lad

∈ {1, …,

} være prøven gruppe den tilhører, og

værdien af funktionen for prøve. For enhver prøve par (

jeg

) letand

Målet funktion og begrænsninger for Farvet

(α

β) -k

-Feature Set problem heltalsprogrammering optimeringsmodeller er angivet nedenfor, hvor den binære variabel

er en hvis funktionen

er valgt til funktionen sæt, og 0 ellers. Problemet søger mindst: (1) på de betingelser: (2) (3) hvor:

En Farvet

(α

β) -k

-Feature Sæt problem instans kan have mere end én optimal løsning med k funktioner i hver. Denne mangfoldighed løses ved en efterfølgende optimering problem, som søger til løsning af størrelse k med maksimal dækning. Vi definerer derefter den optimale løsning af Farvede

(α

β) -k

-Feature Set problem som den, der maksimerer: (4) på de betingelser: (5) ( 6) (7), hvor:

i ligning 4, dækslet

er antallet af par af prøver, der har

dækker, og kan specificeres som:

løsningen af optimeringen problemet (1-3) kræver specifikation af parametrene

. En måde for at kræve en robust løsning af problemet er at specificere

så stor som muligt. Denne værdi bestemmes af forekomst af problemet, og er lig med det mindste antal funktioner, der adskiller enhver stikprøve par forskellige klasse etiketter. Når værdien af

opnås med

= 0, kan vi derefter gentagne gange løse problemet (4-7) for stadig større værdier af

i ( 7), indtil problemet bliver umuligt. Den sidste mulige løsning er signaturen søgte.

En sidste bemærkning om den beregningsmæssige kompleksitet af denne familie af problemer.

(α

β) -k

-Feature Set problem er mindst lige så kompleks som den klassiske

-Feature Set problem, som er NP-komplet [ ,,,0],35, 36].

(α

β) -k

-Feature Set problem er ikke kun NP-komplet, men W [2] -Komplet [37, 38].

2.4 t-test

for at benchmarke mod traditionelle statistiske metoder, vi udfører en t-test analyse af de enkelte datasæt. Den t-test er en statistisk signifikans test metode, der anvendes her for at vælge gener, der udviser differentiel genekspression mellem to forskellige forhold [39], i vores tilfælde normal vs. primær tumor, over en vis

-værdi niveau af tillid. Proceduren for

-test er beskrevet nedenfor:

Lad

1 og

2 være middelværdierne af et bestemt gen i de to forskellige klasse labels 1 og 2, af størrelser

1 og

-statistic for denne særlige gen beregnes som: hvor

er samleprøve varians

Her og er variansen af replikerede observationer i hver tilstand og

1 +

2 – 2 er antallet af frihedsgrader. I vores undersøgelse har vi brugt den “genefilter ‘BioConductor pakke [40] med en valgt

-værdi på 10

-4 til at udføre vores

-test.

2,5 RankProd

Vi sammenligner vores resultater til dem, der opnås ved en anden populær metaanalyse metode. RankProd er en ikke-parametrisk metaanalyse værktøj indført ved Hong et al. [15] til påvisning af differentielt udtrykte gener. Det hævdes er den mest udbredte genekspression meta-analysemetode, og er tilvejebragt som en biologisk leder pakke, der modificerer og forlænger rang produkt metode foreslået af Breitling et al. [14]. Fold Change (FC) anvendes som scoring kriterier til at rangere og sammenligne gener inden for hvert datasæt. En samlet rangeret gen, er fremstillet ved at lægge de enkelte rækker på tværs datasæt.

Et par-wise fold ændring (

FC) beregnes for hvert gen

inden en given datasæt

som, hvor og er udtryk værdier for gen

for prøve

(tilhører eksperimentel tilstand

T-

fx “tumor”), og

(tilhører eksperimentel tilstand

C-

fx “kontrol”), og og er det antal replikater, som producerer alt

FC værdier pr gen. Så de tilsvarende

FC nøgletal er rangeret og er betegnet som

, hvor

= 1, …,

repræsenterer antallet af gener og

jeg

= 1, …,

repræsenterer den parvise sammenligning mellem prøver. Den rang produkt af hvert gen

er defineret som det geometriske gennemsnit,

Expression værdier for hvert gen inden for hver datasæt uafhængigt permuteret

tider og producere hvor

= 1, …,

ved at gentage ovenstående trin. En reference fordeling opnås fra alle og den justerede p-værdi og den falske opdagelse sats for hvert gen beregnes.

I denne undersøgelse er de datasæt kombineres i form af fælles gener tværs af platforme. Vi har anvendt RankProd på den kombinerede datasæt for at vælge gener forbundet til den tilstand, der undersøges.

2.6 Robusthed

For at vurdere robustheden af vores metode med hensyn til forstyrrelser i de data, vi har udført en række eksperimenter. Tilstedeværelsen af støj i genekspression data er vanskeligt at vurdere, da det afhænger af platform-specifikke faktorer samt eksperimentelle betingelser. den endelige manifestation af perturbationer i datasættene, ville imidlertid være en ændring i sammensætningen af sæt prober, der passerer MDL kriterium. Vi har således analyseret robustheden af de endelige integration resultaterne i forhold til varierende sammensætninger af de enkelte datasæt, til forskellige forstyrrelse modeller, inspireret af den “efterlade en ud ’tilgang.

Kronisk sygdom

PLoS ONE: En ny kombinatorisk optimering Approach for Integreret Feature Selection Brug forskellige datasæt: En prostatakræft transkriptom Study

Be the first to comment

Leave a Reply Annuller svar