PLoS ONE: Forbedring Cancer Klassifikation Nøjagtighed Brug Gene Pairs

Abstrakt

Nylige undersøgelser tyder på, at deregulering af veje, i stedet for enkelte gener, kan være kritisk i at udløse carcinogenese. Den vej deregulering er ofte forårsaget af den samtidige deregulering af mere end ét gen i reaktionsvejen. Dette antyder, at robust gen par kombinationer kan udnytte de underliggende bio-molekylære reaktioner, der er relevante for vejen deregulering og dermed de kunne give bedre biomarkører for kræft, i forhold til de enkelte gener. For at validere denne hypotese, i dette papir, vi brugte gen par kombinationer, kaldet dubletter, som input til algoritmer de kræft klassificering, i stedet for de oprindelige udtryk værdier, og vi viste, at klassificeringen nøjagtighed konsekvent blev forbedret på tværs af forskellige datasæt og klassifikation algoritmer. Vi godkendt det foreslåede tilgang med ni kræft datasæt og fem klassificering algoritmer herunder Prediction Analyse for Microarrays (PAM), C4.5 afgørelse Træer (DT), Naive Bayes (NB), Support Vector Machine (SVM), og k-Nærmeste nabo (

k-

NN)

Henvisning:. Chopra P, Lee J, Kang J, Lee S (2010) Forbedring Cancer Klassifikation Nøjagtighed Brug genpar. PLoS ONE 5 (12): e14305. doi: 10,1371 /journal.pone.0014305

Redaktør: Joel S. Bader, Johns Hopkins University, USA

Modtaget: Februar 2, 2010; Accepteret: November 18, 2010; Udgivet: December 21, 2010

Copyright: © 2010 Chopra et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af Second Brain Sydkorea 21 Project Grant, en Microsoft Research Asia Grant, en Grundforskningsfonden Korea (NRF) tilskud finansieret af den koreanske regering (MEST) (2010 til 0.015.713, 2009 til 0.086.140), og en Korea Science and Engineering Foundation (KOSEF) tilskud finansieret af den koreanske regering (MEST) (R01-2008-000-20564-0). De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

brugen af ​​mikromatrice har resulteret i identifikation og overvågning af talrige kræft markørgener. Disse gener er ofte blevet brugt til at differentiere ikke kun cancrøse vævsprøver fra normale sunde dem, men også mellem forskellige undertyper af kræft [1] – [3]. Fra et diagnostisk synspunkt er det vigtigt at identificere korrekt kræft væv, så der kan gives så tidligt som muligt den mest hensigtsmæssige behandling.

Talrige klassificører er blevet foreslået og evalueret for deres komparative nøjagtighed i korrekt at identificere kræft tumorer [4] – [7]. Den mest fremtrædende af disse klassificører er PAM [8], SVM [9], [10],

k-

NN [11], DT [12], Top Scoring Pair (TSP) [13], og

k-

Top Scoring Pair (

k-

TSP) [6]. Resultaterne fra disse undersøgelser indikerer, at der ikke findes én klassifikator, der har den højeste nøjagtighed for alle microarray ekspressions datasæt. I dette papir, introducerer vi en ny metode, der bruger genpar at forbedre den samlede nøjagtighed eksisterende metoder klassificeringsreglerne uden at ændre de underliggende algoritmer.

Nyere forskning har vist, at biomolekylære veje kan være stærkere biomarkører for kræft, som sammenlignet med dereguleringen af ​​enkelte gener [14]. Dereguleringen af ​​en anden undergruppe af gener, der er forbundet med den samme vej, kan resultere i deregulering af omsætningsvejen. Inspektion gen kombinationer kan således være mere effektiv for klassificering kræft i forhold til selvstændigt at inspicere de enkelte gener. Motiveret af, at den foreslåede metode anvender informationen afledt af kombinationerne genpar, i stedet for de oprindelige udtryk værdier af generne. Vi bruger den afledte oplysninger som input til de eksisterende metoder klassificering. Vi viser, at disse gen par kombinationer, kaldet dubletter, konsekvent forbedre klassificeringen nøjagtigheden af ​​eksisterende algoritmer klassificering.

Betydningen af ​​den foreslåede metode er, at vi uden at ændre de underliggende klassificering algoritmer kan forbedre ydelsen af ​​den markant algoritmer ved blot at konstruere dubletter og ved at bruge dem som input i stedet for de rå genekspression værdier. De dubletter kan konstrueres på forskellige måder. I dette papir, vi eksperimenterede med tre forskellige typer af dubletter:

sumdiff

,

mul

tilmelde

dubletter.

sumdiff

dubletter konstrueres ved at tage summen og differencen af ​​alle par af genet ekspressionsvektorer, således at en dublet er repræsenteret som en vektor sum eller en forskel i to genvektorer.

mul

dubletter er ligeledes konstrueret ved at tage multiplikation, og

tilmelder

dubletter er konstrueret ved at tage tegnene på forskellene i de to gen-vektorer. Se afsnittet “Materialer og metoder” for flere detaljer.

Resultater

LOOCV Hotel (

Lad One Out Cross Validering

) blev udført for at måle nøjagtigheden af ​​dublet-baserede klassificering. For at teste en prøve, alle prøver, men det prøvede, anvendes til at beregne den af ​​gener, og generne er arrangeret i overensstemmelse med de nedstigende absolutte værdier af scorerne. Formlen bruges til at beregne denne score er (1), hvor repræsenterer klassen betyder; repræsenterer afvigelser; og repræsenterer antallet af prøver til de to klasser og Hhv.

Vi udvælger derefter den øverste 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% af samlede antal gener i datasættet for at gøre dubletter. Vi beskære yderligere dubletter, så ingen gen forekommer mere end én gang i det sidste sæt af dubletter. Algoritmen vi bruger til at formulere disse unikke dubletter fra den oprindelige microarray udtryk datasæt er skitseret som nedenfor

Input

:. Gene Expression Matrix med gener og prøver, klasse vektor for prøverne og for antal af de gener, der er nødvendige for analyse

Output

:.. Unikke dubletter

1. Beregn t-scorer for matrix ved hjælp af klasse vektor

2. Lav en ordnet liste over alle de gener, i faldende værdi af deres absolutte t-score.

3. Tag de øverste gener fra ordnet liste, og udtrække deres udtryk værdier fra. Den nye udtryk matrix har rækker og kolonner.

4. Gør dubletter fra at få en ny matrix, med rækker og kolonner.

5. Beregn t-scorer for matrix ved hjælp af klasse vektor.

6. Lav en ordnet liste over alle dubletter i, i faldende værdi af deres absolutte t-score.

7. Initialiser som en tom liste.

8. forall

dubletter

i

do (i faldende absolut t-score rækkefølge); Hvis ingen af ​​generne i dublet er i, derefter tilføje dublet til

9. Retur

Nøjagtigheden af ​​de oprindelige algoritmer måles ved hjælp af alle de rå udtryk værdier af generne som input. Vi skal henvise til nøjagtigheden af ​​den oprindelige algoritme, for eksempel til PAM, som PAM, og nøjagtigheden opnået ved hjælp af

sumdiff /mul /tilmelde

dubletter som input til PAM som

sumdiff /mul /tegn-

PAM henholdsvis. Figur 1 sammenligner nøjagtigheden af ​​standard PAM klassificeringen til den for

sumdiff /mul /tegn-

PAM, opnås ved at tage de bedste% gener, for de ni datasæt er anført i tabel 1. Det kan ses, at selv tager en lille procentdel af de øverste gener og gøre dubletter kunne forbedre effektiviteten af ​​PAM.

sumdiff /mul /tegn-

PAM klassificeringen udkonkurrerer standard PAM klassificeringen i mange datasæt.

For de to datasæt, CNS og DLBCL, denne gevinst er betydelig. For eksempel, med

tegn-

PAM hjælp top 2% gener, nøjagtigheden er steget fra 82,4% til 91,2% for CNS datasættet; og for DLBCL datasæt, er nøjagtigheden steget fra 85,5% til 97,4%. Den gennemsnitlige nøjagtighed PAM klassificeringen for de ni datasæt er steget fra 88,7% til 90,6%, 89,3% og 91,7% med

sumdiff

,

mul

tegn-

PAM med top 2% gener, henholdsvis.

Vi kan gøre to observationer fra dette resultat. Kun et lille antal af de øverste gener er nødvendige for at opnå forbedringer, og at forbedringerne er ret konsekvent på tværs af datasæt. For at vise, om disse observationer er stadig gyldige for andre metoder klassificering, vi udførte de samme eksperimenter ved hjælp af forskellige klassifikationssystemer metoder, herunder DT, NB, SVM og

k-

NN klassificører.

Figur 2 viser sammenligning resultater med DT. Nøjagtigheden af ​​DT konsekvent forbedret på tværs af de ni datasæt. I nogle tilfælde forbedringerne var signifikante. For eksempel,

sumdiff-

DT forbedret nøjagtigheden af ​​DT fra 64,8% til 77,3% i Pros.2 datasæt ved hjælp af de øverste 4% gener; fra 73,6% til 93,1% i leukæmi datasæt med kun de øverste 0,2% gener; og fra 80,5% til 98,7% i DLBCL datasæt med kun de øverste 0,2% gener. Tilsvarende

multi-

DT forbedret nøjagtigheden af ​​DT fra 64,8% til 84,1% i Pros.2 datasæt ved hjælp af de øverste 0,4% gener; fra 84,9% til 100% i Pros.3 datasæt med de øverste 0,4% gener; og fra 80,5% til 97,4% i DLBCL datasæt med de øverste 1% gener. Endelig

tegn-

DT forbedret nøjagtigheden af ​​DT fra 84,9% til 97,0% i Pros.3 datasæt ved hjælp af de øverste 0,2% gener; fra 73,6% til 95,8% i leukæmi datasæt med de øverste 0,6% gener; og fra 77,4% til 93,6% i Colon datasæt med de øverste 0,6% gener. I gennemsnit over ni datasæt blev nøjagtigheden af ​​DT forbedret fra 78,9% til 85,2%, 84,2% og 89,1% ved hjælp af

sumdiff

,

mul

tilmelde

dubletter med de øverste 0,8% gener henholdsvis.

Tilsvarende for NB, nøjagtigheden blev væsentligt forbedret med

sumdiff

og

mul

dubletter. Resultatet er vist i figur 3. En interessant observation vi gjort, er, at for NB

sign

dubletter har konsekvent klaret sig dårligere end de andre uafhængige af antallet af de øverste gener anvendes til dublet generation. Dette skyldes, at

sign

dubletter omdanne udtrykket værdier til binære variable angiver rækkefølgen af ​​ekspressionsniveauet mellem generne i genpar og de transformerede binære værdier ikke beholder nok information til at beregne klasse sandsynlighed der anvendes til klassificering . Således

tilmelder

dubletter er ikke egnede til de NB klassificører. Ikke desto mindre ydeevne gevinster med

sumdiff

mul

dubletter var betydelig. I Pros.1 datasæt, både

sumdiff /multi-

NB forbedret nøjagtigheden fra 62,8% til 91,2% med de øverste 0,2% gener; i Colon datasæt blev nøjagtigheden forbedret fra 56,5% til 87,1% og 88,7% med de øverste 1% gener, hhv. Endelig i DLBCL datasættet blev nøjagtigheden forbedret fra 80,5% til 96,1% og 92,2% med de øverste 0,2% gener, hhv. I gennemsnit blev nøjagtigheden forbedret fra 81% til 90,7% og 89,5% med

sumdiff

og

mul

dubletter med de øverste 0,2% gener, henholdsvis.

SVM er kendt for at være en af ​​de mest robuste klassifikatorer på mange områder. Selv om dens præstation var overbevisende i sig selv, bemærkede vi, at vores dublet tilgang i nogle tilfælde forbedret sine resultater markant. Resultatet er vist i figur 4. I Colon datasæt, udførelsen gain var mest slående. Nøjagtigheden blev forbedret fra 82,3% til 87,1%, 87,1% og 93,6% med

sumdiff /mul /tegn

dubletter med de øverste 1% gener, hhv. I Pros.2 datasæt blev nøjagtigheden forbedret fra 76,1% til 80,7%, 84,1% og 85,2% med top 8%, 0,2% og 1% generne. I gennemsnit blev nøjagtigheden forbedret fra 91,2% til 92%, 91,9%, og 89,4% med

sumdiff /mul /tilmelde

dubletter med de øverste 4% gener, henholdsvis.

Endelig for

k-

NN, det samme blev observeret, som er vist i figur 5. for

k-

NN, ydeevne gevinst var betydelig i næsten alle datasæt. For eksempel, i leukæmi datasættet blev nøjagtigheden forbedret fra 84,7% til 98,6%, 98,6% og 100% med

sumdiff /mul /tegn

dubletter med top 2%, 0,8% og 0,2% gener , henholdsvis. I gennemsnit blev nøjagtigheden forbedret fra 84,3% til 91%, 90,1% og 90,7% med

sumdiff /mul /tilmelde

dubletter med de øverste 4% gener, henholdsvis.

Andre end den

tilmelder

dubletter i NB klassificeringen, brug af tre dubletter førte til forbedret ydeevne af baseline klassificører. Baseline classifiers gennemsnitlige nøjagtighed satser i de ni datasæt varierede fra 79% til 91% (dvs. DT = 79%, KNN = 84%, NB = 81%, SVM = 91%, og PAM = 89%). På den anden side, deres gennemsnitlige priser med dubletter svævede på et højere interval, eller fra 89% til 92% (dvs.

tegn-

DT = 89%,

sumdiff-

KNN = 91 %,

sumdiff-

NB = 89%,

sumdiff-

SVM = 92%, og

multi-

PAM = 90%; alle tal med top 4% gener ). Baseline klassifikatorer viste en betydelig forskel i ydelse mellem dem. Når det kommer til dubletter, blev imidlertid forskellen minimeret og ydeevnen blev forbedret. Alle de tre dublet typer næsten lige bidraget til forbedret ydeevne på tværs af forskellige datasæt (undtagen

tilmelde

dubletter i NB).

sumdiff /mul /tilmelde

dubletter med de øverste 4% gener markeret gennemsnitlige nøjagtighed over fem klassificører på 88,7% (std. 3,4), 88,5% (std. 3.8), og 85,4% (std. 9.9 ), henholdsvis.

sumdiff

dubletter viste en lidt bedre ydeevne end de andre gjorde. Dette resultat er muligvis henføres til følgende forhold:

sumdiff

dubletter fange begge opad og nedad relationer (dvs. op-op, ned og ned, og op-ned) og de ordre forbindelser udtryk værdier for hvert gen par. Tværtimod

mul

dubletter fange den tidligere alene, og

tilmelde

dubletter fange sidstnævnte alene. (Se afsnittet Materialer for flere detaljer.)

Diskussion

En nylig undersøgelse foreslået, at vejen niveau deregulering er vigtigere for carcinogenese end dereguleringen af ​​enkelte gener [14]. En pathway typisk dereguleret i deregulering af mere end et gen, der er associeret med denne vej. Dette understøtter vores motivation for at bruge dubletter som funktioner for klassificering, som de dubletter kunne erobre potentielt mere information om vejen niveau deregulering end de enkelte gener. I denne undersøgelse imidlertid dubletter blev samlet fra forskellige veje; nemlig ikke begrænset til dem af genpar tilhørende samme veje. Ved at lade alle mulige genkombinationer, vi har forsøgt at indfange ikke kun de direkte intra-pathway interaktioner, men også nogle af de mulige indirekte inter-pathway sammenslutninger. Vi planlægger at forfølge i vores fremtidige arbejde, de tilfælde, hvor der anvendes kun de intra-pathway dubletter.

En række uafhængige undersøgelser har bekræftet effektiviteten af ​​at kombinere genpar. Zhou og hendes kolleger har indført en teknik kaldet

anden ordens korrelationsanalyse

hvor parvise korrelationer af gener er brugt til den funktionelle klassificering af gener [15]. Deres tilgang fungerer, som følger: Første beregnet er alle parvise korrelationer af gener inden for hver dataset (1. orden korrelationer); så er de korrelation mønstre analyseres på tværs af flere datasæt (2. ordens korrelationer). Udvælgelse er lavet af genpar, der viser høje korrelationer i flere datasæt, og de udvalgte danner dubletter. En dublet er repræsenteret som en vektor, således at dens dimension og værdi henholdsvis svarer til et dataset og korrelationen værdi genparret i den tilsvarende datasæt. De dubletter sættes derefter under anvendelse korrelationen som lighed metric. De dubletter grupperet sammen anses for at dele lignende funktioner, fordi de er slået-og slukkes kollektivt tværs datasæt.

Vi har også udviklet microarray dataintegration teknikker, der udnytter inter-gen relationer, såsom

korrelation signatur

[16] og

signatur terning

[17].

korrelation signatur

projekter heterogene microarray udtryk data på en sammenhængende information rum, hvor et gen er repræsenteret af vektor af sine korrelationer mod en række skelsættende gener. Hvis der anvendes det samme sæt af vartegn, heterogene microarray datasæt, som ikke kunne have været direkte kombineret, kan integreres, fordi korrelation underskrifter af generne har kompatible dimensioner.

signatur terning

generaliserer principperne i sammenhængen signatur ved at give en heterogen microarray data mining rammer, hvor data er repræsenteret i relative termer (dvs. inter-gen relationer). Således minedrift algoritme er sammenhængende anvendelig hele datasæt. Udover integration af microarray data, vi også har anvendt princippet til klyngedannelse problemet og har indført en ny klyngedannelse ramme,

SignatureClust

[18].

SignatureClust

klynger microarray data efter projicere det ind i en signatur rum defineret ved et sæt skelsættende gener valgt af brugeren, så biologer at få forskellige perspektiver af de samme underliggende data blot ved at ændre skelsættende gener.

det er også blevet bevist, at den inter-genet oplysninger er nyttige med henblik kræft klassificering.

k-

TSP udnytter ændringer i ekspressionsniveauerne af genpar for at forbedre klassificeringen nøjagtighed [6].

k-

TSP klassificeringen bruger genpar, der ligner vores

sign

dubletter.

k-

TSP klassificeringen identificerer genpar, hvis udtryk ordrer konsekvent vendt på tværs af klasser; dvs. hvis i de fleste af kontrolprøver og i de fleste af kræft prøver, derefter på

k-

TSP klassificeringen vidt genparret og som en god indikator for klasserne.

k-

TSP klassificeringen finder de top-par, der er nævnt som TSP (Top Scoring Pairs), og det bruger dem til at bestemme klasserne.

k-

TSP klassificeringen kombinerer forudsigelsen af ​​hver TSP hjælp afstemningen uvægtede flertal for at bestemme den endelige klasse af en prøve. For nylig,

k-

TSP algoritme er også blevet anvendt til at forbedre klassificeringen nøjagtigheden af ​​SVM klassificeringen [19].

Vores metode er forskellig fra den

k-

TSP klassificeringen i tre vigtige aspekter. Først -TSP designet til at arbejde med kun én type gen parring (svarende til vores

tilmelder

dubletter), mens vores metode ikke er begrænset til bestemte typer af parring. I dette papir, har vi defineret tre dubletter, dvs.

sumdiff

,

mul

tilmelde

, men forskellige andre dubletter kan også bruges med den foreslåede ramme. For det andet, vores metode bruger eksisterende veletablerede klassificører i stedet for at udtænke nye klassifikationsmodeller. Dette blev gjort muligt, fordi vores metode adskiller gen parring trin (dvs. feature extraction trin) fra klassificeringen model byggeri. Endelig

k-

TSP klassificeringen bruger frekvens som en parameter for at tildele score til deres genpar, mens vi bruger pålidelig

t-scoringer

. Tabel 2 opsummerer nøjagtighed resultaterne af dubletter og baseline klassificører samt nøjagtigheden af ​​TSP og

k-

TSP. TSP refererer til det tilfælde, hvor kun den mest indflydelsesrige TSP blev brugt til klassificering. Den TSP og

k-

TSP klassificører rapporterede en robust ydeevne, bedre end de fleste af de baseline klassificører. Stadig, de to klassificører falder kort i forbindelse med vores undersøgelse. Denne undersøgelse er vigtig, idet det blev påvist, at en simpel dublet-baserede feature extraction metode bemærkelsesværdigt forbedrer nøjagtigheden af ​​konventionelle klassificører hele vejen op til det niveau af algoritmer specialiserede klassificering som TSP og

k-

TSP.

de øverste 15 dubletter og deres tilknyttede Kegg veje for CNS datasæt er vist i tabel 3. En mulig forklaring på, hvorfor dublet nøjagtighed er højere end de grundlæggende klassificører kunne være, at de veje der er forbundet med hvert element af dubletten eller anden måde er låst sammen med hinanden, og derfor udgør en mere robust biomarkør i forhold til hver af de veje, der er truffet individuelt. Men en mere robust undersøgelse, før nogen hypotese kan valideres. I vores fremtidige arbejde, vi har til hensigt at gennemføre en systematisk analyse af disse top dubletter, deres tilknyttede veje og deres mulige forbindelser til kræft.

Vi har vist, at kombinere udtryk data fra genpar øger nøjagtigheden af klassificører. Vi har også vist, at forøgelse af antallet af gener til fremstilling af dubletter ikke nødvendigvis resultere i en tilsvarende forøgelse af nøjagtighed. Dette er vigtigt, fordi vi kan få en meget høj nøjagtighed, selv om vi bruger en meget lille delmængde af det samlede antal gener. Således den beregningsmæssige kompleksitet computing dubletter, som potentielt kan være kvadratisk til det samlede antal gener i datasættet, er ikke kritisk, da der kun anvendes en meget lille delmængde af generne.

Generne omfatter toppen dubletter giver også let fortolkelige resultater i forhold til andre metoder såsom SVM. Selv SVM kan give en højere nøjagtighed end andre, det er hovedsagelig en sort boks og ingen indsigt kan opnås med hensyn til biomarkør gener. Dubletter, på den anden side, er let fortolkelige. Doublets identificere, hvilke gener, og som genpar kan tjene som biomarkører for tumor klassificering.

I fremtiden planlægger vi at analysere disse dubletter tværs datasæt og kræft typer at vælge mere robuste kræft biomarkør genpar. Især undersøger vi, hvordan de enkelte dubletter kort til reelle geners forbindelser, såsom undertrykkelse eller stimulering, og hvordan relationerne funktion med hensyn til carcinogenese. Det er endvidere hensigten at eksamen effektiviteten af ​​dubletter ved klassificering multi-class kræft datasæt.

Konklusion

bidrag dette papir er dobbelt. For det første har det indført dubletter, en hidtil ukendt fremgangsmåde til at kombinere udtryk data fra genpar. Genpar er mere robuste biomarkører i forhold til individuelle gener, måske afspejler, at gener interagerer at udføre en molekylær funktion og dereguleringen af ​​generne i interaktionen, snarere end uafhængige gener, kan være ansvarlige for deregulering de kritiske veje. For det andet har vi kombineret dubletter med konventionelle klassifikatorer at producere klassificører hvis nøjagtighed er større end den af ​​de originale. Vi valideret rammerne hjælp fem kendte klassifikatorer herunder PAM, DT, NB, SVM, og KNN. Vi viste, at dubletter let kan integreres i de eksisterende klassificører uden at skulle ændre de underliggende algoritmer, og at brug af dubletter kan konsekvent forbedre klassificeringen nøjagtighed af de oprindelige algoritmer på tværs af forskellige datasæt.

Materialer og metoder

Gene Doublets

Lad der være

N

gener i en vævsprøve, og lad der være

M

sådanne vævsprøver. Kræft datasæt kunne så være repræsenteret som matrix af dimension. Så ville betegne udtrykket værdien af ​​

jeg

th gen, i

j

th prøve,. Genet vektor = ville betegne udtrykket værdien af ​​

jeg

th gen på tværs af de

M

vævsprøver, og kolonnen vektor = ville repræsentere

j

th vævsprøve tværs af

N

gener. Klassen etiketter til vævsprøverne er repræsenteret af vektor =, hvor, det sæt af alle klasse etiketter. Til vores binære problem klassificering, hvor betegner kræft og betegner normale vævsprøver.

For hvert par af gener i et datasæt, definerer vi en positiv dublet vektor og en negativ dublet vektor som (2) (3)

således vores datasæt med gener, har vi positive dubletter og negative dubletter, og vores oprindelige microarray datasæt for dimension er omdannet til en matrix. Hver række i denne nye matrix repræsenterer en dublet (positiv eller negativ). Vi betegner denne matrix som, med dimension, hvor; Således er de definerede dubletter kendt som

sumdiff

dubletter. I en anden variation af at gøre dubletter, vi definerer

mul

dubletter som: (4) og

melde

dubletter som: (5)

sumdiff

dubletter fange up-op, ned-ned (dvs. positive dubletter) og op-ned (dvs. negativ dubletter) relationer af udtrykket værdier genpar. Endvidere er de negative dubletter fange rækkefølgen af ​​udtryk værdier mellem generne i genparret. Venligst bemærkes, at de datasæt blev bearbejdet til at have en værdi på mindst 10 og højst 16.000. Derefter blev de værdier omregnes igennem. Derefter blev alle prøverne standardiseret til nul middelværdi og enhed varians.

mul

dubletter ikke kun fange de up-op, ned-ned, og op-ned relationer genpar, men også forstærke relationerne gennem multiplikation. Men den

mul

dubletter ikke fange udtrykket ordrer mellem gener. På den anden side,

underskrive

dubletter fange de inter-genekspression ordrer alene.

microarraydata og klassifikation Metoder

microarray data er taget fra flere undersøgelser, som er vist i tabel 1. det er de samme datasæt, der blev anvendt i [6] til sammenligning TSP og

k-

TSP med forskellige klassifikatorer. Mikroarrayene består af udtryk data for vævene forbundet med colon, blod, lunge, bryst, prostata, og cancer i centralnervesystemet. Antallet af prøver og antallet af gener i hver undersøgelse er også vist i tabel 1. For de grundlæggende klassificører, vi brugte de implementeringer tilgængelige i BioConductor (for PAM) [20] og Weka (for DT, NB, SVM og KNN) [21].

Klassifikation nøjagtighed

Vi bruger

LOOCV Hotel (

Lad One Out Cross Validering

) metode til at estimere klassificeringen nøjagtighed. For hver prøve i datasættet, bruger vi resten af ​​prøverne i datasættet til at forudsige klassen af ​​prøven. Klassificeringen nøjagtighed hvert datasæt er forholdet mellem antallet af de klassificeres korrekt prøver (Ægte positiver + Ægte negativer) til det samlede antal prøver i datasættet.

Tak

Dette papir er en væsentligt udvidet version af vores indledende arbejde præsenteres i IEEE International Conference 2009 om Bioinformatik og biomedicin [22]. Papiret præsenteret i konferencen introducerede de foreløbige resultater kun begrænset til en bestemt klassificering algoritme, PAM. I denne udvidede papir, vi generaliserede resultater ved at vise, at den afledte oplysninger fra robuste genpar kunne forbedre nøjagtigheden af ​​klassificering kræft uafhængig af algoritmer de underliggende klassificering. Vi drøftede også fortolkningen af ​​genpar i de meget vejledende dubletter og deres forbindelse med kræft.

Be the first to comment

Leave a Reply