PLoS ONE: Multi-klasse Gruppering af Cancer Undertyper gennem SVM Based Ensemble for Pareto-optimale løsninger for Gene Marker Identifikation

Abstrakt

Med fremme af microarray-teknologi, er det nu muligt at studere udtrykket profiler af tusinder af gener på tværs af forskellige eksperimentelle betingelser eller vævsprøver samtidigt. Microarray kræft datasæt, organiseret som prøver versus gener mode, bliver brugt til klassificering af vævsprøver i godartede og ondartede eller deres undertyper. De er også nyttige til identifikation af potentielle genmarkører for hver kræft undertype, som hjælper med vellykket diagnose af særlige typer cancer. I denne artikel har vi præsenteret et uovervåget kræft klassificering teknik baseret på multiobjective genetiske klyngedannelse af vævsprøver. I denne henseende er et real-kodet kodning af klyngen centre brugt og klynge kompakthed og adskillelse samtidig optimeres. Den resulterende sæt af nær-Pareto-optimale løsninger indeholder en række ikke-dominerede løsninger. En ny tilgang til kombinere klyngedannelse oplysninger i besiddelse af de ikke-dominerede løsninger gennem Support Vector Machine er blevet foreslået (SVM) klassificeringen. Final klyngedannelse opnås ved konsensus blandt de clusterings fremkommet ved forskellige kerne funktioner. Udførelsen af ​​den foreslåede multiobjective klyngedannelse metode er blevet sammenlignet med virkningen af ​​flere andre microarray clustering algoritmer for tre offentligt tilgængelige benchmark cancer datasæt. Desuden er der gennemført statistisk signifikans analyser til at fastslå den statistiske overlegenhed af det foreslåede klyngedannelse metode. Desuden har relevante genmarkører blevet identificeret ved hjælp af klyngedannelse resultat produceret af den foreslåede klyngedannelse metode og demonstreret visuelt. Biologiske relationer mellem gen markører er også studeret baseret på gen-ontologi. De opnåede resultater er fundet at være lovende og kan muligvis have betydelig indvirkning på området klassificering opsyn kræft samt genmarkøren identifikation for flere kræft undertyper

Henvisning:. Mukhopadhyay A, Bandyopadhyay S, Maulik U (2010 ) Multi-klasse Gruppering af Cancer Undertyper gennem SVM Based Ensemble for Pareto-optimale løsninger for Gene Marker Identifikation. PLoS ONE 5 (11): e13803. doi: 10,1371 /journal.pone.0013803

Redaktør: Alfons Navarro, University of Barcelona, ​​Spanien

Modtaget: May 26, 2009; Accepteret: September 28, 2010; Udgivet: November 12, 2010

Copyright: © 2010 Mukhopadhyay et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. SB og UM anerkender Institut for Videnskab og Teknologi, Indien (Grant nr DST /INT /MEX /RPO-04/2008 (ii)) for delvist at støtte dette arbejde. De finansieringskilder havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskriptet

Konkurrerende interesser:.. Forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

fremkomsten af ​​microarray teknologi har gjort det muligt at studere udtrykket profiler af et stort antal gener tværs af forskellige eksperimentelle betingelser eller vævsprøver samtidigt. Dette har stor betydning for kræftforskning. Microarray teknologi bliver udnyttet i kræft diagnose gennem klassificeringen af ​​vævsprøver. Når microarray datasæt er organiseret som prøver versus gen mode, så de er meget nyttigt for klassificering af forskellige typer af væv og identifikation af de gener, hvis udtryk niveauer er gode diagnostiske indikatorer. De microarray datasæt, hvor vævsprøver repræsenterer prøverne fra kræft (maligne) og ikke-kræft (godartet) celler, vil klassificeringen af ​​dem indebærer klassificering binær kræft. På den anden side, hvis prøverne er fra forskellige undertyper af cancer, så bliver problemet med klassificeringen multi-klasse cancer. Multi-class kræft klassificering og påvisning af gen-markører for hver kræft undertype er en mere udfordrende opgave i forhold til den binære klassificering.

De fleste af de undersøgelser på området for kræft diagnose har fokuseret på overvåget klassifikation af kræft datasæt gennem uddannelse, validering og afprøvning at klassificere tumor prøver som ondartet eller godartet, eller deres undertyper [1] – [6]. Dog bør uovervåget klassifikation eller gruppering af vævsprøver også undersøges, da det i mange tilfælde, mærkede vævsprøver er ikke tilgængelige. I denne artikel, har vi undersøgt anvendelsen af ​​den multiobjective genetiske klyngedannelse til uovervåget klassifikation af vævsprøverne i kræft data multi-klasse.

En microarray genekspression datasæt bestående af gener og vævsprøver typisk organiseret i en 2D matrix af størrelse. Hvert element repræsenterer ekspressionsniveauet af th genet for th vævsprøve. Clustering [7], [8], et vigtigt microarray analyse værktøj, der bruges til uovervåget klassifikation af vævsprøver. Clustering metoder partitionere et sæt af objekter i grupper baseret på en vis lighed /ulighed metriske hvor værdien af ​​måske eller måske ikke være kendt

a priori

.

Genetiske algoritmer (gas) [9] har været effektivt til at udvikle effektive klyngedannelse teknikker [10], [11]. Disse teknikker bruge en enkelt klynge gyldighed foranstaltning som fitness-funktionen for at afspejle den godhed en kodet klyngedannelse. Men en enkelt klynge gyldighed foranstaltning sjældent lige så anvendelig til forskellige data egenskaber. Denne artikel udgør problemet med klyngedannelse som en multiobjective optimering (MOO) [12] – [15] problem. I modsætning til enkelt mål optimering, i MOO, er søgning udføres over et antal, ofte modstridende, objektive funktioner. Den endelige løsning sættet indeholder en række Pareto-optimale løsninger, hvoraf ingen kan forbedres yderligere på en hvilken som helst mål uden at forringe det i en anden. Ikke-dominerede Sortering Genetisk Algoritme-II (NSGA-II) [15], en populær evolutionær multiobjective optimeringsværktøj, er blevet anvendt med succes i domæne klyngedannelse og klassificering i microarray genekspression data [16] – [18]. I denne artikel også har en NSGA-II-baserede multiobjective clustering algoritme [13] er blevet vedtaget, der optimerer klyngen kompakthed og klynge adskillelse samtidigt. En udfordrende spørgsmål i MOO er at få en endelig løsning fra sættet af Pareto-optimale løsninger. I denne henseende, en ny metode ved hjælp Support Vector Machine (SVM) [19] klassificeringen er beskrevet i denne artikel. Proceduren udnytter de punkter, for hvilke størstedelen af ​​de ikke-dominerede løsninger producerer samme klasse etiketter for at træne SVM klassificeringen med en bestemt kerne. Resterende punkter er klassificeret af den uddannede klassificeringen. Endelig klassificering opnås ved konsensus blandt clustering løsninger fremkommet ved forskellige kerne funktioner.

Desuden har klyngedannelse opløsning fremstillet ved den foreslåede MOGASVM clustering teknik blevet brugt til at identificere de gen-markører, der er for det meste er ansvarlige for at skelne en bestemt tumor klasse fra de resterende. Signal-til-støj-forholdet (SNR) statistik-baserede gen ranking er blevet anvendt til dette formål.

Udførelsen af ​​den foreslåede MOGASVM clustering teknik er blevet demonstreret på tre offentligt tilgængelige benchmark kræft datasæt, nemlig., SRBCT , Voksen malignitet og Brain tumor. Den overlegenhed i den foreslåede teknik, i forhold til K-betyder klyngedannelse [7], Forventning Maximization (EM) klyngedannelse [20], enkelt mål GA-baserede klynger, der optimerer kombinationen af ​​klyngen kompakthed og separation (SGA), hierarkisk gennemsnit kobling klyngedannelse [7], Self Organizing kort (SOM) klyngedannelse [21], konsensus klyngedannelse [22], og en nylig foreslået clustering teknik kaldet SIMM-TS [12], er påvist både kvantitativt og visuelt. Overlegenhed MOGASVM clustering teknik har også vist sig at være statistisk signifikant ved statistisk signifikans tests. Endelig er det blevet vist, hvordan MOGASVM klyngedannelse resultat kan anvendes til at identificere de relevante genmarkører for SRBCT datasæt. Også en undersøgelse af biologisk relevans af de gen-markører er blevet gennemført på grundlag af gen-ontologi.

Materialer og metoder

Multiobjective Optimering ved hjælp af genetiske algoritmer

I mange virkelige verden situationer der kan være flere mål, der skal optimeres samtidig for at løse et bestemt problem. Dette er i modsætning til de behandlede problemer ved konventionel gas, som involverer optimering af blot ét kriterium. Den største vanskelighed ved at antage multiobjective optimering er at der ikke er accepteret definition af optimal i dette tilfælde, og det er derfor vanskeligt at sammenligne én løsning med en anden. Generelt er disse problemer indrømmer flere løsninger, som hver især er godtages, og tilsvarende når den relative betydning af målene er ukendt. Den bedste løsning er subjektiv og afhænger af behovet for designeren eller beslutningstager.

Traditionelle søgning og optimering metoder såsom gradient afstamning søgning og andre ukonventionelle såsom simuleret udglødning er vanskelige at udvide som det er at den multiobjective tilfælde, da deres grundlæggende design udelukker overvejelse af flere løsninger. Tværtimod population baseret metoder som evolutionære algoritmer er velegnede til at håndtere sådanne situationer. Den multiobjective optimering formelt kan angives som [23], [24]. Find vektoren af ​​beslutningsprocesser variabler, som opfylder ulighed begrænsninger: (1) begrænsninger ligestilling (2) og optimerer vektorfunktionen (3) De begrænsninger givet i Eqns. (1) og (2) definerer mulige region, som indeholder alle de tilladelige løsninger. Enhver løsning uden for denne region skal afvises, da den krænker en eller flere begrænsninger. Vektoren betegner en optimal løsning i. I forbindelse med multiobjective optimering, vanskeligheden ligger i definitionen af ​​optimalitet, da det kun sjældent, at vi vil finde en situation, hvor en enkelt vektor repræsenterer den optimale løsning til alle de objektive funktioner.

Begrebet

Pareto-optimalitet

er nyttig inden for området multiobjective optimering. kan gives som følger en formel definition af Pareto-optimalitet fra det synspunkt af minimering problem. En beslutning vektor benævnes Pareto-optimal, hvis og kun hvis der er nogen, der dominerer, dvs., der ikke sådan thatIn andre ord er Pareto-optimal, hvis der ikke findes nogen mulig vektor, som forårsager en reduktion på nogle kriterium uden en samtidig stigning i mindst en anden. I denne sammenhæng to andre begreber nemlig.,

svagt ikke-dominerede

stærkt ikke-domineret

løsninger defineres [23]. Et punkt er en svagt ikke-dominerede løsning, hvis der ikke findes nogen sådan at for. Et punkt er et stærkt ikke-dominerede løsning, hvis der ikke findes nogen sådan, at for, og i mindst én,. Generelt Pareto optimal indrømmer et sæt løsninger kaldes

ikke-dominerede

løsninger.

Der er forskellige tilgange til at løse multiobjective optimeringsproblemer [23], [24], f.eks sammenstille, befolkning baserede ikke-Pareto og Pareto-baserede teknikker. Ved sammenlægning teknikker, er de forskellige målsætninger generelt kombineres til én bruger vægtning eller mål metode. Vector evaluerede Genetisk Algoritme (VEGA) er en teknik i befolkningen, ikke-Pareto tilgang, hvor forskellige subpopulationer anvendes til forskellige formål. Multiple Mål GA (Moga), Ikke-dominerede Sortering GA (NSGA), niched Pareto GA (NPGA) udgør en række teknikker under Pareto-tilgange. Men alle disse teknikker, der er beskrevet i [24], er i det væsentlige ikke-elitære karakter. NSGA-II [15], Styrke Pareto Evolutionary Algorithm (SPEA) [25] og SPEA2 [26] er nogle nyere elitære teknikker. NSGA-II er en forbedring i forhold den tidligere version NSGA i form beregningstid. Desuden NSGA-II, indfører roman elitær model ved at kombinere overordnede og underordnede befolkninger og plantemateriale de ikke-dominerede løsninger fra den samlede befolkning til den næste generation sikre en bedre konvergens sats mod globalt optimale Pareto front. Også den foreslår en overfyldt sammenligning metode til binær turnering markering, der giver bedre mangfoldighed i Pareto front. I [15], er det blevet vist, at NSGA-II præsterer bedre sammenlignet med flere andre MOO teknikker. Derfor multiobjective klyngedannelse teknik betragtes i dette arbejde bruger NSGA-II som den underliggende optimering rammer. Men enhver anden evolutionær multiobjective optimeringsværktøj kunne have været brugt,.

NSGA-II baseret Multiobjective Clustering

I dette afsnit har vi beskrevet brugen af ​​NSGA-II for udvikling af et sæt af nær -Pareto-optimale klyngedannelse løsninger [13]. Cluster kompakthed og klyngen adskillelse betragtes som de objektive funktioner, der er optimeret samtidigt. Teknikken er beskrevet nedenfor i detaljer.

String Repræsentation og Befolkning Initialisering.

I NSGA-II baseret klyngedannelse, kromosomerne består af reelle tal, der repræsenterer koordinaterne for centrene for klyngerne. Antag størrelsen af ​​datasættet er, dvs. algoritmen klynger vævsprøver hver er beskrevet af gener (funktioner). For klynger, hver kromosom har således en længde på, hvor er data dimension (antallet af gener i dette tilfælde). Som vi har brugt 200 gener, der har større afvigelser tværs prøverne, dimensionen er derfor 200 for hver datasæt. Centrene er kodet i et kromosom i den indledende befolkning er tilfældigt udvalgt forskellige punkter fra datasættet.

Computer målene.

For computing de objektive funktioner, først centrene kodet i en given kromosom er udvindes. Derefter er hvert datapunkt tildelt sin nærmeste klynge centrum og klynge centre er opdateret ved at tage gennemsnittet af de punkter, der tildeles det. Punkterne er derefter overført til deres nærmeste klynge centre. Den kromosomet er også opdateret med de nye klynge centre

Den globale kompakthed af en klyngedannelse løsning er defineret som følger:. (4), hvor betegner afstanden mellem th punkt og th klynge center. betegner th klynge. Bemærk, at lav værdi indikerer, at klyngerne er meget kompakt. Derfor er målet at minimere.

Den anden målsætning er klynge adskillelse. Dette er defineret som følger: (5) For at opnå godt adskilte klynger, er målet at maksimeres. Som her NSGA-II er modelleret som en minimering problem, er det andet mål tages som den reciprokke af.

Genetiske Operations.

De populært anvendte genetiske operationer er

udvælgelse

,

crossover

mutation

. Valget operation bruges her er de overfyldte binære turnering udvælgelse anvendt i NSGA-II [15]. Efter selektion, er de valgte kromosomer sætte i parring pool og konventionel enkelt punkt crossover udføres på grundlag af crossover sandsynlighed. Efter at hvert kromosom gennemgår mutation afhængigt af mutationen sandsynlighed, hvor en tilfældig klynge center er valgt fra det, og derefter flyttet lidt.

Det mest karakteristiske del af NSGA-II er dens elitisme operation, hvor moderselskabet og barn befolkninger kombineres og ikke-dominerede løsninger fra den kombinerede befolkning opformeres til den næste generation. For detaljer om de forskellige genetiske processer, kan læserne se [15]. De nær-Pareto-optimale strenge af den sidste generation giver de forskellige løsninger til klyngedannelse problemet.

Support Vector Machine Classifier

Support vektor maskine (SVM) klassificører er inspireret af statistisk læringsteori og de udfører strukturel risikominimering på en indlejret sæt struktur adskiller hyperplaner [19], [27]. Visning af input data som to sæt vektorer i et dimensionale rum, en SVM konstruerer en adskillelse hyperplan i dette rum, som maksimerer margin mellem de to klasser af point. At beregne den margen, er to parallelle hyperplaner konstrueret på hver side af det adskillende ene, som er “skubbet op mod” de to klasser af punkter. Intuitivt er en god adskillelse opnås ved hyperplan, der har den største afstand til de omkringliggende datapunkter i begge klasser. Større margin eller afstanden mellem disse parallelle hyperplaner indikerer bedre generalisering fejl af klassificeringen. Fundamentalt er SVM klassificeringen designet til to-klasse problemer. Det kan udvides til at håndtere flere klasse problemer ved at designe et antal én-mod-alle eller én-mod-én to-klasse SVMs.

Antag et datasæt består af vektorer, hvor, betegner klasse label til datapunkt. Problemet med at finde vægten vektor kan formuleres som minimerer følgende funktion: (6) med forbehold (7) Her er forspændingen og funktionskortene indgangsvektoren til trækvektor. Den dobbelte formulering er givet ved at maksimere følgende: (8) med forbehold (9) Kun en lille brøkdel af koefficienterne er nul. De tilsvarende par af poster er kendt som support vektorer og de fuldt ud definerer beslutningen funktionen. Geometriske støtteelementerne vektorer er de punkter liggende nær separerende hyperplan. Her kaldes

kernel funktionen

.

Kernel funktioner med til at kortlægge funktionen plads til højere dimensionelle rum. Kernen Funktionen kan være lineær eller ikke-lineær, ligesom polynomium, S-formet, radiale basis funktioner (RBF), etc. De fire kerne funktioner, der anvendes i denne artikel, er som følger:

Lineær:

Polynomial:

s-formet:

Radial Basis Function (RBF):.

den udvidede version af to klasse SVM der beskæftiger sig med problemet multi-class klassificering ved at designe en række en-mod-alle to-klasse SVMs [27] anvendes her. For eksempel er et class problem håndteres med to klasse SVMs, som hver især bruges til at adskille en klasse af point fra alle de resterende punkter.

Modtagelse af den endelige Clustering fra ikke-dominerede Solutions

Som multiobjective klyngedannelse producerer et sæt af ikke-dominerede løsninger i den endelige generation, er det nødvendigt at anvende nogle teknik til at opnå den endelige clustering løsning fra dette sæt. Dette afsnit beskriver den foreslåede ordning for at kombinere NSGA-II-baserede multiobjective klyngedannelse algoritme med SVM klassificeringen til dette formål. I den kombinerede metode, opkaldt MOGASVM er hver ikke-dominerede løsning givet samme betydning og en flertalsafgørelser teknik anvendes. Dette er motiveret af, at på grund af tilstedeværelsen af ​​uddannelses- punkter, overvåget klassifikation normalt udfører bedre end den uovervågede klassifikation eller klyngedannelse. Her har vi udnyttet denne fordel, mens du vælger nogle uddannelse, som bruger flertalsafgørelser på de ikke-dominerede løsninger produceret af multiobjective klyngedannelse. Det flertal teknik giver et sæt af punkter, for hvilke størstedelen af ​​de ikke-dominerede løsninger tildele samme klasse etiketter. Derfor kan opfattes disse punkter grupperet korrekt og kan således anvendes som uddannelses- punkter i SVM klassifikator. Efterfølgende de resterende lav tillid punkter klassificeret ved hjælp af uddannet klassificeringen. Processen gentages for forskellige kerne-funktioner og den endelige klyngedannelse opnås ved flertalsafgørelse blandt klynge label vektorer produceret af de forskellige kerne funktioner. De forskellige trin i MOGASVM er beskrevet nedenfor

Trin 1:. Udfør Moga klyngedannelse for at få et sæt, af ikke-dominerede løsning strenge bestående af klynge centre

Trin 2:. Decode hver enkelt løsning og opnå klyngen label vektor for hver løsning ved at tildele hvert punkt til sit nærmeste klynge center

Trin 3:. reorganisere klynge label vektorer til at bringe dem i overensstemmelse, dvs klynge i første løsning skal svare til klynge i alle andre løsninger. For eksempel klyngen label vektor svarer til

Trin 4:. Marker de punkter, der er givet den samme klasse etiket i mindst løsninger, som uddannelsen punkter, hvor, er flertalsafgørelser tærskel. Klassen etiketter punkterne vil være klasse

Trin 5:.. Train the SVM klassificeringen med nogle kernel-funktion ved hjælp af uddannelse punkter

Trin 6: Generer klassen etiketter til de resterende punkter ved hjælp den uddannede SVM klassificeringen

Trin 7:.. Gentag trin 5-6 for de fire kerne funktioner betragtes her og få de fire klynge label vektorer

Trin 8: Kombiner de fire klyngedannelse label vektorer gennem flertalsafgørelser ensemble, dvs, er hvert punkt tildeles en klasse etiket, der opnår det maksimale antal stemmer blandt de fire clustering løsninger. Slips brydes tilfældigt.

Størrelsen af ​​uddannelse og afprøvning sæt afhænger af parameter (flertal tærskel) den, der bestemmer det minimale antal af ikke-dominerede løsninger, der skal blive enige med hinanden i afstemningen sammenhæng. Hvis har en høj værdi, størrelsen af ​​træningssættet er lille. Det betyder imidlertid, at mere antallet af ikke-dominerede løsninger enige med hinanden og dermed tillid træningssættet er høj. Tværtimod hvis har en lav værdi, størrelsen af ​​træningssættet er stort. Men betyder det, at mindre antal ikke-dominerede løsninger har indbyrdes enighed og uddannelse sæt har lav tillid niveau. Under forsøg har vi forsøgt forskellige værdier for og fandt, at udførelsen af ​​MOGASVM er generelt bedst, når er i området mellem 0,4 og 0,6. Dette er blevet observeret for alle datasæt i betragtning her. Derfor, for at opnå en afvejning mellem størrelsen og tillid træningssættet, efter flere forsøg, har vi sat parameteren til en værdi på 0,5. Imidlertid kan denne parameter blive udsat for den bruger, der kan tune det i henhold til hans /hendes behov.

Antal klynger

Til indstilling af antallet af klynger, silhuet indeks bruges [28] . Det er defineret som følger. Antag repræsenterer den gennemsnitlige afstand af et punkt fra de andre punkter i klyngen, som punktet er tildelt, og repræsenterer mindst de gennemsnitlige afstande på det punkt fra de punkter i andre klynger. Nu silhuet bredde er defineret som: (10) Silhouette indeks er den gennemsnitlige silhuet bredde af alle datapunkter (tumor prøver), og det afspejler den kompakthed og adskillelse af klynger. Værdien af ​​silhuet indeks varierer fra -1 til 1 og højere værdi indikerer bedre clustering resultat. Værdien af ​​ikke har nogen monoton stigende eller faldende tendens med antallet af klynger. Derfor dette indeks er en god indikator for at vælge antallet af klynger [28].

For at vælge antallet af klynger, er MOGASVM algoritme køre for forskellige værdier af startende fra til, er antallet af datapunkter. For hver, er det udføres gange fra forskellige indledende konfigurationer og kørslen giver den bedste værdi er taget. Blandt disse bedste løsninger for forskellige værdier, er værdien af ​​for opløsningen producerer maksimal indeksværdi valgt. Den samme værdi bruges til alle de algoritmer for en rimelig sammenligning.

Beskæftiger sig med Outliers

Det er kendt, at tilstedeværelsen af ​​outliers kan påvirke udførelsen af ​​klyngedannelse algoritmer. Den foreslåede MOGASVM clustering algoritme beregner hjælp af klynger under kromosom updation som sandsynligvis vil blive påvirket på grund af tilstedeværelsen af ​​store udsving i datasættet. For at klare dette, vi ændrede den foreslåede algoritme som følger. Under kromosomet updation, i stedet for at tage midlerne til punkterne i en klynge, vi beregne

medoid

af klyngen. En klynge medoid modsætning klynge betyde, er et faktisk datapunkt i klyngen, hvorfra summen af ​​afstandene til de andre punkter i klyngen er minimum. Da medoid er en faktiske datapunkt, er det mindre påvirket af tilstedeværelsen af ​​outliers [29]. Resten af ​​trinene den modificerede algoritme forbliver samme. Under eksperimenter, er det fundet, at den medoid-baserede multiobjective clustering algoritme udfører på samme måde som den gennemsnitlige tilgang for de tre datasæt behandles i denne artikel. Vi har derfor ikke rapporteret resultaterne for medoid tilgang. Dette tyder på, at de datasæt betragtes her, er muligvis fri fra outliers. Dette kan dog ikke være tilfældet for de andre datasæt og i så fald, vil det være bedre at bruge medoid tilgang i stedet for den gennemsnitlige-baserede én. Det skal bemærkes, at finde medoids er beregningsmæssigt dyrere end finde midlerne. Men det er muligt at precompute fuldstændig afstand matrix og holde det i hukommelsen under udførelsen af ​​clustering algoritme for hurtigere ydeevne, fordi antallet af prøver i prøve-gen microarray datasæt er normalt meget mindre i forhold til antallet af gener.

performancemetrikker

To præstationsmål, dvs. procentdel Klassifikation Nøjagtighed () og Korrigeret Rand Index () anses for at sammenligne resultaterne produceret af forskellige algoritmer. Disse er defineret nedenfor.

Procent Klassifikation Nøjagtighed.

Vi definerer den procentvise Classification Nøjagtighed () til at sammenligne en klyngedannelse løsning med den sande klyngedannelse. Antag er den sande gruppering af prøverne i en genekspression datasæt og er en klyngedannelse resultat givet af nogle clustering algoritme. Lade være antallet af par af punkter, som tilhører de samme klynger i både og, være antallet af par af punkter, der hører til forskellige klynger i begge og, og det samlede antal af par af punkter, dvs.. Den er defineret som: (11) Højere værdi af midler en bedre overensstemmelse mellem og. Åbenbart.

Korrigeret Rand Index.

Korrigeret Rand index () [30] er også brugt til at sammenligne en klyngedannelse løsning med den sande klyngedannelse. Antag er den sande gruppering af prøverne i en genekspression datasæt og er en klyngedannelse resultat givet af nogle clustering algoritme. Lad, og henholdsvis betegne antallet af par af punkter, der tilhører den samme klynge i både og, antallet af par, der tilhører den samme klynge i, men til forskellige klynger i, antallet af par, der tilhører forskellige klynger i men til samme klynge i, og antallet af par, der tilhører forskellige klynger i begge og. Den justerede Rand-indekset bliver så defineret som følger: (12) Værdien af ​​løgne mellem 0 og 1 og højere værdi indikerer, at er mere ligner. Åbenbart,.

Identifikation af genet Markers

I dette afsnit har vi vist, hvordan den foreslåede MOGASVM klyngedannelse teknik kan anvendes til at identificere de gen-markører, der er for det meste er ansvarlige for at skelne de forskellige klasser af vævsprøver. Her har vi vist fremgangsmåden til SRBCT datasæt (beskrevet i næste afsnit). Dette er blevet gjort som følger.

I første omgang er MOGASVM påføres klynge de prøver af det forbehandlede datasæt i fire klasser svarende til tumor undertyper EWS, NB, BL og RMS hhv. For at opnå de genmarkører for EWS undertype er clustering resultat behandles som to klasser: en klasse svarer til EWS tumorer og anden klasse svarer til de resterende tumor typer. I betragtning af disse to klasser, for hvert af generne, en statistik kaldet Signal-støjforhold (SNR) [1] beregnes. SNR er defineret som (13), hvor og, henholdsvis betegne middelværdien og standardafvigelsen af ​​klasse for det tilsvarende gen. Bemærk, at større absolutte værdi af SNR for et gen viser, at genets ekspression er højt i én klasse, og lav i et andet. Derfor denne bias er meget anvendelig til at skelne de gener, som udtrykkes forskelligt i de to klasser af prøver. Efter beregning af SNR statistik for hvert gen, er generne sorteret i faldende rækkefølge efter deres SNR værdier. Fra den sorterede liste, er top 10 gener valgt som gen-markører (5 nedreguleret, dvs. negativ SNR og 5 opreguleret, dvs. positiv SNR) for EWS undertype. De øverste 10 genmarkører for de øvrige tumor undertyper er valgt på samme måde, dvs. ved at overveje to klasser hver gang, der svarer til tumoren klasse, hvortil der bliver identificeret genmarkører, og den anden svarer til samtlige de resterende tumor klasser.

det er blevet observeret, at det sæt af top 10 gener udvalgt i forskellige kørsler af MOGASVM varierer lidt fra den ene køre til en anden. Så mens rapportering af endelige genmarkører for SRBCT data, vi har rapporteret de hyppigst valgte 10 gener over alle kørsler. Hyppigheden af ​​de udvalgte gener er også blevet rapporteret. Desuden klyngedannelse resultat opnås ved anvendelse af de 40 markørgener for SRBCT data (10 for hver af de 4 cancer undertyper) sammenlignes med clustering resultater opnået ved hjælp af oprindeligt udvalgte 200 gener for at vise effektiviteten af ​​kun at bruge de markørgener for klyngedannelse.

datasæt

I denne artikel, tre offentligt tilgængelige benchmark kræft datasæt, nemlig.,

SRBCT

,

Voksen malignitet

Brain tumor

datasæt er blevet anvendt til eksperimenter. De datasæt er beskrevet i dette afsnit.

Små Runde blodlegemer tumorer (SRBCT).

De små runde blod celle tumorer (SRBCT) er 4 forskellige barndom tumorer opkaldt det på grund af deres lignende udseende på rutinemæssig histologi [5]. Antallet af prøver er 63 og det samlede antal gener er 2308. De omfatter Ewings familie af tumorer (EWS) (23 prøver), neuroblastom (NB) (8 prøver), Burkitts lymfom (BL) (12 prøver) og rhabdomyosarkom (RMS ) (20 prøver). Dette datasæt er offentligt tilgængelig på https://www.ailab.si/supp/bi-cancer/projections/info/SRBCT.htm.

Voksen malignitet.

Disse data består af 190 tumorprøver, der spænder over 14 almindelige tumortyper til oligonucleotid microarray [6]. De 14 tumortyper er: brystadenocarcinom (BR) (11 prøver), prostata-adenocarcinom (PR) (10 prøver), lungeadenocarcinom (LU) (11 prøver), colorektal adenocarcinom (CR) (11 prøver), lymfom (LY) (22 prøver), blære overgangsperiode cellecarcinom (BL) (10 prøver), melanom (ML) (11 prøver), uterin adenocarcinom (UT) (10 prøver), leukæmi (LE) (30 prøver), nyrecellecarcinom (RE ) (11 prøver), pancreas adenocarcinom (PA) (11 prøver), ovarie adenocarcinom (OV) (11 prøver), pleura mesotheliom (ME) (11 prøver) og centralnervesystemet (CNS) (20 prøver). Antallet af gener er 1363. Denne datasæt er offentligt tilgængelig på følgende websted:.. https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer

Brain Tumor

Be the first to comment

Leave a Reply