PLoS ONE: Hierarkisk Gene Valg og Genetik Fuzzy System for Cancer Microarray data Klassifikation

Abstrakt

Dette papir introducerer en ny tilgang til gen-valg baseret på en væsentlig ændring af analytiske hierarki proces (AHP). Den modificerede AHP systematisk integrerer resultater af individuelle filter metoder til at vælge de mest informative gener for microarray klassificering. Fem individuelle ranking metoder, herunder t-test, entropi, modtager opererer karakteristik (ROC) kurve, Wilcoxon og signal til støj-forholdet er ansat til at rangere gener. Disse klassificeret gener derefter betragtes som input til den ændrede AHP. Derudover er en metode, der bruger fuzzy standard additiv model (FSAM) til klassificering af kræft baseret på gener udvalgt af AHP også foreslået i dette papir. Traditionel FSAM læring er en hybrid proces, der omfatter ukontrollerede struktur læring og overvågede parameter tuning. Genetisk algoritme (GA) er inkorporeret i-mellem-overvåget og superviseret træning for at optimere antallet af fuzzy regler. Integrationen af ​​GA giver FSAM at håndtere høj-dimensional-low-prøve karakter microarray data og dermed øge effektiviteten af ​​klassificeringen. Eksperimenter udføres på talrige microarray datasæt. Resultaterne demonstrerer udførelsen dominans af AHP-baserede gen selektion mod de enkelte ranking metoder. Endvidere kombinationen af ​​AHP-FSAM viser en stor nøjagtighed i klassificering microarray data sammenlignet med forskellige konkurrerende klassificører. Den foreslåede fremgangsmåde er derfor nyttig til læger og klinikere som et beslutningsstøttesystem, der kan implementeres i den virkelige medicinsk praksis

Henvisning:. Nguyen T, Khosravi A, Creighton D, Nahavandi S (2015) Hierarkisk Gene Valg og Genetik Fuzzy System for Cancer Microarray data Klassifikation. PLoS ONE 10 (3): e0120364. doi: 10,1371 /journal.pone.0120364

Academic Redaktør: Enrique Hernandez-Lemus, National Institute of Genomic Medicine, MEXICO

Modtaget: 20. november 2014 Accepteret: 8. februar 2015; Udgivet: 30 Marts 2015

Copyright: © 2015 Nguyen et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

datatilgængelighed: To datasæt DLBCL og leukæmi kan downloades fra de 2 nedenstående links: https://old.biolab.si/datasets/DLBCL.tab~~number=plural https://old.biolab.si/datasets/leukemia.tab~~number=plural Elleve datasæt for den uafhængige validering af den foreslåede metode kan downloades fra følgende link:. https://linus.nci.nih.gov/~brb/DataArchive_New.html

Finansiering: Denne forskning er støttet af Forskningsrådet australske (Discovery Grant DP120102112) og Center for Intelligent Systems Research (CISR) ved Deakin University

konkurrerende interesser:.. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Et stort antal gener kan ikke eventuelt analyseres ved traditionelle metoder. Mikromatrice er en teknik, der gør det muligt for forskerne at analysere ekspressionen af ​​mange gener hurtigt. Mikromatrice indbefatter en proces, mærket mRNA fra et reagensglas spredes på mikroarrayet, der består af tusinder af pletter. Hvert DNA stedet, som repræsenterer et gen, indeholder flere identiske DNA-strenge. De mærkede mRNA molekyler bevæge sig rundt i microarray at finde og holde sig til deres perfekte kampe. Mængden af ​​mRNA bundet til hver plet på array’et angiver ekspressionsniveauet af de forskellige gener.

mikromatrice teknologi hjælper derfor forskere til at opdage de genetiske årsager til anomalier opstår i driften af ​​det menneskelige legeme. En DNA microarray tillader forskerne at identificere alle de forskelle i genekspression mellem to forskellige celletyper, f.eks mellem normale (raske) og syge (cancer) celler, i et enkelt eksperiment. Anvendelser af mikromatrice data til klassificering af sygdomme baseret på forskellige mønstre af genekspression spiller en central rolle i medicinsk forskning. Klassificering af microarray data er nødvendige for real klinisk praksis, især i diagnosticering af hjertesygdomme, infektionssygdomme og studiet af kræft. Denne opgave rejser en enorm udfordring for forskere i statistik og også beregningsmæssige intelligens grund af den høje-dimensionelle-low-prøve karakter microarray data.

Wu et al. [1] ansat en Laplace naiv Bayes model for klassificering microarray data. Metoden tager gruppe effekter i betragtning og er robust over for outliers, der almindeligvis ses i genekspression data på grund af enten kemiske eller elektriske årsager. Chopra et al. [2] ellers brugte gen par kombinationer som input til algoritmer de kræft klassificering snarere end originale genekspressionsprofiler.

Basford et al. [3] overvejet både overvåget og uovervåget klassifikation for microarray data. Den overvågede klassificeringen er at identificere klynger af væv på basis af generne, hvorimod ukontrollerede teknik omhandler gruppering af gener baseret på vævene. Alternativt er en beregningsmæssige protokol til forudsigelse genmarkører i kræft væv bruges til at analysere flere cancertyper i Xu et al. [4].

Yu et al. [5] foreslået en undersampling metode ved hjælp af tanken om myre koloni optimering at klassificere ubalancerede DNA microarray data. Giugno et al. [6] i en anden tilgang indført en microarray data klassificering metode ved hjælp forening regler. Forfatterne foreslog, at udskrift udtryk intervaller kompetent demonstrere diskriminere undertyper i samme klasse.

For nylig Reboiro-Jato et al. [7] konstrueret et webbaseret interaktivt værktøj til at vurdere diskriminerende klassificering ydeevne brugerdefinerede hypotese i form af biologisk beslægtede gensæt. Værktøjet er i stand til at give værdiansættelse oplysninger til diagnostisk analyse og beslutninger kliniske ledelse.

Selv om mange metoder er blevet foreslået til klassificering microarray data, de kan kun give nonintuitive klassificering resultater, som ikke er omfattende og gælder for klinikere i den virkelige praksis. skal forstås af menneskelige bruger værktøjer som sprogregler adfærd teknik klassificering. Heldigvis kan denne opgave opnås ved hjælp af fuzzy logik, der blev indført i 1960’erne. Anvendelse af fuzzy logik kan give klinikere med bedre forståelse af data og forklaringer på, hvordan diagnosticeret resultater er angivet. Desuden fuzzy logik tilbyder god evne til at håndtere støjende /manglende data, som er et fælles problem i microarray data [8-10].

Inspireret af ovennævnte omstændigheder, dette dokument foreslås en metode ved hjælp fuzzy standard additiv model (FSAM) for klassificering kræft microarray data. For at øge effektiviteten af ​​FSAM i forbindelse med high-dimensional-lav sample microarray data, genetiske algoritme (GA) er indarbejdet i FSAM læreproces at optimere FSAM reglen struktur.

Før du udfører genetiske FSAM for microarray dataklassificering skal en delmængde af de mest informative gener vælges blandt tusinder af gener. Vi foreslår heri en roman gen udvalg ved at ændre den traditionelle analytiske hierarki proces (AHP) [11], som derefter kan kvantitativt indsat for at integrere resultaterne af en række individuelle gen ranking metoder.

Gene udvælgelsesmetoder

Microarray data almindeligvis opsamlet med antallet af gener (ofte i tusinder) er meget større end antallet af prøver. Mange standardteknikker derfor finde upassende eller beregningsmæssigt umuligt i at analysere sådanne data. Faktum er, at ikke alle de tusindvis af gener er diskriminerende og nødvendige for klassificering. De fleste gener er ikke relevante og ikke påvirke klassificeringen ydeevne. Under sådanne gener hensyn forstørrer dimension af problemet, fører til beregningsmæssige byrde, og præsenterer unødig støj i praksis klassifikationen [9]. Det er således afgørende at vælge et mindre antal gener, kaldet informative gener, som kan være tilstrækkeligt for god klassifikation. Men den bedste delmængde af gener er ofte ukendt [12].

Fælles gen valg tilgange er filtrer og wrapper metoder. Filter metoder rang alle funktioner med hensyn til deres godhed ved hjælp forholdet af hver enkelt gen med etiketten klasse baseret på en univariat scoring metric. De højest rangerede gener er valgt før klassificering teknikker er indsat. I modsætning hertil wrapper metoder kræver genet udvælgelse teknik til at kombinere med en klassifikator til at evaluere klassificering ydeevne hvert gen delmængde. Den optimale delmængde af gener er identificeret baseret på placeringen af ​​ydeevne stammer fra implementering af klassificeringen på alle fundne delmængder. Proceduren Filteret er i stand til at måle forholdet mellem gener, mens wrapper tilgang kræver en stor beregningsmæssige udgift [13].

Kort litteraturgennemgang af gen udvælgelsesmetoder

Der har været en række gen udvælgelse teknikker i litteraturen for klassificering mikromatrice data. Liu på al. [14] blev der indført et ensemble gen udvælgelsesmetode baseret på den betingede gensidig information til kræft microarray klassificering. Flere gen delmængder tjener til at træne klassificører og udgange er kombineret med en afstemning tilgang.

Ligeledes Leung og Hung [15] indledte en multiple-filter-multiple-wrapper tilgang til gen-valg for at forbedre nøjagtigheden og robustheden af microarray data klassificering. Liu et al. [16] foreslog en anden metode, der kaldes ensemble gen udvælgelse af gruppering, at udlede flere gen delmængder. Metoden er baseret på kraft af information teori og omtrentlige Markov tæppe.

Bolon-Canedo et al. [17] i en anden tilgang undersøgt et gen udvælgelsesmetode omfatter et ensemble af filtre og klassificører. En stemme fremgangsmåde blev anvendt til at kombinere udgangene på klassificører, der hjælper reducere variabiliteten af ​​udvalgte funktioner i forskellige domæner klassificering.

På den anden side, Bicego et al. [18] foreslået en hybrid generative-diskriminerende tilgang med fortolkelige funktioner udvundet emne modeller for klassificering udtryk microarray data. Orsenigo og Vercellis [19] undersøgte lineære manifold læring teknikker til dimensionalitet reduktion for klassificering microarray data. Ligeledes Ramakrishnan og Neelakanta [20] undersøgte en informations-teoretikere inspireret entropi samtidig forekomst tilgang til funktionen udvælgelse for klassificering af DNA microarray data.

For nylig, Du et al. [21] foreslog en forreste gen udvælgelsesalgoritme til effektivt at vælge de mest informative gener fra microarray data. Algoritmen kombinerer augmented data teknik og L

2-norm straf til at beskæftige sig med de små prøver ‘problem og gruppeselektion evne henholdsvis.

I dette papir, for at øge robustheden og stabiliteten af ​​microarray data klassificører introducerer vi et nyt gen udvælgelsesmetode baseret på en ændring af AHP. Ideen bag denne tilgang er at samle eliten gener fra forskellige ranking gen udvælgelsesmetoder gennem en systematisk hierarki.

De næste underafsnit granske baggrund af fælles filter gen udvælgelsesmetoder, som følges af vores forslag.

Bemærk at følgende metoder gen udvælgelsen opnås ved rangordning gener via scoring målinger. De er statistiske tests baseret på to data prøver i binært problem klassifikationen. Eksempelbillederne midler betegnes som μ

1 og μ

2, mens σ

1 og σ

2 er de prøve standardafvigelser, og

n

1 og

n

2 er de stikprøvestørrelser.

to prøve t-test

de to-stikprøve t-test er en parametrisk hypotese test, der anvendes til at sammenligne om den gennemsnitlige forskel mellem to uafhængige data prøver er virkelig markant. Teststørrelsen er udtrykt ved: (1) Ved anvendelse af t-test for gen-valg, er testen udført på hvert gen ved at adskille ekspressionsniveauerne baseret på klasse variabel. Den absolutte værdi af

t

anvendes til at vurdere betydningen blandt gener. Jo højere den absolutte værdi, jo vigtigere er det gen.

entropi test

Relativ entropi, også kendt som Kullback-Liebler distance eller divergens er en test under forudsætning klasser er normalt fordelt. Det entropi score for hvert gen er beregnet ved hjælp af følgende udtryk: (2) Efter beregningen opnås for hvert gen, gener med den højeste entropi scoringer vil blive udvalgt til at tjene som input til teknikker klassificeringskriterierne

Receiver. drift karakteristik (ROC) kurve

Betegne distributions- funktioner

X

i de to befolkninger som

F

1 (

x

) og

F

2 (

x

) De hale funktioner er specificeret henholdsvis

T

i (

x

) = 1-

F

i

(

x

),

i

= 1,2.

ROC

er givet som følger: (3), og området mellem kurven og den rette linje (AUC) beregnes ved: (4) Jo større

AUC

, jo mindre er overlapningen af ​​klasserne. For gen valg ansøgning, gener med den største

AUC

vil således blive valgt.

Wilcoxon metoden

Wilcoxon rank sum test svarer til Mann-Whitney U-test , som er en test for ligestilling af befolkningens steder (medianer). Nulhypotesen er, at to populationer vedlægge identiske fordelingsfunktioner mens den alternative hypotese refererer til sagen to fordelinger er forskellige med hensyn til medianerne. Normaliteten antagelse om forskellene mellem de to prøver er ikke påkrævet. Derfor er denne test anvendes i stedet for de to prøve t-test i mange applikationer, når normalitet antagelse berørte

De vigtigste trin i Wilcoxon test [22] er sammenfattet nedenfor:.

Saml alle prøver af de to populationer og sortere dem i stigende rækkefølge.

Wilcoxon statistik beregnes ved summen af ​​alle rækker er forbundet med prøverne fra mindre gruppe.

beslutning hypotesen er foretaget på grundlag af p-værdien, som findes fra Wilcoxon rang sum fordeling bord.

i de anvendelser af Wilcoxon test for gen-valg, de absolutte værdier af de standardiserede Wilcoxon statistik er ansat til at rangere gener

Signal til støj-forhold (SNR)

SNR definerer den relative klasse adskillelse metrisk af: (5). hvor

c

er klassen vektor,

f

i

er

jeg

th trækvektor. Ved at behandle hvert gen som en funktion, vi omdanne SNR for funktionen udvælgelse til gen valg problem for klassificering microarray data.

SNR indebærer, at afstanden mellem hjælp af to klasser er et mål for separation. Desuden den lille standardafvigelse favoriserer adskillelsen mellem klasser. Afstanden mellem middelværdier er således normaliseret ved standardafvigelsen af ​​klasserne [23].

En roman gen udvalg af modificeret AHP

Hver af de ovennævnte kriterier kan anvendes til at udlede rangeringen af gener og derefter for at vælge størst ranking gener for metoder klassificering. Den tillid for at bruge en enkelt kriterium for valg af gener er ikke altid opnås. I betragtning af hvilke kriterier skal anvendes, er mistroisk. Dette spørgsmål inspirerer en idé om at tage hensyn til placeringen af ​​alle kriterier i evaluering gener. Gennem denne måde, ville elite gener af hvert kriterium systematisk samlet til de mest informative og stabile gen delmængder for klassificering. Det er en vanskelig praksis at kombinere ranking af alle kriterier, fordi de intervaller af statistikken over kriterier er forskellige. Kriteriet genererer en højere række statistikker vil dominere dem med et lavere interval. For at undgå dette problem, vi udnytter AHP evaluere gener. AHP implementering Den er almindeligt behandles kvalitative kriterier, hvor deres evalueringer er afledt fra eksperter. Ikke desto mindre er eksperter viden ofte begrænset, især når det problem, der løses udføres på en lang række kriterier refererer til forskellige viden områder. Dette går anvendelsen af ​​kvantitative kriterier i AHP. I det følgende gives en roman forslag vis-à-vis en rangordning procedure til at udnytte kvantitative kriterier til AHP for gen-valg problem. De kriterier, der anvendes heri er de fem teststørrelser dvs. t-test, entropi, ROC, Wilcoxon, SNR.

AHP metoden så bredt anvendt i komplekse multi-kriterier beslutningstagning udføres ofte med en træstruktur af kriterier og delkriterier [24]. På grund af arten af ​​de valgte her kriterier, træstrukturen har tre niveauer af hierarkier som illustreret i fig. 1.

Fem kriterier betragtes samtidigt under gennemførelsen AHP. De fem kriterier er alle kvantitative så vi intuitivt kan sætte konkrete tal på disse kriterier i elementer af den parvise ranking matrix. Dette ville dog forvride matrix i forhold til andre matricer der beskriver vurderinger og domme med hensyn til andre kriterier. Konventionelle anvendelser af hierarkisk analyse ofte trække på Saaty ratingskala [1, 9] og ru nøgletal, f.eks 1, 3, 5, 7, 9 til at bygge parvise sammenligning matricer [24, 25]. I denne forskning, foreslår vi skalaen [1, 10] for rangordning betydning eller betydningen af ​​et gen i forhold til andre gener. Denne skala vil blive anvendt på alle kriterier i AHP programmet.

Antag

X

= (

x

ij

) er

n

×

n

-dimension parvis dom matrix, hvor hvert element

x

ij

repræsenterer den relative betydning af gen

i

løbet gen

j

med hensyn til en bestemt kriterium,

n

er antallet af gener. Den gensidige karakteristik inducerer følgende begrænsninger (6) (7) Hvis gen

jeg

er absolut mere informativ end gen

j

, så har vi

x

ij = 10. Følgelig gen

j

skal være absolut mindre vigtig end gen

jeg

og

x

ji = 1/10. Hvor

x

ij = 1, betyder det, at to gener er lige informative. Jo højere værdien af ​​

x

ijε [1,10], jo vigtigere genet

jeg

er at sammenligne med gen

j

. Element

x

ij der er større end 1 kaldes en overlegen element. Ellers

x

ij kaldes en ringere element, da det er mindre end 1.

Lad os definere afstand

d

ij mellem to gener

jeg

og

j

med hensyn til en given kriterium (fx t-test, entropi, ROC, Wilcoxon eller SNR) af den absolutte værdi af den subtraktion mellem to statistikker

c

jeg

og

c

j

af to gener. Hotel (8)

Bemærk, at for alle kriterier, jo højere statistik, jo vigtigere genet er. Proceduren til at erhverve dele af sammenligning gensidige matricer er beskrevet nedenfor, hvor

c_max

er den maksimale afstand af gener vedrørende den givne kriterium,

c_max

=

max Hotel (

d

ij

), ∀

jeg

,

j

∈ [0,

n

], og

c

er en midlertidig variabel.

Ranking procedure.

fOR alle par af to gener

jeg

og

j

(9) IF (

c

jeg

c

j

) SÅ

x

ij

=

c

ELSE

x

ij

= 1 /

c

SLUT HVIS

SLUT FOR

de udtryk for x

ij sikre, at overlegne elementer i dommen matricer vil blive fordelt i intervallet [1, 10]. Bemærk, at via beregninger af den kvantitative ranking metoden er de overlegne nøgletal lov til at være reelle tal indenfor [1, 10], så de kan karakterisere mere stringent dommen betydning mod den oprindelige Saaty ratingskalaen. For eksempel overveje fire kvantitative kriterier A, B, C og D med respektive værdier 0,9, 1,3, 8,7 og 9,2. Ifølge Saaty ratingskala, er kriterier B og A (D og C) betragtes som “lige så vigtigt”, og forholdene

x

BA

x

DC

vil blive ligeligt tildelt 1:

x

BA

=

x

DC

= 1. det er klart, at forskellen mellem B og A (eller D og C), selv om små, er forsømt. Men med vores ranking metode, forholdene

x

BA

x

DC

tildeles mere præcist og anderledes 1,4337 =

x

BA

x

DC

= 1,5422. Ligeledes i Saaty ratingskala, er kriteriet C anses for absolut vigtigere end kriterium A og B, og forholdet

x

CA

x

CB

begge tildelt 9. i vores målestok, forholdet

x

CA

x

CB

vil blive tildelt forskelligt 9,4578 og 9,0241 hhv. Deraf “absolutte betydning” dom er afslappet og erstattes af strengere domme med forskellige reelle tal 9.4578 og 9,0241 i stedet for den samme ru nummer 9 for både

x

Californien

x

CB

.

Efter sammenligning matricer er konstrueret, hierarkisk analyse beregner egenvektorer, der viser ranking snesevis af gener. Beregninger af AHP er beskrevet kortfattet i tabel 1.

Mens anvendelsen af ​​AHP, er matricen skal være konsekvent og dermed dens elementer skal være transitive, der er

x

ik

=

x

ij

x

jk. For at verificere konsistensen af ​​sammenligningen matrix X, Saaty [25] foreslog beregning af Sammenhæng Index (CI) og derefter Sammenhæng Ratio (CR) baseret på store prøver af matricer af rent tilfældige domme. Lad

ε

= [

ε

1, …,

ε

n

]

T være en egenvektor og λ en egenværdi af pladsen matrix

X

, så: (10) (11) (12) CR bør ikke overstige 0,1, hvis det sæt af domme er konsistent selvom CR på mere end 0,1 (men ikke for meget mere ) nogle gange at blive accepteret i praksis. CR lig med 0 indebærer dommene er helt konsekvent.

Når beregninger for fem kriterier er afsluttet, får vi den såkaldte option ydeevne matrix bestående af fem egenvektorer, der har formen vist i tabel 2.

Endelig rækkefølgen af ​​gener er multiplikation af udførelsen matrix og vektoren repræsenterer vigtige vægt af hver kriterium. Vægten vektor kan opnås ved at evaluere vigtige niveau af hvert kriterium vedrørende målet under anvendelse af samme fremgangsmåde som beskrevet ovenfor. Men for at undgå en skævhed dom, mener vi, fem kriterier, der har en lige så vigtig plan vedrørende mål. Derefter vægten vektoren er (1/5; 1/5; 1/5; 1/5; 1/5)

T. Det er således tydeligt, at rækkefølgen af ​​gener er automatisk normaliseret, og det viser det vigtige niveau af hvert gen under hensyntagen til ikke blot en enkelt kriterium, men alle kriterier samtidig. Højest rangerende gener udvælges derefter for klassificering bagefter. I dette papir, at vidne udførelsen af ​​teknikker klassificering, er en bred vifte antal gener bestemt. Nærmere oplysninger om antallet af gener udvalgt præsenteres i det eksperimentelle afsnit.

Genetiske Fuzzy System for Microarray data Klassifikation

Fuzzy standard additiv model (FSAM)

FSAM systemet

F

:

R

n

→ R

s

består af

m

hvis-så fuzzy regler, der tilsammen kan ensartet omtrentlige kontinuerlig og afgrænset målbare funktioner i et kompakt domæne [26, 27]. Hvis dele fuzzy sæt

En

j

R

n

kan være nogen form for medlemskab funktioner. Ligeledes daværende del fuzzy sæt

B

j

R

s

kan være valgte vilkårligt fordi FSAM udnytter kun centroid

c

j

og volumen

V

j af

B

j

at beregne output

F Hotel (

x

) givet input vektor

x

εR

n.

(13)

Hver af de

m

fuzzy regler i ordet formularen

“Hvis X = En

j

Så Y = B

j

er repræsenteret ved en fuzzy regel plaster på formen a

j × B

j⊂R

n × R

s. FSAM derfor grafisk dækker grafen for den approximand

f

med

m

fuzzy regel patches. Hvis dele sæt

En

j

R

n

er kendetegnet ved det fælles sæt funktionen

en

j

:

R

n

[0, 1], at faktorer:. Så dele fuzzy sæt B

j⊂R

s er ligeledes modelleret af medlemskabet funktionen

b

j

:

R

s

[0, 1], der har volumen (eller område)

V

j og tyngdepunkt

c

j

. De konvekse vægte udtrykt af: (14) inducere FSAM output

F Hotel (

x

) som en konveks sum af daværende del sæt centroider. FSAM især eller fuzzy system i almindelighed kræver rækkefølgen af ​​

k

n + p-1 regler til at karakterisere funktionen

f

:

R

n

→ R

s

i en kompakt domæne.

Læring er en afgørende proces med FSAM at konstruere en vidensbase, der er en struktur af hvis-så fuzzy regler. Den FSAM læreproces omfatter konventionelt to grundlæggende trin: a) i vognen læring til at konstruere hvis-så fuzzy regler og b) overvåget læring for tuning regel parametre [28]

Den overvågede læring ofte starter fra et tilfældigt initialiseret sæt. parametre og slutter, når det opfylder de fastsatte stoppesteder kriterier. Som uddannelse proces koster meget tid og er ofte fanget i lokale minima, initialiseringen af ​​parametrene er således et nontrivial problem. Den ukontrollerede læreproces, som ofte udføres ved en klyngedannelse metode, f.eks fuzzy c-midler, er med til at initialisere parametre for fuzzy regler mere dygtigt (fig. 2).

mikroarraydata normalt forbinder med den høje-dimensionelle natur, der fører FSAM klassificering til en regel eksplosion-system står forbandelse dimensionalitet [29]. Med et stort antal regler, FSAM kræver et stort antal prøver til at træne systemet. Dette strider imidlertid med lav-prøve karakteristisk for genekspression microarray data. Det er derfor vigtigt at optimere den regel struktur for at øge effektiviteten af ​​læringsprocessen og generalisering evne FSAM.

I dette papir, foreslår vi brug af en evolutionær læreproces, dvs. GA, at optimere antallet af fuzzy regler, før den overvågede læring udføres. Den evolutionære læring komponent er udviklet til også at afhjælpe den beregningsmæssige omkostninger ved efterfølgende overvåget indlæring. Hele integration mellem GA og FSAM at formulere en genetisk fuzzy system, er illustreret i fig. 3. Oplysninger om hver enkelt lærer komponent er præsenteret i de følgende underafsnit.

Unsupervised læring ved fuzzy c-middel (FCM) klyngedannelse

FCM clustering metode [30] anvendes at initialisere parametre FSAM. Vi organiserer de tilsvarende input og output data i en unik observation af p + 1 dimensioner hvor

s

er antallet af indgange og en udgang, der svarer til den klasse, blive klassificeret. Betegne

x

i er

jeg

th organiseret observation (

jeg

= 1, …,

N

),

x

jeg præsenteres som følger: (15), hvor er den

j

th input af

jeg

th observation og

output

jeg

er produktionen af ​​

jeg

th observation. Ved klyngedannelse prøven af ​​

N

observationer har ovenstående format, er vi i stand til at udlede den

C

resulterer klynger svarer med

C

fuzzy regler FSAM. Når FCM clustering er afsluttet, bliver centre for de resulterende klynger tildelt centre i medlemskab funktioner (MFS). Centrene af outputtet af hver regel vil blive tildelt svarende til output værdi af den tilsvarende klynge. Bredden af ​​MFS for hver regel initialiseres baseret på standardafvigelsen af ​​data.

sinc

medlemskab funktion

synd

(

x

) /

x

anbefales som den bedste form for en fuzzy sæt i funktion tilnærmelse bruges til at konstruere hvis-så fuzzy regler [31].

j

th sinc sæt funktion (fig. 4) centreret på

m

j

og bredde d

j

0 er defineret som nedenfor: (16). Kørsel af FCM klyngedannelse et antal gange svarende til GA befolkningens størrelse, er vi i stand til at opnå de grundlæggende befolkning for GA, som er beskrevet i det følgende

Fuzzy regel struktur optimering af GA

en GA [32] er en uortodoks søgning eller optimering teknik drives på en befolkning på

n

kunstige individer. Enkeltpersoner er kendetegnet ved kromosomer (eller genomer)

S

k,

k = {

1,

,

n}

. Den kromosom er en streng af symboler, som kaldes gener, S

k = (S

k1

, …, S

kM

), og

M

er en streng længde. Enkeltpersoner evalueres via beregning af et fitnesscenter funktion. For at udvikle sig gennem successive generationer, udfører GA tre grundlæggende genetiske operatører:. Udvælgelse, crossover og mutation

Der anvendes en roulettehjulet valgmetode for at vælge de personer, der går på at producere en mellemliggende befolkning. Forældre er udvalgt på baggrund af deres egnethed. Kromosomer har flere chancer for at blive valgt, hvis de er bedre (har højere fitness) end de andre. Forestil dig alle kromosomer i populationen er placeret på en roulettehjulet, og hver har sin plads stor efter sin fitness funktion.

Hjulet drejes og valget punkt angiver, hvilken kromosom vælges, når hjulet er stoppet. Det er indlysende, at kromosomet med større kapacitet skal vælges flere gange (konkurrerende regel i evolutionsteorien).

crossover operatøren vælger tilfældige par fra den mellemliggende befolkning og udfører en-point crossover. Gener fra forældre kromosomer er udvalgt til at skabe nye afkom.

Endelig individer muteret og de danner den nye befolkning. De mutation forhindrer falder alle løsninger i befolkningen i en lokal optimal af problemet blive løst. Et par tilfældigt udvalgte bits skiftes fra 1 til 0 eller fra 0 til 1.

Gennem kromosomer ‘evolution, GA søger efter den bedste løsning (er) i betydningen den givne egnethedsfunktion. Vi beskæftiger GA til at træne den komplicerede FSAM omfattende mange parametre. Fitness-funktionen er designet med henblik på at reducere antallet af fuzzy regler og også for at mindske læring fejl på samme tid. Der foreslås følgende formel: (17) Hvor

m

er antallet af fuzzy regler,

n

er antallet af data prøver, og er fejlleddet defineres ved følgende ligning 🙁 18), hvor

y

jeg

er den reelle værdi og

F Hotel (

x

jeg

) er produktionen af ​​FSAM. Parametre for FSAM er kodet ind i gener af GA kromosomer /individer. 10; 10; 10;

Be the first to comment

Leave a Reply