PLoS ONE: Semi-Overvåget Projective ikke-negative Matrix Faktorisering for Cancer Klassifikation

Abstrakt

Fremskridt i DNA microarray teknologier har gjort genekspression profiler en betydelig kandidat identificere forskellige typer af kræft. Traditionelle læring-baserede metoder kræft identifikation anvender mærkede prøver at træne en klassificeringen, men de er ubekvemme for praktisk anvendelse, fordi etiketterne er ret dyrt i den kliniske kræftforskning samfund. I dette dokument foreslås en semi-overvåget Projektiv ikke-negativ matrix faktorisering metode (Semi-PNMF) for at lære en effektiv klassifikatør fra både mærkede og umærkede prøver, og dermed øge efterfølgende kræft klassificering ydeevne. Især Semi-PNMF lærer i fællesskab en ikke-negativ underrum fra sammenkædede mærkede og umærkede prøver og indikerer klasser ved positionerne af de maksimale registreringer deres koefficienter. Fordi Semi-PNMF inkorporerer statistiske oplysninger fra den store mængde af umærkede prøver i den lærde subspace, kan det lære flere repræsentative underrum og øge klassificering ydeevne. Vi udviklede en multiplikativ opdatering regel (MUR) for at optimere Semi-PNMF og bevist sin konvergens. De eksperimentelle resultater af klassificering kræft for to multiklassefonde kræft genekspression profil datasæt viser, at Semi-PNMF udkonkurrerer de repræsentative metoder

Henvisning:. Zhang X, Guan N, Jia Z, Qiu X, Luo Z (2015) Semi -Supervised Projektiv ikke-negative Matrix Faktorisering for Cancer Klassifikation. PLoS ONE 10 (9): e0138814. doi: 10,1371 /journal.pone.0138814

Redaktør: Ramin Homayouni, University of Memphis, UNITED STATES

Modtaget: Marts 4, 2015; Accepteret: 3. september 2015; Udgivet: 22 September, 2015

Copyright: © 2015 Zhang et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Alle relevante data er inden for papir og dens Støtte Information filer. Alle relevante data er tilgængelige på Zenodo repository, og adgangen URL er https://zenodo.org/record/21712

Finansiering:. Dette arbejde blev støttet af Undervisningsministeriet i Folkerepublikken Kina Grant Nummer 20134307110017 (www.moe.edu.cn), PI: Zhigang Luo og National Natural Science Foundation of China Grant Number 91.024.030 /G03 (https://www.nsfc.gov.cn/), PI:. Xiaogang Qiu

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

I kræft prognose og behandling, er det afgørende at identificere forskellige kræfttyper og undertyper. Traditionelle metoder ofte afhængige af lignende morfologiske optrædener men let fremkalde forskellige kliniske kurser og reaktioner på behandlingen på grund af subjektive fortolkninger og personlige erfaringer. Dette resulterer sædvanligvis i diagnostisk forvirring. Heldigvis, fremkomsten af ​​DNA microarray teknik fjerner denne barriere på en objektiv og systematisk måde, og har vist stort potentiale i resultatet forudsigelse af cancertyper i genom-dækkende skalaer [1-11].

Talrige læringsmetoder har blevet udviklet til klassificering cancer baseret på genekspressionsprofiler [1-3]. For eksempel Golub

et al.

[1] brugte et vægtet afstemningssystem ordning for molekylær klassifikation af akut leukæmi. Nguyen

et al.

[3] indarbejdet partielle mindste kvadrater (PLS) i den logistiske diskrimination og kvadratisk diskriminant analyse for tumor klassificering. Disse fremgangsmåder er imidlertid ikke praktisk for praktiske anvendelser, fordi de mærkede prøver er ganske dyre i den kliniske kræftforskning samfund. For at overvinde denne mangel, Xu

et al.

[12] anvendte semi-overvåget Ellipsoid ARTMAP (ssEAM) metode til klassificering af kræft. Shi

et al.

[13] udnyttet den semi-overvåget metode betegnes tæthed adskillelse lav (LDS, [14]) til at klassificere forskellige typer af kræft. Desuden Maulik

et al.

[15] undersøgte effektiviteten af ​​transductive SVM (TSVM, [16]) i klassificering kræft. Ikke desto mindre er disse algoritmiske udfordringer indebærer forbandelse dimensionalitet, hvilket indikerer, at det overvældende antal foranstaltninger for genekspression niveauer kontrast til det lille antal prøver.

Dette problem kræver ofte reduktion teknikker dimension. Dette papir fokuserer på ikke-negative matrix faktorisering (NMF, [17, 18]), fordi det er en fleksibel ramme for at gennemføre reduktion dimension og udførelse klassificering og klyngedannelse opgaver [19-26]. NMF dekomponerer en datamatrix i produktet af to ikke-negative faktorer. Grund af dens effektivitet, har NMF og dens varianter blevet påført analysere store genekspression datasæt [27-29], kræft klassificering [30, 31] og nye klasse opdagelse [30]. Brunet

et al.

[31] oprindeligt vedtaget NMF at afdække molekylære meta-mønstre ved clustering prøver af leukæmi, medulloblastom og tumorer i centralnervesystemet, og indikerer, at NMF overgår både hierarki klyngedannelse (HC) og selvorganiserende kort (SOM). Men NMF ikke udtrykkeligt garantere tyndt af nedbrydning og krænker det unikke ejendom. Nyere værker [32] viser, at det ofte forringer clustering ydeevne. For at løse dette problem, Li

et al.

[32] foreslået lokal NMF (LNMF) til at overvinde denne mangel ved at pålægge de sparsomme begrænsninger over nedbrydning. Hoyer

et al.

Foreslåede sparsomme NMF (SNMF, [33]) til at håndhæve tyndt i NMF ved at straffe antallet af ikke-nul registreringer koefficienterne snarere end summen af ​​posterne. Desuden Gao

et al.

[34] udnyttet SNMF at identificere de meta-mønstre af forskellige kræftformer til at identificere forskellige typer af tumorer.

Da de førnævnte metoder følger legalisering teori, er de i fællesskab ikke-konveks og er vanskelige at optimere. I modsætning til de ovennævnte fremgangsmåder, Yuan

et al.

[35] udviklet projektiv NMF (PNMF) for at inducere dele-baserede repræsentation ved implicit indførelse den retvinklede begrænsning over basis. Men fordi disse metoder er ukontrollerede læringsmetoder, der ikke tager hensyn til etiketter, deres præstationer i klassificering kræft kan forbedres yderligere. I dette papir, foreslår vi en semi-overvåget Projektiv NMF metode (Semi-PNMF), der udnytter både mærkede og umærkede prøver at øge klassificering ydeevne. Især Semi-PNMF lærer en ikke-negativ underrum fra sammenkædede mærkede og umærkede prøver og forudsiger klasser ved indekset for de største firmaer i deres koefficienter. Nyder godt af den umærkede data, kan Semi-PNMF lære flere repræsentative underrum, som er gavnlige for klassifikationsopgaver. Vi udforskede en multiplikativ opdatering regel (MUR) at løse Semi-PNMF og bevist sin konvergens. De eksperimentelle resultater af identifikation kræft for multiklassefonde kræft genekspressionsprofil datasæt herunder GCM [8] og akut leukæmi [36] datasæt viser, at Semi-PNMF udkonkurrerer de repræsentative metoder med hensyn til mængde.

Materialer og metoder

Semi-overvåget Projective ikke-negative matrix faktorisering

Projective ikke-negativ matrix faktorisering (PNMF) lærer en ikke-negativ projektion matrix til projekt high-dimensionelle data i den nederste-dimensionelle underrum. Fordi det kan lære dele-baserede repræsentation har PNMF været almindeligt anvendt i mønstergenkendelse [21, 26, 35, 37]. Her introducerer vi den anden repræsentation form af PNMF der lærer de lavere-dimensionelle koefficienter af prøver at tilnærme indikatoren klasse for klyngedannelse. Dette er baseret på den antagelse, at grundlaget ligger i underrummet udspændt af de oprindelige prøver. I betragtning af den data matrix

V

= [

v

1, ⋯,

v

n

]

T

R

n

×

m

, hvor

n

betegner antallet af prøver og

m

deres dimensionalitet, PNMF lærer koefficienterne

H

R

n

×

r

at repræsentere oprindelige prøver, dvs. (1), hvor ∥ • ∥

F

betegner matricen Frobenius normen og

r

antallet af klynger.

Som i mål (1), er det ikke-trivielt at analysere konvergens i teorien, fordi ligning (1) indeholder en fjerde ordens sigt. For at fjerne en så høj orden sigt vi først introducere en ekstra variabel, dvs. klyngen centroids, og den begrænsning lighed i ligning (1). Således kan vi få (2)

Målet er meget lig BPNMF [26], men vi kan ikke direkte anvende optimering algoritme BPNMF at optimere det, især når yderligere begrænsninger såsom tyndt tvang og Laplace lovliggørelse der pålægges over koefficienter, som disse begrænsninger nemt inducere PNMF at producere den trivielle løsning. For at undgå en sådan ulempe, foreslår vi en semi-overvåget PNMF metoden (Semi-PNMF) ved at omarbejde ligning (2) som (3) hvor

α

≥ 0 er en legalisering konstant og

W

betegner den ikke-negative klynge centroid. Model (3) adskiller sig væsentligt fra BPNMF fordi ligning (3) begunstiger repræsentative kapacitet i klynge centroids, mens BPNMF fokuserer på orthogonality af den ikke-negative underrum. Således ligning (3) inducerer de sparsomme koefficienter, mens BPNMF producerer den sparsomme basis.

Ifølge ligning (3), kan vi indarbejde lokalt koordinatsystem constraint [38] for at forbedre den repræsentative effekt af grundlaget, i mellemtiden yderligere fremkalde de sparsomme koefficienter til at være sande klasser. Således har vi omarbejdet ligning (3) som følgende regulering formular: (4), hvor

β

handler fra lokale koordinatsystem legalisering og

H

ij

betegner

jeg

-den række og

j

th kolonne element af koefficienter

H

,

W

j

og

V

jeg

, der betyder

jeg

th og

j

th rækken vektor af

W

og

V

henholdsvis.

for at gøre fuld brug af delvise mærkede prøver, vi udbreder etiketterne af mærkede prøver til umærkede dem ved at minimere afstanden mellem deres koefficienter og den tilsvarende klasse indikator. Især kræver vi koefficienterne af mærkede prøver at være ækvivalente med den tilsvarende klasse indikator. Betragt den første

eksempler d

mærket og resten umærket; data matrix

V

kan opdeles i to dele, dvs.,. Derefter kan vi opnå den objektive funktion af Semi-PNMF som følger: (5), hvor

Q

betegner den delvise label matrix, hvor

Q

ij

= 1, hvis

v

jeg

hører til

j

th klasse; ellers,

Q

ij

= 0. Både

H

U

n

U

betegne koefficienterne og antallet af de umærkede prøver, henholdsvis.

Interessant, Semi-PNMF har to forskellige aspekter. For det første erstatter de lærde koefficienter af de mærkede prøver med den tilsvarende klasse indikator. Den begrænsning er så stærk, at den lærde grundlag helt forspænder mærkede prøver. Dette kan inducere den trivielle løsning koefficienter for umærkede prøver. For det andet, Semi-PNMF fuldstændig ignorerer repræsentation bidrag af de mærkede prøver. Det er så uforståeligt, at den lærde grundlag alene favoriserer de umærkede prøver. Det viste sig, at begge aspekter modsiger hinanden, men uløseligt, de gensidigt supplerer hinanden i vores Semi-PNMF. I det væsentlige det første aspekt svarer til overvåget indlæring, som genererer den rimelige løsning endnu ikke sikrer den er i overensstemmelse med den underliggende fordeling af data, mens det andet mener data distribution, men kan ikke give den rimelige løsning. Således kan kombinationen af ​​begge aspekter gensidigt supplerer hinanden. Semi-PNMF lærer fælles grundlag af de mærkede og umærkede tilfælde, i mellemtiden inducere lignende tilfælde at have en lignende repræsentation, dvs. koefficienterne. Fordi vi pålægger den begrænsning, at koefficienterne af de mærkede prøver være deres etiketter samt det lokale koordinatsystem tvang over grundlaget og koefficienter, de umærkede prøve koefficienter er implicit så sparsomme som etiketten vektorer. På denne måde, Semi-PNMF effektivt forplanter etiketterne af mærkede prøver til umærkede dem. Derfor klassificering kræft, er det rimeligt, at der for hver umærket prøve, vi vælger indekset for den største tilgang af dens koefficient at forudsige klasserne af denne prøve, når mål (5) giver deres koefficienter. Ovenstående intuition kan yderligere verificeres af legetøjet eksempel givet i fig 1 og 2.

I figur (a), både firkantede og cirkel markører tilkendegiver de umærkede og mærkede prøver henholdsvis stå og tre forskellige farver for tre forskellige kategorier. Fig (b) viser, at de umærkede prøver markeret som jord-sandheden markører og farver. Figurerne (c) og (d) viser koefficienterne og grundlaget lært af Semi-PNMF hhv. Indekset af den maksimale værdi af koefficienten for en umærket prøve vises i rødt og angiver sin klasse.

Optimering Algoritme

Det er svært at optimere ligning (5), fordi det er fællesskab ikke-konveks med hensyn til både

W

H

. Heldigvis er det konveks med hensyn til

W

H

hhv. Således kan vi etablere følgende sætning:

Sætning 1: Målet funktion (5) er ikke-stigende under følgende multiplikative opdatering regler: (6), og (7), hvor ⊗ betegner elementet-wise produkt operatør,

F

U

=

diag

(

sum

(

H

U

)),

en

= [

en

, ⋯,

en

] hvor, og

b

= [

b

, ⋯,

b

], hvor

b

=

diag

(

WW

T

) .

Bevis. Ifølge ligning (5), kan vi opnå målsætningen med hensyn til

W

som følger: (8), hvor betegner den diagonal matrix, hvis diagonale elementer er

jeg

th rækkevektor værdier af

V

U

.

af ligning (8), vi kan definere den ekstra funktion af

J Hotel (

W

) som (9)

det er klart, objektiv (9) har (10)

Vi kan få den afledede af ligning (9) som følger: (11) Baseret på Eq ( 11), har vi (12)

Ved simpel algebra, kan formlen (6) udledes af ligning (12). Ligeledes kan vi opnå den ekstra funktion af

J Hotel (

H

U

) som følger: (13)

Indstilling, vi har (14)

ifølge ligning (14), vi også få opdateringen reglen (7) til

H

U

.

ifølge ligning (10), (12) og (14), har vi (15)

Baseret på ligning (15), disse ajourføre regler altid garantere, at den objektive funktion monotont aftager. Således fuldender denne beviset. ■

Ifølge ovenstående sætning, vi opsummere den multiplikative opdatering reglen (MUR) for Semi-PNMF i algoritme 1.

Algoritme en MUR til Semi-PNMF

Input Eksempler

V

R

m

×

n

, straf parameter

α

, delvis label matrix

Q

Output:.

H

U

1:. tilfældigt initialisere

W

0 og og

l

= 0.

2: gentag

3: Opdatering

W

l

1 i henhold til ligning (6)

4:. Beregn ifølge ligning (7)

5:.

l

l

. 1

6: indtil {Stop kriterium er opfyldt.}

7:.

for at reducere den tid, overhead, Algoritme 1 udnytter målet relative fejl som indstilling kriterium; desuden sat

ɛ

til 10

-7 i vores eksperimenter. Den vigtigste tid omkostninger ved algoritme 1 ligger på linje 3 og linje 4. Deres tid kompleksiteter er

O Hotel (

r

2

n

+

MRN

+

r

2

m

+

rm

) og

O Hotel (

mr

(

n

d

) +

r

2

m

+

rm

+

r

2+

r

2 (

n

d

)), hhv. Således er den samlede tid kompleksiteten af ​​Algoritme 1 er

O Hotel (

r

2

n

+

MRN

+

mr

(

n

d

) +

mrd

+

r

2

m

+

rm

+

r

2+

r

2 (

n

d

).)

Resultater

i dette afsnit udfører en række forsøg på begge syntetiske og den virkelige verden datasæt for at kontrollere foreslås i dette papir metode.

syntetisk dataset

dette afsnit genererer en lille syntetisk datasæt at klarlægge den mekanisme af Semi-PNMF. Den syntetiske datasæt består af tre kategorier konstrueret af følgende stikprøver: andwhere

x

R

3, og hver af den træder samples fra standard ensartet fordeling

U Hotel (0,1). For hver kategori, vi tilfældigt genereret 10 prøver, inden for hvilke tre prøver blev udvalgt som mærkede prøver og resten som uden mærkning dem. Derfor er den syntetiske datasæt indeholder 30 prøver i alt. For klar illustration, er tre kategorier markeret som tre forskellige farver, og de mærkede og umærkede prøver udmærker sig ved to figurer.

figur 1 (a) og 1 (b) viser jorden sandheden og deraf mærket resultater af de umærkede prøver ved Semi-PNMF henholdsvis mens figur 1 (c) og 1 (d) viser de lærde koefficienter af de umærkede prøver og basis. I fig 1 (d), hver række af den indlærte grundlag har forskellige farver, hvilket indebærer, at grundlaget står for centroiderne i forskellige kategorier og ejer diskriminerende repræsentation evne. Ifølge figur 1 (c), hver række af de indlærte koefficienter er lavere-dimensionelle koefficient af den tilsvarende umærkede prøve. Jo større optagelse af koefficienten er, jo mørkere farven er. Som vist i figur 1 (c), den maksimale optagelse af koefficienten langt overstiger de andre indgange. Alle maksimale indgange gør koefficienterne tage op diagonal form, og indebærer de klynge medlemskaber af alle prøverne. Således er det rimeligt at vælge indekset for den maksimale indgang af koefficienten som klasserne af en umærket prøve. Dette bekræfter vores tidligere intuition. Da alle prøver deler fælles grundlag, deres koefficienter bliver tæt på hinanden, hvis de har de samme mærker. Pålægges restriktionen, at koefficienterne af mærkede prøver svare til deres label vektorer, og dermed dette inducerer også koefficienterne af den umærkede at være tæt på deres label vektorer. På denne måde kan Semi-PNMF udbrede etiketterne på de mærkede prøver til de umærkede dem. Proceduren for formering er illustreret i figur 2.

GCM Dataset

Dette eksperiment blot sammenligner traditionelle semi-overvåget læringsmetoder, herunder adskillelse lav densitet (LDS, [14]), transductive SVM (TSVM, [16]), hæmmet NMF (CNMF, [24]), soft-begrænset NMF (SCNMF, [25]) og Semi-PNMF ved at adskille forskellige typer af kræft på GCM datasæt. Den GCM datasættet [8] indeholder udtrykket profiler af 218 tumor prøver, der repræsenterer 14 almindelige humane cancer klasser. Den er tilgængelig på offentlige websted: https://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi, og kan også downloades fra hjemmesiden: https://zenodo.org/record/21712. Ifølge [8], kombinerer vi den træning og test sæt af dette gen udtryk data i et datasæt for klassificering kræft. Således den kombinerede datasæt indeholder 198 prøver med 16,063 gener. Tabel 1 giver en kort beskrivelse af dette datasæt. For at fjerne meget lav støjende værdier og mætning effekter af meget høje værdier, bundet vi genekspression data i en bestemt kasse tvang spænder fra 20 til 16.000 enheder, og da udelukke de pågældende gener, hvis nøgletal og absolutte variationer på tværs af prøver er under 5 og 500, henholdsvis . Følgelig den resulterende ekspressionsprofil datasæt indeholder 11,370 gener passerer. Vi sammenligner effektiviteten af ​​Semi-PNMF med LDS, TSVM, CNMF og SCNMF under varierende konfigurationer. Både CNMF og SCNMF indebærer ingen parameter tuning. For Semi-PNMF, vi indstille to parametre

α

= 2, og

β

= 0,0001 hhv. Fordi disse repræsentative metoder gør det muligt konvergens inden 1500 iterationsrunder, satte vi det maksimale antal loops til 1500. For SDH og TSVM, vi vedtager parameterindstillinger, der er fastsat i kildekoden for at få klassifikationsselskaberne resultater.

Vi vurderer kræft klassificering af cross-validering over hele datasæt. Denne proces vælger en prøve som umærket prøve og i mellemtiden lærer forudsigelse model på alle prøverne for kræft diagnose. For den umærkede prøve, vælger vi indekset for den største værdi af den resulterende konsensus matrix til at forudsige klasser af denne prøve. Som vist i figurerne 3 til 7, er forvirringen matrix af de forudsagte resultater af Semi-PNMF, CNMF, SCNMF, SDH og TSVM rapporteret i detaljer. Hver søjle angiver, hvor mange de umærkede prøver tildelt hver kræft, mens hver række betyder antallet af de umærkede prøver tilknyttet den virkelige tumortype. Hver farve repræsenterer ikke kun en bestemt kræftform, men fremhæver også de korrekte forudsigelse resultater, dvs de diagonale elementer i den forvirring matrix.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på GCM datasæt.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på GCM datasæt.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på GCM datasæt.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på GCM datasæt.

Matrix afgrænser fordelingen af ​​faktiske sammenlignet med forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på GCM datasæt.

fig 3 til 7 indebærer, at Semi-PNMF kan identificere forskellige tumortyper mere præcist end de repræsentative metoder. For eksempel, når man arbejder med to mærkede prøver fra hver tumortype, Semi-PNMF opnår 70,71% klassificering nøjagtighed og overstiger LDS, TSVM, SCNMF, og CNMF med 10,6%, 21,72%, 21,72%, og 32,3%, hhv. Desuden tabel 2 indebærer yderligere effektiviteten af ​​Semi-PNMF sammenlignet med CNMF, SCNMF, TSVM, og LDS både sensitivitet og specificitet. For fuldstændighedens skyld er en liste over deres definitioner som følger: (16) og (17), hvor

TP

,

TN

,

FP

, og

FN

betegne antallet af sande positive, sande negative, falsk positive og falsk negative prøver, henholdsvis.

antallet af mærkede eksempler er en vigtig faktor, der påvirker udførelsen af ​​semi-overvåget læringsmetoder. Derfor er det meget nødvendigt at observere klassificering nøjagtighed Semi-PNMF under forskellige numre (1-6) af mærkede prøver i hver klasse. Her vælger vi tilfældigt forskellige antal eksempler fra hver klasse, som mærkede eksempler og betragter resten som umærket. For rimelig sammenligning, vi selvstændigt gennemføre 100 individuelle eksperiment stier for at fjerne effekten af ​​tilfældighed.

Fig 8 sammenligner gennemsnitlige nøjagtighed CNMF, SCNMF, TSVM, LDS, og Semi-PNMF under forskellige antal mærkede prøver til hver klasse. Den viser også, at Semi-PNMF opnår den højeste nøjagtighed og tager på en stigende tendens med stigningen i antallet af mærkede prøver.

Akut leukæmi Dataset

Vi udfører også en kræft klassificering eksperiment for at kontrollere klassificeringen ydeevne Semi-PNMF sammenlignet med lav densitet separation (LDS, [14]), transductive SVM (TSVM, [16]), hæmmet NMF (CNMF, [24]), og soft-begrænset NMF ( SCNMF, [25]) på en anden populær datasæt, dvs. akut leukæmi datasættet [36]. Denne datasæt stammer fra Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE13159), og kan også downloades fra hjemmesiden: https: //zenodo. org /optage /21.712. Vi erstatter de utilgængelige registreringer dette datasæt med de gennemsnitlige værdier af deres

k

-nearest nabo elementer. Dette datasæt består af 2.096 prøver sammen med 54.675 prober i alt. Dette datasæt indeholder forskellige cancer undertyper af akut leukæmi og er således ikke egnet til klassificering cancer i modsætning til GCM datasæt. Tabel 3 giver en kort beskrivelse af dette datasæt. Så vi fodrer dette datasæt til alle de sammenlignede metoder.

For Semi-PNMF, vi indstille to parametre

α

= 0,2, og

β

= 0.01 . For de traditionelle semi-overvåget læringsmetoder, vi vedtager de samme konfigurationer som ovenstående underafsnit. Den krydsvalidering proces af ovenstående underafsnit gentagne gange udført for at evaluere de sammenlignede metoder på dette datasæt. Som vist i figur 9 til 13, er den forvirring matrix af de forudsagte resultater af Semi-PNMF, CNMF, SCNMF, SDH og TSVM rapporteret i detaljer. Hver søjle angiver, hvor mange umærkede prøver tildelt hver kræft undertype, mens hver række betyder antallet af umærkede prøver tilknyttet den virkelige tumor undertype. Hver farve ikke kun repræsenterer en bestemt cancer undertype, men fremhæver også de korrekte forudsigelse resultater, dvs de diagonale elementer i den forvirring matrix.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på Akut leukæmi datasæt.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på Akut leukæmi datasættet.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på Akut leukæmi datasættet.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på Akut leukæmi datasættet.

Matrix afgrænser fordelingen af ​​faktiske forhold forudsagt klasse medlemskab for multiklassefonde kræft forudsigelse på Akut leukæmi datasættet.

fig 9 til 13 indebærer, at Semi-PNMF kan identificere forskellige tumortyper mere præcist end de repræsentative metoder. Semi-PNMF opnår den højeste samlede klassificering nøjagtighed i forhold til CNMF, SCNMF, TSVM og LDS i form af de forudsigelse resultater i forvirringen matrix. Endvidere giver tabel 4 viser også, at Semi-PNMF konsekvent bedre resultater end de sammenlignede metoder på atten cancer undertyper både følsomhed og specificitet. Sammenfattende tyder disse resultater effektiviteten af ​​Semi-PNMF klassificering kræft.

Antallet af de mærkede prøver er en vigtig faktor, der påvirker udførelsen af ​​semi-overvågede læringsmetoder. Derfor er det meget nødvendigt at observere klassificering nøjagtighed Semi-PNMF under forskellige numre (1-6) af mærkede prøver i hver klasse. Her vælger vi tilfældigt forskellige antal eksempler fra hver klasse, som mærkede eksempler og betragter resten som umærket. Så vi selvstændigt gennemføre 10 individuelle eksperiment stier for at fjerne effekten af ​​tilfældighed.

Fig 14 sammenligner gennemsnitlige nøjagtighed CNMF, SCNMF, TSVM, LDS, og Semi-PNMF under forskellige antal mærkede prøver for hver klasse . Den viser også, at Semi-PNMF opnår den højeste nøjagtighed og har en stigende tendens med stigningen i antallet af mærkede prøver.

Diskussion

I dette dokument foreslås det semi-overvåget PNMF metode (Semi-PNMF), som inkorporerer to typer begrænsninger samt den ekstra grundlag for at øge PNMF. Især Semi-PNMF udnytter den lineære kombination af eksempler at tilnærme klynge centroids således at klynge centroids har mere kraftfuld repræsentativ evne. For effektivt at angive klasser af umærkede prøver, Semi-PNMF håndhæver koefficienterne af mærkede prøver at nærme deres etiketter, i mellemtiden repræsenterer de umærkede prøver ved hjælp af den samme klynge geometriske tyngdepunkt. For at optimere Semi-PNMF, vi udtænkt den multiplikative opdatering reglen (MUR) at etablere konvergens garanti. Eksperimenter af klassificering kræft på to virkelige verden datasæt viser, at Semi-PNMF udkonkurrerer de repræsentative metoder med hensyn til mængde.

For nylig Bayesianske metoder, der inkorporerer både sparsity og et stort antal af kovariater i modellen har været udførligt bruges til parameterestimering og klassificering i datasæt sammenlignet med små stikprøvestørrelser såsom genekspression data [39-41]. De forbedrer også model nøjagtighed ved at indføre en lille skævhed i modellen [40]. I fremtidige værker, kan vi låne fra berettigelsen af ​​Bayesianske metoder til yderligere at forbedre klassificeringen ydeevne Semi-PNMF for en storstilet datasæt. Semi-PNMF har skabt en fleksibel ramme for at lære metoder i behandlingen af ​​kræft data og kan bruges i andre programmer såsom kræft tilbagefald [42, 43].

Be the first to comment

Leave a Reply