PLoS ONE: Forbedret Klassifikation af lungekræft Brug Radial Basis Function Neural Network med Affine transformationer af Voss Repræsentation

Abstrakte

Lungekræft er en af ​​de sygdomme, der er ansvarlige for en lang række kræftrelaterede dødsfald tilfælde på verdensplan. Den anbefalede standard for screening og tidlig påvisning af lungekræft er den lave dosis computertomografi. Men mange patienter diagnosticeret dør inden for et år, hvilket gør det nødvendigt at finde alternative metoder til screening og tidlig påvisning af lungekræft. Vi præsenterer beregningsmetoder, der kan implementeres i en funktionel multi-genomisk system til klassificering, screening og tidlig opsporing af ofre lungekræft. Prøver af top ti biomarkør gener tidligere er rapporteret at have den højeste hyppighed af lungekræft mutationer og sekvenser af normale biomarkør generne blev indsamlet fra de kosmiske og NCBI databaser for at validere de beregningsmetoder. Eksperimenter blev udført på grundlag af de kombinationer af Z-kurve og tetraeder affine transformationer, at histogram af Oriented Gradient (HOG), Multilayer perceptron og Gaussisk Radial Basis Function (RBF) neurale netværk opnå en passende kombination af beregningsmæssige metoder til at opnå en bedre klassifikation af lunge cancer biomarkør gener. Resultaterne viser, at en kombination af affine transformationer af Voss repræsentation, HOG genomiske funktioner og Gaussisk RBF neurale netværk mærkbart forbedrer klassificering nøjagtighed, specificitet og sensitivitet af lungekræft biomarkør gener samt opnå lav gennemsnitlig firkantet fejl

Henvisning.: Adetiba E, Olugbara OO (2015) Forbedret Klassificering af lungekræft Brug Radial Basis Function Neural Network med Affine transformationer af Voss repræsentation. PLoS ONE 10 (12): e0143542. doi: 10,1371 /journal.pone.0143542

Redaktør: Xia Li, Harbin Medical University, KINA

Modtaget: August 17, 2015; Accepteret: 5. november 2015; Udgivet: December 1, 2015

Copyright: © 2015 Adetiba, Olugbara. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Til denne undersøgelse den Katalog over somatiske mutationer i cancer (COSMIC) er en database med somatiske mutationer i human cancer, at forfatterne brugt. Top ti gener med den højeste frekvens af mutationer i lungen har følgende symboler: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 og SMARCA4. Disse symboler blev opnået fra (HGNC) database HUGO Gene Nomenklaturudvalget

Finansiering:.. Finansieret af Durban University of Technology Research og Postgraduate Support Direktoratet

Konkurrerende interesser: Forfatterne har erklæret, at der ikke findes konkurrerende interesser.

Introduktion

Lungekræft er en ondartet svulst i vævet af menneskelige lunger, der fortsat er en af ​​de mest førende årsager til kræftrelaterede dødsfald tilfælde på verdensplan [1]. Lav dosis computertomografi (CT) er den anbefalede standard for screening og tidlig påvisning af lungekræft [2]. Imidlertid er overlevelsesraten for lungekræft er meget lav, og mere end halvdelen af ​​patienter diagnosticeret med sygdommen dør inden for et år [3]. Lungekræft udvikler på grund af en vedvarende genetisk skade på normale lungeceller med kræftfremkaldende stoffer fra cigaretrøg og andre kilder. Mere end 50 retrospektive studier af rygning og lungekræft blev rapporteret til at demonstrere en slående fremgang i risikoen for lungekræft for rygere eller passive rygere sammenlignet med ikke-rygere [4]. Faktisk har nyere undersøgelser [5,6] attesteret til at ryge som ubestrideligt en af ​​de førende årsager til lungekræft, selvom omkring 10% af lungekræft tilfælde tilskrives de kræftfremkaldende virkninger af radon gas, arsen, nikkel, asbest, krom og genetisk modtagelighed. Afbrænding af tobak i cigaret resultater i kemiske processer såsom pyrolyse, oxidation, hydrogenering, decarboxylering og dehydrering af bestanddelene. Derfor er over 3000 kemikalier produceret, hvoraf kræftfremkaldende ansvarlig for kræft indfases i de partikler og damp faser. De kræftfremkaldende stoffer i partikelfasen omfatter benzo (a) pyren, dibenz (a) anthracen, 5-methylchrysene, benzofluoranthenes, nikotin, N-nitrosonornicotene, catechol, nikkel, cadmium og polonium. Tilsvarende de kræftfremkaldende stoffer i dampfasen er hydrazin, vinylchlorid, urethan, formaldehyd, nitrogenoxider og nitrosodiethylamme. Disse farveskalaer af kemikalier er enten kræft initiativtagere, komplet kræftfremkaldende stoffer, tumor promotorer eller co-carcinogener. Derfor er de kemisk aktivere onkogener og deaktivere tumorsuppressorgener i den normale lunge celle til frembringelse af mutationer, der resulterer i tumorer [7,8].

Tilgængeligheden af ​​enorme mængder af lungekræft mutation data har gjort behandling af sygdommen hurtigt fremrykkende ud over de traditionelle metoder såsom kirurgi, strålebehandling og kemoterapi. For en moderne behandling af sygdommen, at sorter af narkotika fremme “personlig medicin” er blevet udviklet til at målrette de forskellige genetiske mutationer i retning af at stoppe kræft vækst, før det bliver avanceret og metastatisk. Disse lægemidler har vist sig at være yderst effektiv med færre bivirkninger sammenlignet med de traditionelle kemoterapier. Eksempler på målrettede behandlinger, der er godkendt til lungekræft behandling omfatter gefitinib, erlotinib, bevacizumab, sorafenib og 28-amino-syre-peptid (P28). Disse terapier målrette mutationer i EGFR og TP53 [9-11]. Men behovet for at udvikle genomisk baserede beregningsmetoder til klassificering, screening og tidlig påvisning af lungekræft er meget afgørende. Dette skyldes den anbefalede lavdosis CT er et billeddannende baseret teknologi, som ikke kan anvendes til mutationsdetektering [2,4,7,11]. Automatisk genomisk baserede klassificering, screening og tidlig påvisning af lungekræft vil gå langs vejen til at hjælpe med at anbefale ofre for kendte genetiske mutationer i lungen til at drage fordel af de tilgængelige målrettede behandlinger eller deltage i kliniske forsøg for nye lægemidler.

i [12], DNA methylering markører og neurale netværk blev rapporteret som potentielt levedygtige værktøjer til automatisk klassificering af lungekræft i småcellet lungecancer (SCLC) og ikke-småcellet lungekræft (NSCLC). Markey et al. [13] udviklet en klassifikation og regression Tree (CART) trænet med 26 funktioner til at klassificere 41 kliniske prøver som sygdom eller ikke-sygdom. De funktioner blev beregnet fra massespektroskopi af blod serumprøver fra lungekræft og ikke-kræft emner ved hjælp af masse-til-ladningsforhold og tophøjden for proteiner. Ramani og Jacob [14] udviklet en beregningsmetode ved hjælp strukturelle og fysisk-kemiske egenskaber af protein-sekvenser. De brugte Bayesian netværk i deres metode til at klassificere lungekræft tumorer i SCLC, NSCLC og FÆLLES klasser. Guan et al. [15] udnyttet Support Vector Machine (SVM), før biologisk viden og forudsigelse Analyse for Microarray (PAM) til at klassificere adenocarcinom lungekræft. Ovennævnte undersøgelser er nødvendige skridt i den rigtige retning, men optrevling de mutationelle indholdet af lungetumorer er ikke blevet fuldstændigt behandlet i litteraturen. Dette indebærer, at løfterne om de målrettede behandlinger til omgående arrestere mutationer i lungerne kan være undvigende i mangel af relevante metoder til screening og tidlig påvisning af lungekræft mutationer. Forskere har foreslået, at der ofte muterede biomarkør gener kan udnyttes ved at designe kits til screening og tidlig påvisning af lungekræft [16]. I tråd med dette forslag, blev en lungekræft forudsigelse metode udviklet i [17]. Metoden blev valideret med datasæt af EGFR, KRAS og TP53, som er de tre øverste ofte muterede biomarkør gener til at forudsige mutationer i lungekræft [16]. Ensemble og ikke-ensemble varianter af flerlags-perceptron (MLP) neurale netværk og SVM blev sammenlignet med forudsige seks klasser af biomarkør gener og den bedste forudsigelse nøjagtighed på 95,90% blev opnået ved anvendelse af MLP neurale netværk ensemble [17].

den første overordnede mål med denne undersøgelse er at udvide den genomiske dækning af metoden beskrevet i [17] til fjorten klasser af top ti ofte muterede lunge kræft biomarkør gener. Det blev understreget i litteraturen, at udførelsen af ​​algoritmer klassificering kan blive påvirket for et stort antal klasser [18]. Det andet formål med denne undersøgelse er at finde et sæt af affine invariante genomiske funktioner til forbedret klassificering af lungekræft biomarkør gener trods det højere antal klasser. Denne særlige mål blev nået ved at udforske Z-kurve og tetraeder affine transformationer af Voss repræsentation samt histogram af Oriented Gradient (HOG). Z-kurve og tetraeder affine transformationer anvendes som nukleotider transformationsmetoder, fordi de reelt generere dimensionelt reduceret repræsentation af Voss transformation med mindre beregningsmæssige omkostninger [19,20]. Endvidere er de affine transformerede nukleotider er analoge med farve billedsignaler, hvilket gør det nemt at bruge HOG fremgangsmåden billedbehandling domæne til at udtrække et sæt af genomiske funktioner til forbedret klassificering af lungekræft biomarkør gener. Det tredje mål med denne undersøgelse er at opnå en passende kombination af beregningsmetoder til forbedret klassificering af lungekræft biomarkør gener. Kombinationer af affine transformationer af Voss repræsentation, HOG metode, MLP neurale netværk og Gaussisk Radial Basis Function (RBF) neurale netværk vi eksperimentelt undersøgt for at nå dette mål.

Materialer og Metoder

Data Set

Normal (ikke-muteret) nukleotidsekvenser af ti forskellige biomarkør gener blev opnået fra National center for Bioteknologisk Information (NCBI) database. Grunden til at vælge NCBI er, at det er en af ​​de mest anvendte databaser i Collaborative Consensus kodende sekvens (CCDS) konsortium. De andre CCD’er databaser er Ensembl Genome Browser, University of California Santa Cruz Genome Browser og Wellcome Trust Sanger Institute (WTSI) Genom Browser. De CCD’er databaser giver nem adgang til den samme reference-dna-sekvens for enhver biomarkør gen, uanset forskellene i de data og metoder, der anvendes til sekventering. Den CCDS konsortium spor af høj kvalitet identiske protein anmærkninger på henvisningen mus og menneskelige genomer med en stabil identifikationsnummer opkaldt CCDS ID. Stabiliteten af ​​CCDS ID er, fordi konsortiet konstant gør indsats for at sikre, at de eksisterende CCDS konsekvent opdateret af enhver samarbejder medlem [21]. Symbolet, beskrivelse, CCDS id og antal nukleotider af top ti lunge kræft biomarkør gener anvendt til denne undersøgelse er vist i tabel 1.

mutation data for denne undersøgelse blev erhvervet fra kataloget af somatiske Mutationer i cancer (COSMIC) database, og de består af de ti biomarkør gener i lungekræft. Den COSMIC database udviklet og hostet af WTSI indeholder tilfælde af curated og arkiverede somatiske mutationer i de centrale kræft biomarkør gener på tværs af mange kræft prøver [22]. De ti biomarkør gener i COSMIC database med den højeste hyppighed af mutationer i lungen som på det tidspunkt, denne undersøgelse blev udført har symboler TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 og SMARCA4 [23 ]. Symbolerne blev opnået fra databasen HUGO Gene Nomenclature Committee (HGNC) og de fleste af disse biomarkør gener blev specifikt rapporteret som hyppigt muterede biomarkør gener i lungekræft [24-29]. I alt udvundet vi prøver af 10784 lungekræft mutationer og datasættet anvendes til vores eksperimenter indeholder fjorten forskellige klasser, som er

Normal

,

EGFR sletning

,

EGFR Udskiftning

,

KRAS Udskiftning

,

TP53 sletning

,

TP53 Udskiftning

,

NF1 Udskiftning

,

KMT2C Udskiftning

,

CDKN2A Udskiftning

,

STK11 sletning

,

STK11 Udskiftning

,

KMT2D Udskiftning

,

ZNF521 Udskiftning

SMARCA4 Udskiftning

.

de overordnede statistik over kurateret og unikke prøver af normale og mutationer data er vist i tabel 2. deletionsmutation data for biomarkør gener som KRAS, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 og SMARCA i COSMIC database er enten ikke-eksisterende eller meget få, som informeret vores beslutning om at udelukke dem fra vores data prøver.

Omdannelse Genomisk nukleotider i Color Images of

genet som en grundlæggende enhed af arvelighed består af en specifik sekvens af deoxyribonukleinsyre (DNA) eller ribonukleinsyre (RNA). En DNA er en polymer, der består af små molekyler kaldet nukleotider, som kan skelnes ved fire baser. Disse baser er adenin (A) = C

5H

5 N

5, cytosin (C) = C

4H

5 N

3 O, guanin (G) = C

5H

5 N

5O og thymin (T) = C

5H

6 N

2O

2. Følgelig kan en DNA være angivet fuldstændigt ved en sekvens bestående af de fire alfabeter {A, C, G, T}. Det første afgørende skridt i behandlingen af ​​en DNA-sekvens kræver sin konvertering fra en perlerække af alfabeter i den numeriske ækvivalent [30-32]. Numerisk karakterisering af DNA-sekvenser kan hjælpe med contriving passende genomiske træk, der indfanger essensen af ​​basen sammensætning og fordeling på en kvantitativ måde. Det kan hjælpe i DNA-sekvensen identifikation og sammenligning at påvise omfanget af genetiske lighed eller ulighed. Basen sammensætning tilvejebringer det totale indhold af hver base i en DNA-sekvens og kan let bestemmes. Men basen distribution, som er vanskeligere at bestemme er mere informativ og det giver en bedre diskrimination blandt forskellige gener, selv om de basesammensætning numrene identiske [31]. Følgelig kan både basesammensætning og distribution af en DNA-sekvens undersøges for at numerisk karakterisere genomiske sekvenser.

Den særlige numerisk kodning anvendte metode, afgør, hvor godt basesammensætningen og distribution af en DNA-sekvens indfanges. Der er rapporteret om mange numeriske kodning metoder i litteraturen med hver har sine styrker og svagheder [33]. Voss transformation er en af ​​de mest almindeligt anvendte metoder til numerisk kodning af nukleotider [34,35]. Det er en effektiv spektral detektor af basen distribution og periodiciteten [33] og det repræsenterer DNA-sekvenser med fire binære indikator sekvenser som: (1), hvor 1 betegner tilstedeværelsen af ​​basen B, i position n, 0 betegner dens fravær ved denne placering og N er længden af ​​DNA-sekvens er kodet. Imidlertid er Voss repræsentation stærkt overflødige [33]. kan bruges Nogle andre eksisterende metoder såsom Z-kurve og Tetrahedron affine transformationer til at løse redundans i Voss repræsentation [36]. Z-kurve og Tetrahedron repræsentationer reducerer den beregningsmæssige omkostninger i de senere behandling stadier af DNA-sekvenser.

transformation Z-kurve blev udviklet til at kode DNA-sekvenser med flere biologiske semantik [37]. Det bruger en egnet geometrisk repræsentation for at reducere antallet af Voss repræsentationer fra fire til tre i en kompakt måde, der er symmetrisk til alle fire baser. Z-kurve indeholder al den information, der bæres af de tilsvarende DNA-sekvenser og derfor kan analysen af ​​en DNA-sekvens udføres ved at studere den tilsvarende Z-kurven [20]. De 3-dimensionelle Z-kurve vektorer udtrykkes som [20,36] 🙁 2)

tetraeder transformation ligner transformation Z-kurve, hvor de fire nukleotidbaser omdannes til 3-dimensionale vektorer dette punkt fra midten af ​​en tetraeder til sine knudepunkter. Disse 3-dimensionelle vektorer er defineret som [36-37] 🙁 3) hvor

r

,

g

og

b

i indeks af vektorerne er røde, grønne og blå indikatorer. Faktisk har tetraeder transformation blevet omtalt i litteraturen som “rgb” transformation af en DNA-sekvens [33].

For effektivt at behandle de rgb vektorer (EQS 2 og 3) for at opnå den tilsvarende RGB-billeder, et passende antal vinduer, der svarer til billedet højde (H), en passende vinduesstørrelse, der svarer til billedet bredde (W) og overlapningen er valgt at definere tre HXW dimensionelle matricer. I denne undersøgelse blev antallet af vinduer bestemt baseret på DNA-sekvensen længde (N) ved biomarkør genet. Vinduets størrelse på 200 og et overlap på 50 nucleotider blev anvendt [38,39]. Matrixerne blev normaliseret inden for området fra 0-255 at skildre hver af dem som et gråskalabillede. Disse tre gråtonebilleder gengives som et farvebillede i RGB-farverum.

Mønster Klassificering og Feature Extraction

Opgaven med klassificering mønster, der skal udføres af et mønster sorterer væsentlige indebærer katalogisering af rådata i ønskede klasser baseret på de iboende mønstre i dataene. klassifikation Automatisk mønster er nøjagtigt udført i forskellige anvendelsesområder arbejdssikkerhed [40]. Kompleksiteten af ​​et mønster klassifikatør stærkt afhængig af dimensionen af ​​trækvektor og antallet af træningsdata prøver. En kompakt eller lav dimensional funktion repræsentation, der bevarer de beskrivende originalens indhold datasæt er meget ønskeligt til effektiv krav hukommelse, fremskynde behandlingstid og minimering beregningsmæssige kompleksitet af et mønster klassifikator. Nogle af de eksisterende træk og dimensionalitetsreduktion metoder i statistik er Factor Analysis (FA), Uafhængig Component Analysis (ICA) og Principal Component Analysis (PCA).

I signal og billedbehandling domæne, flere andre metoder har blevet udviklet til at udvinde repræsentative for en original datasæt, der resulterer i reduktion dimension. Disse metoder omfatter Vector Quantization (VQ), Scale Invariant Feature Transform (finkæmme), fremskyndet robuste funktioner (SURF), Principal Component Analysis SIFT (PCA-SIFT), Lokale Binære mønstre (LBP) og Histogram af Oriented Gradient (HOG) [ ,,,0],41-44]. Den HOG er især beskrevet i litteraturen som en stærk form, udseende og tekstur ekstraktion metode [43-45]. Vi har valgt HOG fremgangsmåde til anvendelse i denne undersøgelse på grund af sin attraktive egenskaber såsom bedre invarians til belysning. Desuden har en tidligere undersøgelse vist, at HOG metoden udkonkurrerede LBP fremgangsmåde til ekstraktion af kompakte genomiske funktioner [17]. I den oprindelige gennemførelse af HOG metode blev en 3×3 blok af celler og 9 spande anvendt til at generere en trækvektor af 81 elementer fra et gråskalabillede og testet til at være ideel til fodgængere påvisning [44]. Men på grund af de lave dimensioner af nogle genomiske billeder, vi anvendte mindste dimensioner 2×2 blok af celler og 9 spande til at generere en kompakt HOG genomisk trækvektor af 36 elementer fra et gråskalabillede. Gråtonebilledet blev opnået fra et farvebillede af DNA-sekvens ved hjælp af Matlab. De udvindes HOG genomiske funktioner blev efterfølgende tilføres en mønster klassifikatør at klassificere lungekræft biomarkør gener.

I denne undersøgelse to rivaliserende state-of-the-art mønster klassificører udforsket til klassificering af lungekræft biomarkør gener er det flerlags-perceptron (MLP) neurale netværk og Radial Basis Function (RBF) neuralt netværk. De er meget udbredt til at løse problemerne med klassificering mønster og funktion tilnærmelse [46-58]. Men mønsteret klassificører har iboende styrker og svagheder på grund af deres særlige egenskaber. MLP neurale netværk har kapacitet til at implicit opdage komplekse ikke-lineære sammenhænge mellem uafhængige og afhængige variable. De kræver dog større beregningsmæssige ressourcer og er tilbøjelige til problemet med overfitting. På den anden side, RBF neurale netværk har en stærk fordel at være enkel at designe, de har en god generalisering kapacitet, de udfører robust og er tolerante over input støj [59]. Alligevel kan de ikke klare sig bedre end MLP neurale netværk i alle forhold. Udførelsen af ​​hvert mønster klassifikator vil naturligvis afhænge af arten af ​​det problem, der behandles. MLP neurale netværk kan give en mere monteret output til at krydse validering datasæt end RBF neurale netværk, men RBF neurale netværk kræver færre forsøg og fejl end MLP neurale netværk. Desuden kan hvert mønster klassificeringen udføre forskelligt for forskellige tilnærmelse funktioner. Da den underliggende funktion, der tilnærmer vores eksperimentelle data var ukendt på forhånd, vi fandt det klogt at eksperimentere med de to mønster klassificører til at opdage den, der fungerer godt for opgaven klassificeringen i denne undersøgelse.

forsøgsmodeller og Performance Evaluation

Fire forsøgsmodeller blev behandlet i denne undersøgelse for at opdage et sæt affine invariante genomiske funktioner og til at bestemme en passende kombination af beregningsmetoder til forbedret klassificering af lungekræft biomarkør gener. Fig 1 viser udformningen af ​​en generisk arkitektur for de fire eksperimentelle modeller. De eksperimentelle modeller blev gennemført ved hjælp af MATLAB R2012a programmering miljø. Baseret på de eksperimentelle modeller, blev udført eksperimenter på en computer, der indeholder en Intel Core i5-3210M CPU, der opererer på 2.50GHz hastighed, 6.00GB RAM, 500 GB harddisk og kører 64-bit Windows 8 operativsystem. I alle de fire forsøgsmodeller blev datasættet opdelt i 70% uddannelse, 15% afprøvning og 15% validering. I den første eksperimentelle model blev repræsentation Z-kurve anvendes til at opnå et farvebillede fra Voss repræsentation, blev HOG metode anvendes til at frembringe et genomisk trækvektor af 36 elementer fra farvebilledet og MLP neurale netværk blev anvendt til at klassificere funktionen vektor. I den anden eksperimentel model, blev tetraeder repræsentation anvendes i stedet for repræsentationen Z-kurve anvendes i den første eksperimentelle model. Følgelig ændrer kodningsmetode fra Z-kurve til tetraeder er forskellen mellem den første og den anden forsøgsmodeller. I den tredje eksperimentelle model blev repræsentation Z-kurve anvendes til at opnå et farvebillede fra Voss repræsentation, blev HOG metode anvendes til at frembringe et genomisk trækvektor af 36 elementer fra farvebilledet og Gaussisk RBF neurale netværk blev anvendt til at klassificere trækvektor. Den fjerde eksperimentel model er designet til at bruge tetraeder repræsentation i stedet for Z-kurve repræsentation, som er den eneste forskel mellem denne fjerde eksperimentel model og den tredje eksperimentelle model.

De konfigurationer af MLP neurale net til den første og den anden eksperimentelle modeller er de samme. Der er 36 neuroner i indgangslaget fordi HOG genomiske trækvektor har 36 elementer. Udgangen lag af MLP neurale netværk indeholder 14 neuroner, fordi der er 14 klasser i det genomiske datasæt. Det er blevet foreslået, at flere skjulte lag med et højt antal neuroner normalt føre til færre lokale minimumsværdier [60]. Derfor blev to skjulte lag betragtning, og den neurale netværk blev testet med 100, 200, 300, 400 og 500 neuroner til eksperimentelt bestemme det passende antal af neuroner for hver af de skjulte lag. MLP neurale netværk anvender en lineær aktiveringsfunktion i input lag til at transmittere de nøjagtige funktioner uden omdannelse. Den hyperbolske tangens funktion blev brugt i de neuroner i det skjulte og output lag til fuldt ud at drage fordel af deres ikke-linearitet og differentiabilitet egenskaber. Disse egenskaber er vigtige kvaliteter for optimal ydeevne af MLP neurale netværk [60]. Desuden blev MLP neurale netværk er konfigureret med 500 uddannelse epoker, læring på 0,1, maksimal træningstid af 120sec, minimum ydeevne gradient på 1e-6, validering kontrol af 500 og performance mål om 0.

konfigurationer af Gaussisk RBF neurale netværk i tredje og fjerde eksperimentelle modeller er den samme. Gauss RBF neurale netværk blev konfigureret til at have MSE modstanderen 0, fordelt på 0,1, 36 neuroner i inputlaget og 14 neuroner i output-laget. Disse konfigurationer er baseret på antallet af elementer i hver trækvektor og antallet af biomarkør genklasser i datasættet. Men en Gaussisk RBF neurale netværk indeholder normalt et skjult lag og tilføjer automatisk neuroner til det skjulte lag, indtil det møder den angivne gennemsnitlige kvadrerede fejl for mål. Uddannelsen af ​​Gauss RBF neurale netværk blev stoppet, når antallet af skjulte lag neuroner nået det maksimale standardværdien på 534, hvilket er det antal forekomster i sættet træning data.

Fire forskellige effektivitetsmålinger almindeligt anvendt i litteraturen at vurdere resultaterne af et mønster klassifikatør blev brugt til kvantitativt vurdere opførelser af MLP og Gaussisk RBF neurale netværk mønster klassificører. Disse effektivitetsmålinger er nøjagtigheden, Mean Square Error (MSE), specificitet og sensitivitet. Nøjagtigheden af ​​et mønster klassificeringen kan beregnes fra den forvirring matrix som procentdelen af ​​korrekt klassificerede enheder. Dette svarer til summen af ​​diagonale elementer af usikkerhedsmatrixen divideret med det samlede antal elementer i klasserne. MSE er middelværdien af ​​kvadratet på forskellen mellem den forventede produktion og den faktiske produktion af et mønster klassificeringen. Sandsynligheden for, at et mønster klassifikator korrekt klassificerer en ikke-positiv instans, som negativ kaldes specificitet eller sand negativ Rate (TNR). Sandsynligheden for, at et mønster klassificeringen etiketter forekomster af målet klassen korrekt kaldes følsomhed eller Ægte Positiv Rate (TPR). Modtageren Driftsegenskaber (ROC) er plottet følsomhed mod 1-specificitet til grafisk illustrere sammenhængen mellem sensitivitet og specificitet af et mønster klassificeringen [60-62].

Eksperimentelle resultater

sammenlignende resultater af Z-kurve og Tetrahedron transformationer først præsenteres at efterprøve, om indslag apparater opnået med hensyn til de to affine transformationer er invariant. Fig 2 og 3 viser henholdsvis kraftspektret plots af Z-kurve og Tetrahedron repræsentationer af DNA-sekvenser af biomarkør gener i tabel 1. Hver tilsvarende spektrum form opnået ved anvendelse af Z-kurve repræsentation (fig 2) kan ses at være meget lig den, der opnås ved hjælp af tetraeder repræsentation (figur 3). Dette resultat giver en indikation af en stærk lighed mellem de Z-kurve og Tetrahedron repræsentationer. De Z-kurve spektrale former af biomarkør gener er entydigt forskellige fra hinanden (figur 2), og der ses den samme tendens tværs formerne af biomarkør generne opnået under anvendelse af tetraeder repræsentation (Fig 3). Det kan observeres fra de to tal, at de spektrale figurer af TP53 biomarkør gen har tætte spektrale detaljer med spektrale kuverter med høje amplituder. Omvendt de spektrale figurer af EGFR biomarkør genet i de to tal indeholder tætte spektrale oplysninger om lave amplituder med to toppe af høje amplituder på K = 1200 og K = 2400. De spektrale former KRAS biomarkør genet i begge figurer har tynde spektral detaljer, der afslutter før K = 600 uden at vise nogen iøjnefaldende spike. De spektrale figurer af KMT2C biomarkør genet har flade spektrale detaljer med høj amplitude pigge på K = 5000 og K = 10000 i begge figurer. Svarende til de spektrale former af KRAS biomarkør genet, de spektrale former af CDKN2A biomarkør genet i begge figurer har tynde spektrale detaljer, der terminerer før K = 500 i modsætning til de spektrale former af KRAS biomarkør gen, terminerer efter K = 500. Den spektrale figurer af NF1, STK11, KMT2D, ZNF621 og SMARCA4 biomarkør gener har alle to toppe af forskellige amplituder ved forskellige værdier af K, der er en indikation af det unikke i disse biomarkør gener.

Desuden opnåede farvebilleder ved hjælp af Z-kurve og Tetrahedron repræsentationer af alle biomarkør gener i tabel 1 er henholdsvis vist i figur 4 og 5. det er tydeligt iagttages gennem den subjektive besigtigelse kontrolleres, at teksturer af de tilsvarende billeder af biomarkør gener opnået ved hjælp af de to affine transformationer er ens. Desuden kan det ses, at billederne af TP53, KRAS, CDKN2A og STK11 biomarkør gener har tunge teksturer og indeholder iøjnefaldende sorte eller grønne pletter på det nederste højre hjørne af billederne. De teksturer af billeder af EGFR, ZNF521 og SMARCA4 i begge tal er grove med kun billedet af SMARCA4 have meget lille sort eller grøn plaster i nederste højre hjørne. Men billederne af KMT2C, NF1 og KMT2D biomarkør gener har, bløde teksturer. Selvom teksturer af de tilsvarende billeder er ens på tværs af hver biomarkør gen, deres farver er forskellige.

En objektiv vurdering af kvantitativ analyse billedet teksturer blev udført for at supplere resultaterne af subjektiv vurdering af billeddata teksturer af biomarkør generne (fig 4 og 5). Ved at gøre dette, har vi beregnet de Haralick anden ordens statistiske værdi af kontrast og homogenitet [63]. Høje kontrastværdier forventes normalt til tunge teksturer og lave værdier for bløde stoffer. Homogenitet værdier er den inverse af kontrastværdierne og jo højere kontrast, jo lavere homogenitet og vice versal. De Haralick opnået for hver af de farvede billeder af de ti biomarkør generne opnået under anvendelse af Z-kurve og Tetrahedron repræsentationer er vist i tabel 3. Det fremgår af tabellen, at kontrasten værdierne af Z-kurve transformerede farvebilleder rang på en lignende måde som de i Tetrahedron forvandlet farvebilleder (værdi i beslaget betegner rang af en biomarkør-gen). For Z-kurve forvandlet farvebilleder, KRAS biomarkør gen indtager førstepladsen med den højeste kontrast værdi på 13099, mens KMT2D biomarkør gen rangerer sidste med en kontrast værdi på 6358. I mellemtiden, for tetraederet forvandlet farvebilleder, den CDKN2A biomarkør genet indtager førstepladsen med den højeste kontrast værdi på 13495, mens KMT2D biomarkør gen rangerer sidste med en kontrast værdi på 6392.

homogeniteten værdier af Z-kurve transformerede farvebilleder også rang på en lignende måde som for tetraeder transformeret farvebilleder. For Z-kurve forvandlet farvebilleder, KRAS biomarkør gen indtager førstepladsen med en homogenitet værdi på 0,0342, mens KMT2D biomarkør gen rangerer sidste med en homogenitet værdi på 0,0445. Men for tetraederet forvandlet farvebilleder, den TP53 biomarkør gen indtager førstepladsen med en homogenitet værdi på 0,0339, mens KMT2D biomarkør gen sidste rangerer med en homogenitet værdi på 0,0448.

Be the first to comment

Leave a Reply