PLoS ONE: Bestemmelse af Minimum Training Sample Size for Microarray-Based Cancer Outcome Prediction-An Empirical Assessment

Abstrakt

Løftet om microarray teknologi i at yde forudsigelse klassificører for kræft udfald estimering er blevet bekræftet af en række påviselige succeser. Men pålideligheden af ​​forudsigelse resultater er stærkt afhængig af nøjagtigheden af ​​statistiske parametre, der er involveret i klassificører. Det kan ikke pålideligt med kun et lille antal uddannelse prøver. Derfor er det af afgørende betydning at bestemme den minimale antal uddannelsesdage prøver og for at sikre den kliniske værdi af mikroarrays i kræft udfald forudsigelse. Vi evaluerede effekten af ​​uddannelse stikprøvestørrelse på model præstationer udførligt baseret på 3 store kræft microarray datasæt, som den anden fase af microarray Quality Control projektet (MAQC-II). En SSNR-baserede (omfanget af signal-støj-forhold) protokol blev foreslået i denne undersøgelse for minimum uddannelse stikprøvestørrelse beslutsomhed. Ekstern validering resultater baseret på en anden 3 kræft datasæt bekræftede, at SSNR tilgang ikke alene kunne bestemme det minimale antal uddannelse prøver effektivt, men også en værdifuld strategi til at estimere den underliggende ydeevne klassificører på forhånd. Når oversat til klinisk rutine applikationer, ville SSNR-baseret protokol giver stor bekvemmelighed i microarray-baserede kræft resultat forudsigelse forbedre klassificeringen pålidelighed

Henvisning:. Shao L, Fan X, Cheng N, Wu L, Cheng Y (2013) Bestemmelse af Minimum Training Sample Size for Microarray-Based Cancer Outcome Prediction-An Empirical Assessment. PLoS ONE 8 (7): e68579. doi: 10,1371 /journal.pone.0068579

Redaktør: Cynthia GIBAS, UNCC, USA

Modtaget: September 24, 2012; Accepteret: 31. maj 2013; Udgivet: 5 jul 2013

Copyright: © 2013 Shao et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Finansiering:. Dette arbejde blev støttet af National Science Foundation of China (30830121, 81173465) og Zhejiang Provincial Natural Science Foundation of China (R2080693) .De finansieringskilderne havde ingen rolle i studie design, indsamling og analyse af data, beslutning om at offentliggøre, eller forberedelse af manuskript .

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

Nylige fremskridt i genekspression microarray teknologi har åbnet nye muligheder for bedre behandling af forskellige sygdomme [1], [2], [3]. Et årti med intensiv forskning på udviklingslandene forudsigelse klassificører har givet en række påviselige succeser, især evnen til at forudsige forskellige potentielle reaktioner på en terapi [4]. For eksempel, det hjalp med behandlingsvalg at forlænge overlevelsen tid og forbedre livskvaliteten for kræftpatienter. Den billigelse af MammaPrint ™ af US Food and Drug Administration (FDA) til klinisk brystkræft prognose [5] illustrerede løftet om microarray teknologi lette medicinsk behandling i fremtiden.

For nylig Microarray Quality Control Project II (MAQC II) undersøgelse [6] bekræftede endnu en gang, at microarray-baserede forudsigelse modeller kan bruges til at forudsige kliniske endpoints hvis konstrueret og udnyttet ordentligt. Men pålideligheden af ​​forudsigelse resultater lid nøjagtigheden af ​​statistiske parametre, der er involveret i microarray klassificører, som ikke kan skønnes pålideligt fra et lille antal uddannelse prøver. Derfor ville det hjælpe ved at indsamle så mange kliniske prøver som muligt. Ikke desto mindre, i betragtning af, at relativt sjældne prøver kliniske væv kan bruges til transkriptionel profilering, er det en udfordring at estimere et passende antal uddannelse prøver nok til at opnå betydelige statistisk styrke.

Flere metoder er blevet foreslået til prøve størrelse beslutsomhed, såsom indstilling reglen [7], magt analyse algoritme [8], den parametriske blanding modellering kombineret med, sekventiel fremgangsmåde parametrisk bootstrapping [9] klassifikation baseret på martingale centrale grænseværdisætning [10], den parametriske sandsynlighed model – metode [11], Monte Carlo kombineret med tilnærmelse tilgange [12], og den algoritme baseret på vægtet montering af læringskurver [13] osv de fleste af de ovennævnte studier var eksplorative karakter, og fokuserede på forholdet mellem stikprøvestørrelse, meningsfuld forskel i den gennemsnitlige, og magt. Det er temmelig muligt for disse metoder til at producere enten en undervurderet eller overvurderet stikprøvestørrelse, hvis der blev anvendt en bestemt varians og meningsfuld forskel i den gennemsnitlige [14]. Desuden er de statistiske modeller og /eller indekser anvendes i ovennævnte metoder er ganske vanskeligt at gennemføre i reelle applikationer, og kun kunne gennemføres, når nok træning prøverne er indsamlet. Dobbin et al. foreslået en stikprøve beregningsmetode baseret på standardiserede fold ændring, prævalens klasse og antallet af gener eller funktioner på arrays [15]. Selv om en sådan metode er ganske enkel i forhold til tidligere metoder, er det kun tilpasset til at løse efterfølgende bestemmelse af, om prøven størrelse er tilstrækkelig til at udvikle en klassificeringen. Derved et par spørgsmål der skal løses, før en enkel og effektiv metode til prøvestørrelse estimering kunne udvikles.

Tidligt i 2005, Van Niel et al. har påpeget, at det nødvendige antal uddannelse prøver bør bestemmes ved at overveje kompleksiteten af ​​problemet forskelsbehandlingen [16]. Standardiseret fold forandring og forekomsten klasse foreslået af Dobbin et al. er også til en vis grad korreleret til kompleksitet klassificering [15]. Popovici et al. yderligere demonstreret, at udførelsen af ​​en genomisk prædiktor bestemmes i vid udstrækning af et samspil mellem stikprøve og klassificering kompleksitet [17]. Sammenfattende finde ud af forholdet mellem stikprøve størrelse, model ydeevne, og klassifikation kompleksitet er til stor hjælp i udviklingen af ​​en brugervenlig stikprøvestørrelse planlægning protokol.

Tre store microarray datasæt med i alt 10 endpoints forudsat i MAQC-II [6] blev udførligt evalueret for sammenhængen mellem uddannelse stikprøvestørrelse og udførelsen af ​​konstruerede forudsigelse klassificører i denne undersøgelse. Det blev konstateret, at den minimale træning stikprøvestørrelse kunne estimeres ud fra iboende forudsigelighed endpoints, og vi foreslog en SSNR-baserede trinvis estimering protokol. Eksterne valideringsresultater bruger yderligere tre store datasæt bekræftede evnen til denne protokol. I forhold til tidligere metoder, protokollen foreslået i denne undersøgelse har sine fordele i følgende tre aspekter: For det første, er det lettere at gennemføre og meget mere effektiv for kliniske anvendelser; for det andet, er mindre før krævede oplysninger, og dermed eksperimenterende omkostninger kunne være bedre kontrolleret; Endelig det guider den eksperimentelle design, ud over den efterfølgende estimering af uddannelse stikprøvestørrelse.

Materialer og metoder

datasæt

Seks store kræft datasæt har blevet indsamlet i denne undersøgelse til uddannelse stikprøvestørrelse estimering og eksterne validering. Tabel 1 illustrerede et kort resumé af de indsamlede datasæt, herunder oplysninger om stikprøvestørrelsen og prøve fordeling

Tre datasæt med 10 kliniske endpoints -. Brystkræft (BR), myelomatose (MM), neuroblastom (NB), forudsat i MAQC-II [6] blev udvalgt og anvendt i denne undersøgelse for at evaluere effekten af ​​træning stikprøvestørrelse på model ydeevne. For brystkræft, endepunkter BR-erpos og BR-PCR repræsenterer østrogen receptor status og succes for behandling med kemoterapi efterfulgt af kirurgisk resektion af en tumor, hhv. For myelomatose, MM-EFS og MM-OS repræsenterer begivenhed overlevelse og samlet overlevelse efter 730 dage efter behandling af diagnose, mens NB-EFS og NB-OS repræsenterer den samme betydning efter 900 dage efter behandling eller diagnose. Desuden effektmål NB-PC og MM-PC, NB-NC og MM-NC var også inkluderet i denne undersøgelse som positive og negative kontroller, hhv. Den NB-PC og MM-pc blev afledt fra NB og MM datasæt med endepunkterne angivet ved køn, mens endepunkter for NB-NC og MM-NC blev genereret tilfældigt.

Yderligere tre datasæt, herunder en ikke -hodgkin lymfom (NHL) [18] datasæt og to brystcancerceller datasæt (BR2 [19] og BR3 [20]), der anvendes i tidligere offentliggjorte prognostisk modelstudier, blev anvendt i denne undersøgelse for ekstern validering formål. NHL er relateret til overlevelsen af ​​non-Hodgkins lymfom [18] patienter, mens BR2 og BR3 er relateret til østrogenreceptoren status (BR2-erpos) [19] og 5-års metastase overlevelse (BR3-EFS) [ ,,,0],20] af brystkræftpatienter.

for at simulere virkelige verden klinisk anvendelse af genomiske studier, to uafhængige populationer af patienter for hver datasæt skabt af den MAQC konsortium eller af de oprindelige forskere fastholdes i denne undersøgelse, da uddannelse og validering sæt. I tilfælde af BR2-erpos og Br3-EFS, der var ingen oplysninger for prøve opdelingen. Således blev tildelt alle prøver i uddannelse og validering sætter tilfældigt i denne undersøgelse. Mere detaljeret information om de datasæt kan findes i de vigtigste papir MAQC-II [6] og dens tilsvarende originale papirer.

Statistisk analyse

Detaljerede oplysninger om undersøgelsens design blev illustreret i figur 1, yderligere oplysninger om model byggeri procedure findes i Methods S1. Et datasæt med en bestemt stikprøve blev først hentet fra den oprindelige uddannelse indstillet som nye uddannelse prøver. Efter model konstruktion fra de hentede uddannelse prøver under anvendelse en 5 gange krydsvalidering, den opnåede

bedste klassifikator

var påført derpå at forudsige den oprindelige validering sæt. For at sikre statistisk styrke blev en sådan procedure gentages 100 gange, hvilket resulterer i 100 forskellige sæt forudsigelser. Det gennemsnitlige forudsigelse Resultatet blev derefter brugt som en indikation af model ydeevne svarende til denne specifikke stikprøvestørrelse. Antallet af uddannelse prøver betragtes i denne undersøgelse spænder fra 20 med et trin på 20. Tre udbredte machine learning algoritmer, herunder

NCentroid

(Nærmeste-Centroid),

KNN Hotel (

k

-nearest naboer,

k

= 3) og

SVM

(Support Vector Machine) blev udvalgt i denne undersøgelse for at evaluere effekten af ​​træning stikprøvestørrelse.

Work flow for at vurdere virkningen af ​​forskellige antal uddannelse prøver.

Baseret på de 100-run resultater, udviklingen i model ydeevne (målt ved Matthews korrelationskoefficient (MCC) [21] versus . trinvis forøgelse af uddannelse prøvestørrelse illustreres ved knurhår plot (5-95% percentil) den Matthews Korrelationskoefficient (MCC) er defineret som: (1) hvor er antallet af sande positive, er antallet af sande negativer, er det antal falske positiver og er antallet af falske negativer. MCC varierer mellem -1 og +1 med 0 svarende til tilfældig forudsigelse.

Baseret på 100-run MCC-værdier, vi endvidere foreslået en ligning til ca. estimat den potentielle værdi af stigende stikprøvestørrelse, som mener både den relative forbedring af model ydeevne og omkostningerne ved at øge stikprøvestørrelsen. (2)

Her og repræsentere MCC-værdi fås fra

jeg

th og

(i-1)

th stikprøvestørrelse, mens er antallet af uddannelse prøver på

(i-1)

th trin (

i = 2, …, n

). værdi meget mindre end 1 blev anvendt i dette studie for at hjælpe med at bestemme nær-optimale klassificeringen. Med andre ord blev værdi kombineret med middelværdien og variansen af ​​MCC-værdier endelig bruges til at bestemme nær-optimale træning stikprøvestørrelse.

Scale af Signal-støj Ratio (SSNR)

Antag microarray datasæt

X

1 Hotel (

n

1

prøver og

s

gener) og

X

2 Hotel (

n

2

prøver og

p

gener) blev profileret fra prøver i klasse 1 og klasse 2. Signal-støj-forholdet for den

i

th gen (,

i = 1,2, …, p

) afspejler forskellen mellem klasserne i forhold til standardafvigelserne (SD) inden for de klasser, og kunne præsenteres som følger [22] 🙁 3)

Her og betegne de midler og SDS i loggen over ekspressionsniveauerne af

jeg

th (

i = 1,2, …, s

) gen i klasse 1 og klasse 2. er ikke begrænset til [-1, 1], med store værdier af indikerer en stærk korrelation mellem genekspression og klassen sondring. Tegnet af at være positive og negative svarer til

jeg

th gen bliver mere stærkt udtrykt i klasse 1 eller klasse 2. SSNR er den numeriske omfang for alle gener (

i = 1,2, … , s

), der repræsenterer den numeriske forskel mellem den største positiv-og de mindste negativ-SNR værdier. Antages der repræsenterer vektorer for SNR-værdier for alle gener i et datasæt, kunne SSNR defineres således: (4)

Resultater

Minimum Træning Sample Size Varierer fra Endpoint Forudsigelighed

Figur 2 viste udviklingen i model præstationer versus trinvis forøgelse af uddannelse stikprøvestørrelse for 10 endpoints ved hjælp af

NCentroid

, med tilsvarende værdier vist i tabel S1. To konklusioner kan drages fra undersøgelsen. For det første, uddannelse stikprøvestørrelse udøvede tilsyneladende effekt på model ydeevne for alle endpoints, undtagen for negative kontroller. For det andet, det nødvendige antal uddannelse prøver minimum varierer med kompleksiteten af ​​forskellige effektmål. For meget forudsigelige endpoints (NB-pc, MM-pc og BR-erpos) med forudsigelse MCC omkring eller større end 0,8, 60 uddannelse prøver er nok til at opnå nær-optimale forudsigelse klassificører. Mens for endpoints (NB-EFS, NB-OS, BR-PCR) med moderat forudsigelse ydeevne (MCC mellem 0,2 til 0,5), er der behov for mindst 120 uddannelse prøver. For næppe forudsigelige endpoints (MM-EFS og MM-OS), microarray-baserede prognosemodel (MCC omkring 0,1) er generelt ikke et godt valg i dette tilfælde. I tilfælde, hvor der er behov for 120 prøver, giver det ingen mening at indsamle flere prøver på grund af den ubetydelige forbedringer. For negative kontroller (NB-NC og MM-NC), prognosemodeller mislykkes for alle uddannelse stikprøvestørrelser. Sådanne resultater udelukkede muligheden for at opnå falske positive resultater. Tal S1 og S2 opnået fra

KNN

SVM

bekræftede ovenstående resultater.

Prediction MCC baseret på forskelligt antal uddannelse prøver til 10 endpoints ved hjælp af

NCentroid

.

SSNR korrelerer godt med endpoint forudsigelighed

ovenstående resultater viste, at den minimale træning stikprøvestørrelse kræves til model byggeri varieret med endpoint forudsigelighed. Det er således af afgørende betydning at estimere endpoint kompleksitet forud for bestemmelse af krævede minimumsantal af uddannelse prøver. Vi foreslog et indeks SSNR i denne undersøgelse, og vurderet sin evne som en indikation af endpoint forudsigelighed. Figur 3 (a) viste forholdet mellem SSNR og model ydeevne baseret på alle træning prøver med

NCentroid

. Her kan vi se, at SSNR korrelerer godt med model ydeevne (MCC-værdier), med en Pearsons korrelationskoefficient på 0,897. Som en bekræftelse, vi yderligere byttes originale uddannelse og validering sæt, og reevalueres sammenhængen mellem SSNR og endpoint forudsigelighed. Figur 3 (b) illustreret tilsvarende resultater. En korrelation på 0,859 yderligere bekræftet, at SSNR korrelerer godt med endpoint forudsigelighed. En sådan konklusion blev yderligere understøttet af korrelationen af ​​0,875 og 0,864 for

KNN

0,887 og 0,901 for

SVM

klassificører som vist i figur S3.

efterfølgende forhold mellem SSNR værdier og endpoint forudsigelighed (forudsigelse MCC) baseret på (a) normal og (b) swap modellering ved hjælp af

NCentroid

på alle uddannelses- prøver. Her grøn (a) og orange søjler (b) repræsenterer SSNR værdier opnået fra originale uddannelse og validering sæt, mens de rektangler står gul er tilsvarende forudsigelse MCC værdier af modeller på originale validering og uddannelse prøver henholdsvis.

SSNR Guides bestemmelse af Training Sample size

ovenstående resultater bekræftede, at SSNR var et gyldigt estimering af endpoint forudsigelighed og det tjener som grundlag for uddannelse stikprøvestørrelse estimering. Imidlertid blev sådanne resultater baseret på efterfølgende analyse ved hjælp af alle uddannelse prøver (langt mere end 60 eller 120 dem), overlader det et adresseløs spørgsmålet om, hvorvidt SSNR kunne vejlede uddannelse stikprøvestørrelse estimering i reelle applikationer. Således vi yderligere vurderet muligheden for at benytte SSNR som vejledning af uddannelse stikprøvestørrelse estimering af de følgende to aspekter: For det første blev SSNR værdi inspiceret baseret på 60 eller 120 uddannelse prøver at se, om det med succes kan differentiere endpoints med forskellige forudsigelse kompleksiteter; for det andet, blev virkningen af ​​SSNR verificeret for estimering krævede minimum uddannelse stikprøvestørrelse i reelle programmer ved hjælp af tre eksterne validering datasæt.

Vi hentet tilfældigt 60 eller 120 prøver fra den oprindelige uddannelse sæt, bygget forudsigelse klassificører, forudsagde oprindelige validering sæt med klassificeringen, og derefter registreres tilsvarende SSNR og forudsigelse MCC værdier. For at sikre statistisk styrke blev en sådan procedure gentages 100 gange, hvilket resulterer i 100 par SSNR og MCC-værdier. Evnen til SSNR i differentierende endpoints med forskellig kompleksitet blev derefter evalueret fra tilsvarende gennemsnit og standardafvigelser (SDS). Figur 4 (a) viste forholdet mellem SSNR og MCC værdier ved hjælp 60 uddannelse prøver baseret på

NCentroid

. Vi kan se, at SSNR held kunne skelne de første tre enklere endpoints (SSNR≥2) fra andre, mens ingen tilsyneladende forskel blev observeret blandt resten. Eksklusive de første tre endepunkter (NB-PC, MM-PC og BR-erpos), vi yderligere vurderet forholdet mellem SSNR og MCC for resten 7 endpoints bruger 120 uddannelse prøver. Som vist i figur 4 (b), blev de fem endepunkter med SSNR≥1 (NB-EFS, NB-OS, BR-PCR, MM-EFS og MM-OS) held adskilt fra de andre to negative kontroller (SSNR 1 ) i dette tilfælde. Derfor blev det bekræftet, at SSNR kunne vejlede uddannelse stikprøvestørrelse beslutsomhed effektivt. Tilsvarende resultater opnået fra

KNN

SVM

vist i figur S4 bekræftede ovenstående resultater.

Forholdet mellem SSNR værdier og endpoint forudsigelighed (forudsigelse MCC) baseret på (en ) 60 og (b) 120 uddannelse prøver med

NCentroid

hhv. Her blå søjler og sorte søjler repræsenterer de midler og SDS af SSNR værdier i 100 gentagelser, mens gule rektangler og røde bjælker er midler og SDS af MCC-værdier.

Vi yderligere foreslået en SSNR-baseret protokol til uddannelse stikprøvestørrelse bestemmelse i denne undersøgelse. Først blev 60 uddannelse udtaget og SSNR værdi blev evalueret. Hvis SSNR er større end 2, 60 træningssampler størrelse er stor nok til at opnå en næsten optimal forudsigelsesmodel. Ellers blev mindst 120 uddannelse udtaget og SSNR værdi blev evalueret igen; Hvis SSNR værdi baseret på 120 uddannelse prøver var større end 1, 120 uddannelse prøver nok til model byggeri denne gang. Ellers ville ydeevne forudsigelse klassificeringen anses som meget dårlig.

Tre eksterne validering datasæt (BR2-erpos, Br3-EFS og NHL) blev yderligere anvendt til at bekræfte resultaterne af ovennævnte protokol i reelle applikationer. For BR2-erpos, den SSNR værdi baseret på 60 uddannelse prøver (100 gentagelser) nåede 2,16 ± 0,38 (større end 2), og dermed 60 prøver var nok i overensstemmelse med protokollen. For Br3-EFS, de SSNR værdier baseret på 60 og 120 uddannelse prøver var 1,55 ± 0,23 ( 2) og 1,18 ± 0,11 ( 1), hhv. Derfor blev 120 træningssampler nødvendige for at opnå en næsten optimal model denne gang. For NHL, de SSNR værdier baseret på 60 og 120 uddannelse prøver var 1,42 ± 0,22 ( 2) og 1,25 ± 0,13 ( 1), hhv. Som for BR3-EFS blev mindst 120 træningssampler påkrævet. Figur 5 (a-c), illustreret ydeevne forudsigelse klassificører ved hjælp af forskellige Træningsprogrammer prøver til ovenstående validering datasæt. Det bekræftede de resultater, nævnt ovenfor, og evnen til prøvens størrelse beslutsomhed protokol foreslået i denne undersøgelse.

Prediction MCC baseret på forskelligt antal uddannelse prøver til tre eksterne validering datasæt.

diskussion

Microarray data har vist fremragende overlegenhed i medvirken kræft resultat estimering ved at give forudsigelse klassificører. Modellen pålidelighed er stærkt afhængig af nøjagtigheden af ​​statistiske parametre estimerede fra uddannelse prøver. Et lille antal uddannelse prøver kan ikke give en meget pålidelig forudsigelse klassificeringen. Derfor bestemme det krævede minimum antal uddannelsesdage prøver bliver et afgørende spørgsmål for klinisk anvendelse af mikroarrays. De fleste af de nuværende metoder er for komplicerede til at blive udnyttet til rutinemæssig anvendelse. Derfor foreslog vi en simpel SSNR tilgang til træning stikprøvestørrelse bestemmelse i denne undersøgelse og illustreret dens anvendelighed baseret på tre store microarray datasæt leveres i MAQC-II. Resultaterne på tre eksterne validering sæt bekræftede, at SSNR-baseret protokol var meget lettere at gennemføre og mere effektiv for prøvestørrelse estimering forhold til de nuværende statistiske metoder.

Tre vigtige fund bemærkes i denne undersøgelse. Det første kan det ses i figur 2, at antallet af uddannelse prøver udøvede tydelig indvirkning på model præstationer, og det mindste antal uddannelse nødvendige prøver til model byggeri varieret med endpoint forudsigelighed. For det andet SSNR værdi korrelerer godt med endpoint forudsigelighed med en korrelationskoefficient omkring 0,9 (figur 3), hvilket indebar muligheden for at anvende SSNR som en angivelse af endpoint forudsigelighed. For det tredje blev en SSNR-baserede trinvis funktion foreslås i denne undersøgelse til bestemmelse af mindste antal uddannelsesdage prøver baseret på forholdet mellem uddannelse stikprøvestørrelse, endpoint forudsigelighed, og SSNR værdi. Den diskrete forhold mellem uddannelse prøve størrelse og kompleksitet endpoints blev også antydes af Mukherjee et al. i begyndelsen af ​​2003 [23], hvilket yderligere understøtter SSNR-baserede beslutsomhed tilgang foreslås i denne undersøgelse. Desuden fandt vi, at den foreslåede fremgangsmåde også med held kan udvides til toksikogenomik (se figur S5).

Et vigtigt aspekt af denne undersøgelse er, at tillid ovennævnte fund også blev bekræftet af både interne og eksterne validering strategier . Til intern validering, to positive (NB-PC, MM-PC) og to negative kontrol (NB-NC, MM-NC) datasæt var afgørende for at vurdere resultaterne af klinisk relevante endepunkter mod det teoretiske maksimum og minimum ydelse leveres af kontrollerne . Specifikt meget højere SSNR værdier for to positive kontrol datasæt vist i figur 4 (a) bekræftede evnen til at bruge SSNR som en indikation af endpoint forudsigelighed, mens ubetydelig effekt af træning stikprøvestørrelse på model præstation i to negative kontrol datasæt yderligere udelukker muligheden for at opnå falske positive resultater. Således vil herunder positive og negative kontrolprøver datasæt i sådanne analyser være til stor hjælp i at sikre pålideligheden af ​​de endelige resultater. Desuden kan pålideligheden af ​​en uddannelse proces kun kan afgøres af eksterne validering prøver. Derfor har de eksterne validering datasæt sammen med interne kontroller spillet en vigtig rolle i at bekræfte evne SSNR-baseret uddannelse stikprøvestørrelse beslutsomhed tilgang i denne undersøgelse.

Lignende resultater fra tre velkendte metoder klassificering anvendes i denne undersøgelse (dvs.

NCentroid

,

KNN og SVM

, med tilsvarende resultater, der er fastsat i figur 2 og figur S1 og S2, henholdsvis) bekræftede yderligere pålideligheden af ​​SSNR-baseret træning stikprøvestørrelse estimering nærme sig. Årsagen er ikke omfattet af denne undersøgelse. Dette fænomen er i overensstemmelse med manglen på signifikante forskelle blandt et stort antal klassificeringsmetoder rapporteret for microarray anvendelser i form af forudsigelse ydeevne [24]. En lignende konklusion blev også foreslået af MAQC-II [6]. Sådanne resultater ville udelukke begrænsning af forskellige algoritmer klassificering, og yderligere at udvide anvendeligheden af ​​SSNR-baseret træning stikprøvestørrelse beslutsomhed tilgang.

overlegenhed og anvendeligheden af ​​SSNR tilgang kan opsummeres som følger. For det første fra en statistisk synsvinkel, det var ikke påvirket af fradrag procedurer ved at undgå avancerede statistiske beregninger. For det andet, for så vidt angår kliniske rutine applikationer, er det meget mere ligetil og effektiv, som den eneste krav er at indsamle 60 og /eller 120 prøver og beregning tilsvarende SSNR værdier. I mellemtiden kan den SSNR-baseret protokol også give en værdifuld strategi til estimering udførelsen af ​​klassificører på forhånd. Tager eksterne validering datasæt vist i figur 5 som et eksempel, SSNR værdier er 2,16 ± 0,38, og 1,18 ± 0,11 for BR2-erpos, og Br3-EFS også underforstået, at udførelsen af ​​endelige forudsigelse klassificører i dette tilfælde ville være fremragende, og moderat henholdsvis.

konklusioner

Microarray teknologi kombineret med mønstergenkendelse er blevet påvist som en lovende strategi i at yde forudsigelse klassificører for kræft diagnose, prognose og behandlingsrespons estimering og så videre. Sammenlignet med traditionel erfaringsbaseret diagnose bygger på komplekse biokemiske test og diverse billedformater systemer, microarray-baserede forudsigelse klassificører, hvis pålideligt konstrueret fra nok træning prøver, ville give en langt mere objektiv, præcis, og gyldig skildring af kræft resultater. Derfor ville SSNR-baseret træning stikprøvestørrelse beslutsomhed tilgang giver stor bekvemmelighed for klinisk anvendelse af mikroarrays i kræft resultat vurdering ved at stille en enkel og pragmatisk måde at estimere uddannelse stikprøvestørrelse. Den omstændighed, at uddannelse prøve størrelse påvirker ydeevnen af ​​endelige forudsigelse klassificører yderligere indebar vigtigheden af ​​systematisk evaluere hver procedure i modellen byggeprocessen og udvikle praktisk vejledning for microarray-baserede klasse sammenligning analyse.

Støtte Information

Figur S1.

En yderligere tal for effekten af ​​træning stikprøvestørrelse bruge

KNN

. Forudsigelse MCC baseret på forskelligt antal uddannelse prøver til 10 endpoints ved hjælp af

KNN

doi:. 10,1371 /journal.pone.0068579.s001

(TIF)

Figur S2.

En yderligere tal for effekten af ​​træning stikprøvestørrelse bruge

SVM

. Forudsigelse MCC baseret på forskelligt antal uddannelse prøver til 10 endpoints ved hjælp af

SVM

doi:. 10,1371 /journal.pone.0068579.s002

(TIF)

Figur S3.

En yderligere tal for forholdet mellem SSNR og endpoint forudsigelighed baseret på alle træning prøver. Den efterfølgende forhold mellem SSNR værdier og endpoint forudsigelighed (forudsigelse MCC) baseret på normal og swap modellering ved hjælp af

KNN

SVM

på alle uddannelses- prøver

doi:. 10,1371 /tidsskrift .pone.0068579.s003

(TIF)

Figur S4.

En yderligere tal for forholdet mellem SSNR og endepunkt forudsigelighed baseret på 60 og 120 uddannelse prøver. Forholdet mellem SSNR værdier og endpoint forudsigelighed (forudsigelse MCC) baseret på (a) 60 og (b) 120 uddannelse prøver med

KNN

SVM

henholdsvis

doi:. 10,1371 /journal.pone.0068579.s004

(TIF)

Figur S5.

En yderligere tal for effekten af ​​træning stikprøve toksikogenomiske datasæt NIEHS

doi:. 10,1371 /journal.pone.0068579.s005

(TIF)

tabel S1.

Tilsvarende mod Den værdier for forskellige uddannelse stikprøvestørrelse på 10 endpoints med

NCentroid

doi:. 10,1371 /journal.pone.0068579.s006

(DOCX)

Metoder S1 ..

doi: 10,1371 /journal.pone.0068579.s007

(DOC)

tak

forfatterne vil gerne takke data udbydere for at dele deres data og oplysninger til MAQC Consortium.

Be the first to comment

Leave a Reply