PLoS ONE: Potentielle forbindelser til mundtlig Kræftbehandling: Resveratrol, Nimbolide, lovastatin, Bortezomib, Vorinostat, Berberin, Pterostilbene, Deguelin, andrographolide, og Colchicin

Abstrakt

Oral cancer er en af ​​de vigtigste årsager til kræft dødsfald i Syd-asiatiske lande. Der er meget begrænsede behandlingsmuligheder til rådighed for kræft i mundhulen. Forskning bestræbelser fokuseret på forskning og udvikling af nye behandlinger for kræft i mundhulen, er nødvendig for at kontrollere de stadigt stigende kræft oral relaterede dødelighed. Vi minerede den store pulje af forbindelser fra de offentligt tilgængelige sammensatte databaser for at identificere potentielle terapeutiske forbindelser til oral cancer. Over 84 mio forbindelser blev screenet for mulige anti-cancer aktivitet sædvane build SVM klassificeringen. De molekylære mål for de forudsagte anti-cancer forbindelser blev udvundet fra pålidelige kilder som eksperimentelle bioassays undersøgelser forbundet med stoffet, og fra protein-sammensatte Interaktionsdatabasen. Terapeutiske forbindelser fra DrugBank, og en liste over naturlige anti-cancer forbindelser afledt af litteratur udvinding af offentliggjorte undersøgelser, blev anvendt til opbygning af partiel mindste kvadraters regressionsmodel. Regressionsmodellen således bygget, blev anvendt til vurdering af orale kræft specifikke vægte baseret på molekylære mål. Disse vægte blev anvendt til at beregne scorer for screening af de forudsagte anti-cancer forbindelser for deres potentiale til behandling oral cancer. Listen over potentielle forbindelser blev kommenteret med tilsvarende fysisk-kemiske egenskaber, kræft specifikke bioaktivitet beviser og litteratur beviser. I alt blev 288 forbindelser med potentiale til at behandle kræft i mundhulen er identificeret i den aktuelle undersøgelse. Størstedelen af ​​forbindelserne i denne liste er naturlige produkter, som er veltolereret og har minimale bivirkninger sammenlignet med de syntetiske modparter. Nogle af de potentielle terapeutiske forbindelser identificeret i den aktuelle undersøgelse er resveratrol, nimbolide, lovastatin, bortezomib, vorinostat, Berberin, pterostilbene, deguelin, andrographolide, og colchicin

Henvisning:. Bundela S, Sharma A, Bisen PS ( 2015) Potentielle forbindelser til mundtlig Kræftbehandling: Resveratrol, Nimbolide, lovastatin, Bortezomib, Vorinostat, Berberin, Pterostilbene, Deguelin, andrographolide, og Colchicin. PLoS ONE 10 (11): e0141719. doi: 10,1371 /journal.pone.0141719

Redaktør: Arianna L. Kim, Columbia University Medical Center, UNITED STATES

Modtaget: 23, 2015; Accepteret: 12. oktober 2015; Udgivet: November 4, 2015

Copyright: © 2015 Bundela et al. Dette er en åben adgang artiklen distribueres under betingelserne i Creative Commons Attribution License, som tillader ubegrænset brug, distribution og reproduktion i ethvert medie, forudsat den oprindelige forfatter og kilde krediteres

Data Tilgængelighed: Alle relevante data er inden for papir og dens støtte Information filer

finansiering:.. Disse forfattere har ingen støtte eller finansiering til at rapportere

konkurrerende interesser:. forfatterne har erklæret, at der ikke findes konkurrerende interesser

Introduktion

på trods af store fremskridt inden for lægevidenskaben, er der stadig over 32,6 millioner mennesker, der lever med kræft på verdensplan. Der var 8,2 millioner kræftdødsfald i 2012 på verdensplan, hvoraf, 0,68 millioner mennesker døde af kræft i Indien [1]. Kræft, som engang blev anset for at være en sygdom udbredt i de udviklede nationer, nu har spredt sig over hele verden, i virkeligheden, viser de seneste kræft statistik, at 65% (5,3 mio) af alle kræft-dødsfald blev indberettet fra mindre udviklede lande [1 ]. Dette er absolut en trist udvikling i lande, der er dårligt rustet til at kæmpe kompleks sygdom som kræft. Forekomsten og /eller incidensrate for kræft-typer varierer betydeligt mellem de forskellige lande, for eksempel, er oral cancer, hvilket er mindre udbredt i de udviklede lande, rangeret i top tre årsager til kræft dødsfald blandt mænd i South asiatiske lande som Indien, Bangladesh og Sri Lanka. Den heterogenitet i fordelingen af ​​forekomsten af ​​kræft-typer mellem udviklede og mindre udviklede lande indebærer, at fremskridtene på området kræftbehandling, ved de udviklede lande ikke effektivt kan anvendes i mindre udviklede lande. Der er en bred vifte af behandlingsmuligheder til rådighed for lunge-, prostata- og brystkræft, der er mere udbredt i de udviklede lande, men er behandlingsmuligheder meget begrænsede, for kræft som oral cancer, som er relativt sjældne i de udviklede lande. Faktorer som den høje forbrug af tobak i forskellige former, manglende evne til at diagnosticere kræft i tidligt stadium, og begrænsede behandlingsmuligheder, der er ansvarlige for den høje dødelighed i forbindelse med kræft i mundhulen. Oral cancer er i øjeblikket styres gennem kirurgi, strålebehandling og kemoterapi [2].

Den aktuelle undersøgelse, forsøger at identificere potentielle anti-cancer-forbindelser til behandling af oral cancer. Tilgængeligheden af ​​millioner af bioaktive forbindelser i offentligt tilgængelige databaser som NCBI-pubchem og ChEMBL, giver stor mulighed for at udvinde den pulje af forbindelser, baseret på attributter ønskede i den terapeutiske område af interesse. Vi har forhørt end 84 mio forbindelser fra databaser som NCBI-pubchem, ChEMBL for den potentielle aktivitet mod kræft i mundhulen. En brugerdefineret support vektormaskine (SVM) sorterer blev bygget til forudsigelse af anti-cancer aktivitet blandt en pulje af forbindelser. Faktorer, der benyttes til træning og afprøvning af SVM klassifikator, blev afledt fra tilstedeværende funktionelle grupper i forbindelserne, som blev brugt i model bygning og forudsigelse proces hhv. De protein bioassay poster for en forbindelse, blev anvendt til at associere mål for anticancer forbindelse forudsagt af SVM klassifikator. Målprofilen af ​​de terapeutiske forbindelser fra DrugBank databasen, og manuelt kurateret liste over fysiske anti-cancer forbindelser, blev anvendt til opbygning regressionsmodel, som efterfølgende blev anvendt til beregning af scorer specifikke for oral cancer. Listen over potentielle forbindelser blev kommenteret med tilsvarende fysisk-kemiske egenskaber, kræft specifikke bioaktivitet beviser og litteratur beviser. Forskellige analysemetoder er blevet integreret for at muliggøre logisk udvælgelse af de potentielle terapeutiske forbindelser til oral cancer (figur 1).

Den aktuelle undersøgelse præsenterer en logisk ramme for at finde potentielle forbindelser til behandling af oral cancer, baseret på stor-skala minedrift af pålidelige compound- og bioactivity- databaser. De strukturelle og målniveau mønstre, som deles af forbindelser rettet mod fælles patologi, blev anvendt i den aktuelle undersøgelse for udvælgelse af de potentielle forbindelser til kræft i mundhulen.

Materialer og Metoder

datakilder

Drug-target data.

DrugBank (version 4.0) [3] blev anvendt som reference database for at indsamle omfattende information om lægemiddelinteraktion target information. Den “drugbank.xml” filen blev hentet fra download sektionen på DrugBank (https://www.drugbank.ca/downloads); det blev parset af brugerdefinerede perl scripts til at udtrække stof, sammen med tilhørende oplysninger som indikation område, mål, SMILES string [4]. Indikationen område (r) i forbindelse med et lægemiddel repræsenteres som fri tekst i DrugBank, som udgør algoritmisk udfordring for processen automatiseret sammenslutning af lægemidlet med sin angivelse område (r). I den aktuelle undersøgelse, har vi kortlagt sygdomme eller indikation område er forbundet med stof til dens tilsvarende ICD10 sygdom kode [5], [6] (https://apps.who.int/classifications/icd10/browse/2010/en kan være henvist til detaljeret kortlægning mellem ICD10 sygdom kode til relaterede sygdomme).

filen ‘drug-disease_TTD2013.txt “, tilgængelig fra download sektionen på Therapeutic Target Database (TTD) [7], er blevet brugt til narkotika -disease kortlægning. Denne fil kan anvendes til entydig association af lægemiddel med sin angivelse område (r). Filerne, “drug_links.csv” og “TTD_crossmatching.txt« (TTD), blev brugt til at hente mapping mellem DrugBank ID til TTD Drug-ID. Data for de godkendte lægemidler sammen med tilhørende oplysninger, ligesom target stof, ICD10 klassificering sygdom og smil snor, blev ekstraheret fra “drugbank.xml ‘fil. Dataene fra de stoffer blev adskilt i to gruppe, anticancer narkotika og andre stoffer, der er tilgængelig som online supplerende materiale-‘DB_cancer.txt ‘(se S1 tekst) og “DB_others.txt” (se S2 tekst), hhv. DrugBank repræsenterer target oplysninger UniProt ID, som blev kortlagt i dens tilsvarende Entrez Gene ID og Gene Symbol (baseret på kortlægning forudsat i ‘HUMAN_9606_idmapping_selected.tab “og” gene_info’ filer, som kan downloades fra ftp sites ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/HUMAN_9606_idmapping_selected.tab.gz, og ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz henholdsvis).

I den aktuelle undersøgelse blev ICD10 sygdom koder ‘C00 til C06’ anses for at repræsentere oral kræft. Under gennemgangen af ​​oplysninger om lægemidler mod cancer, bemærkede vi, at der er mange lægemidler, der kortlagt mod ICD10 sygdom kode ‘C00-C96’, som er en ikke-specifik sygdom kode for maligne neoplasmer. Vi kunne ikke finde noget lægemiddel i DrugBank database, som blev indikeret til behandling af kræft i mundhulen; derfor, vi udvidet vores søgning til litteraturen database (NCBI PubMed), og fundet beviser til at styre væksten af ​​orale kræftceller ved par stoffer som erlotinib [8], [9], Vandetanib [10] og gefitinib [8], [11]. Den ICD10 sygdom kode kortlagt for disse lægemidler blev opdateret manuelt, til også at omfatte ‘C00-C06’ som indikation lægemiddel i ‘DB_cancer.txt “(se S1 tekst). Vi indså, at sådan en lav repræsentation af lægemidler til oral behandling af kræft i offentlige databaser, ville fungere som en flaskehals i downstream prædiktive data mining processer; dette fik os til at udvide vores søgning over sammensatte databaser som DrugBank.

Naturen er en guld-mine til behandling af forskellige sygdomme, herunder kræft, hvilket fremgår af det faktum, at størstedelen af ​​de eksisterende anticancer narkotika er enten naturlig produkter eller deres kemiske derivater [12] – [14]. Vi samlet en liste over plantebaserede anti-cancer naturlige forbindelser ved manuelt minedrift litteraturdatabaser som PubMed, og også brugt Google Scholar til at søge artikler, ikke indekseret med PubMed. blev henvist i alt 269 artikler for at indsamle data om plantebaserede naturlige forbindelser, aktive mod over 25 forskellige typer kræft. Vi indsamlede data for 377 forbindelser fra disse artikler. Listen af ​​plante baserede forbindelser med anti-cancer aktivitet blev yderligere kommenteret med tilhørende egenskaber som pubchem Compound-id (cid), SMILES streng, molekylære mål. Target oplysninger var ikke til stede for alle forbindelser i bunden sæt artikler (269 artikler), derfor har vi yderligere henvist 315 flere artikler til at indsamle target information af ikke-kommenteret forbindelser. Listen af ​​plante baserede naturlige anti-cancer forbindelser overholdt i den aktuelle undersøgelse består af 30 forbindelser med væksthæmmende aktiviteter mod orale kræftceller. Listen af ​​plante baserede naturlige forbindelser aktive mod forskellige kræftformer opnået i den aktuelle undersøgelse, kan findes som online supplerende materiale-‘Natural_Anticancer_list.txt ‘(se S3 tekst), der indeholder links til forskning artikler, der blev brugt til at udlede anti-cancer aktiviteter af forbindelser mod især kræft-typen, og den indeholder også henvisninger til artikler, der blev brugt til at udlede forbindelse at målrette association. Dette er en manuelt kurateret liste, som kan være til stor nytte for forskere, der arbejder inden for området af plante baserede naturlige anti-cancer forbindelser. Dataene i ‘Natural_Anticancer_list.txt “(se S3 tekst) blev yderligere omarrangeret i et format, der svarer til filer opnået efter minedrift DrugBank (se S1 og S2 tekster) for at gøre det modtagelig for downstream data mining processer; denne fil kan findes som online supplerende materiale-‘Nat_Anticancer.txt ‘(se S4 tekst).

Compound-Target Datakilder.

ChEMBL-Forbindelse Database

. ChEMBL er en frit tilgængelig database over narkotika-lignende bioaktive stoffer [15]. Stoffet information til stede i denne database er forbundet med bioaktivitet målinger, som er manuelt udvundet fra primær offentliggjorte litteratur. I den aktuelle undersøgelse, har vi udnyttet forbindelse repository af ChEMBL (version 19.0), der skal anvendes til forudsigelse af anticanceraktivitet. Vi hentede MySQL dump af ChEMBL og skabte en lokal database (ftp://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/latest/chembl_19_mysql.tar.gz).

I den nuværende undersøgelse, brugte vi perl biblioteker DBI og DBH for sammenknytning med ChEMBL database, skabt i lokalt installeret MySQL. Perl scripts blev skrevet for at udtrække data fra ChEMBL databasen. Vi udvundet SMILES snor sammen med ChEMBL id fra databasen ved hjælp af følgende SQL forespørgsel – “

vælg c

canonical_smiles

,

m

chembl_id fra.. compound_structures c

,

molecule_dictionary m hvor c

.

molregno = m

.

molregno

“. I alt 1404752 forbindelser (dvs. ~ 1,4 millioner forbindelser) sammen med deres smil strenge blev udvundet fra databasen.

søm-kemiske-Protein Interaction Database

. SØM er en kemisk-protein interaktion database, som indeholder oplysninger om interaktioner fra metaboliske veje, krystalstrukturer, bindende eksperimenter og narkotika for målgruppen relationer [16]. I den aktuelle undersøgelse har vi hentet nyeste datasæt fra SØM databasen (version 4.0). Følgende filer blev hentet fra download sektionen på STITCH:

https://stitch.embl.de/download/protein_chemical.links.v4.0/9606.protein_chemical.links.v4.0.tsv.gz → Kemisk-Protein Interaction data, der indeholder mere end 4,5 millioner plader. Kemikalier er afledt af pubchem sammensatte databasen, og proteiner er repræsenteret ved Ensembl protein identifikatorer.

https://stitch.embl.de/download/chemicals.v4.0.tsv.gz → Indeholder STITCH sammensatte kemiske struktur oplysninger i form af SMILES streng. Den indeholder 82841024 (dvs. ~ 82.840.000) sammensatte plader.

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2ensembl.gz → Indeholder mapping mellem Ensembl protein id til NCBI-Entrez Gene-id.

Anticancer aktivitet Forudsigelse

Compound datasæt indsamlet fra ChEMBL (1,4 millioner forbindelser) og SØM (82,8 millioner forbindelser) blev kontrolleret for mulige anti-cancer aktivitet. Det skal bemærkes, at hver forbindelse record i Stitch database ikke svarer til et unikt molekyle, dvs. der kan være mere end én registrering, der repræsenterer forskellige stereo-isomerer for en enkelt forbindelse [16]. I den aktuelle undersøgelse, har vi overvejet hver post som en separat forbindelse til forudsigelse af anti-cancer aktivitet, og dublerede forbindelser blev fjernet fra listen over forbindelser forventes at være aktive anticancer-forbindelser. Dette blev gjort for at optimere kravet hukommelsen til opgaven med at identificere dubletter i en stor pulje af forbindelser. I den aktuelle undersøgelse har vi brugt to metoder til forudsigelse af anti-cancer aktivitet på næsten 84 mio forbindelser, (i) CDRUG [17] og (ii) en brugerdefineret build support vektormaskine (SVM) klassificeringen.

Benchmark datasæt.

Benchmark datasæt forberedt til forudsigelse af anti-cancer aktivitet af Li et al. [17] blev anvendt i den aktuelle undersøgelse. Denne datasæt er fra NCI-60 Developmental Therapeutics Program (DTP) projektet [18]. Detaljerne i protokol, der bruges til at skabe benchmark datasæt, kan findes i den primære offentliggjort artikel [17]. Datasættet består af mere end 18.000 forbindelser, opdelt i aktive og inaktive anticancerforbindelser. Benchmark datasæt kan downloades fra https://bsb.kiz.ac.cn/site_media/download/CDRUG/Benchmark.rar.

CDRUG.

CDRUG er en analytisk metode til forudsigelse af anticanceraktivitet af kemisk forbindelse [17]. I den aktuelle undersøgelse, har vi hentet og brugt den seneste enkeltstående version af CDRUG for anticanceraktivitet forudsigelse. Dette værktøj tager en liste over SMILES streng af forespørgslen forbindelser som et input og genererer prioriteret liste, der består af forskellige scoringer og p-værdi. I den aktuelle undersøgelse, har vi overvejet cutoff p-værdi på ≤ 0,05, som kriterier for udvælgelse af forbindelser med anticanceraktivitet. De algoritmiske detaljer CDRUG kan findes i den primære publikation [17].

Support Vector Machine (SVM) Classifier.

I den aktuelle undersøgelse har vi opbygget SVM baseret model til forudsigelse af anticanceraktivitet af kemisk forbindelse. Support Vector Machines er et nyttigt redskab til klassificering af data, som har fundet sin ansøgning i bred vifte af domæner, herunder bioinformatik. Vi har brugt software LIBSVM (version 3.18) [19] i vores nuværende studie for SVM baseret klassifikation. Den SVM baseret klassifikation opgave starter med processen med “model bygning”, hvor data er delt op i træning og afprøvning sæt. Hver forekomst i træningssættet indeholder en “målværdi” eller “klasse label” (i vores tilfælde er det enten 1 eller 0; hvor ‘1’ repræsenterer forbindelsen har anti-cancer aktivitet og ‘0’, ellers), og flere ” attributter “eller” funktioner “. Målet med SVM [20], [21] er at strengt bygge en model (baseret på forekomster fra uddannelse data), som forudsiger målværdierne /klasse etiketter til forekomsterne fra testdata, kun gives attributter i testdata. I den aktuelle undersøgelse, valgte vi ‘C-SVM’ (Multi-class klassifikation) som SVM type, og radial basis funktion (RBF) som en kerne type til opbygning af anti-cancer aktivitet forudsigelse model. RBF-kernen blev valgt på grundlag af sin popularitet, robusthed, og det faktum, at andre kerner til rådighed med LIBSVM er særlige tilfælde af RBF under visse parameter [22], [23].

Processen med klassificering med SVM involverer følgende trin:

model bygning: i den aktuelle undersøgelse, har vi brugt benchmark datasæt [17] (se afsnittet benchmark datasæt) til opbygning SVM forudsigelse model. Rationalet bag udvælgelsen af ​​datasæt fælles for det, der anvendes af CDRUG [17], var at sammenligne forudsigelse resultater af to metoder (CDRUG og SVM klassificeringen) bygge fra den samme underliggende datasæt. Processen med bygningen model indebærer følgende sub-trin:..

Feature udvinding af uddannelse forbindelser og omdannelse af trækvektor i SVM input format

Cross validering baseret parameter estimering og bygning model med bedste parametre

Forudsigelse af forespørgslen forbindelser:

Databehandling for forespørgsel forbindelse (r)

Forudsigelse af anti-cancer aktivitet for forespørgsel forbindelse (r)

Feature Extraction

. I den aktuelle undersøgelse blev de funktioner afledt af enheder i forbindelsen, som er ansvarlige for at definere sin reaktionsmekanisme, og er de medvirkende faktor mod sin aktivitet. Disse enheder kan være af organiske (dvs. ‘funktionelle grupper’) eller uorganiske (dvs. ‘metalioner «) i naturen. Tilstedeværende funktionelle grupper i organiske molekyler er blevet anvendt i fortiden for at forudsige lægemiddel-target interaktionsnetværk [24], hvor forfatterne havde brugt 28 funktionelle grupper til at karakterisere stoffer. Foruden den funktionelle gruppe, metaller spiller også en meget vigtig rolle i bestemmelse af aktiviteten af ​​lægemidler, især inden for kræft lægemiddel, såsom cisplatin, der kan betragtes som en pioner inden for metal baseret anticancerlægemiddel [25]. De funktionelle grupper og metaller til stede i en forbindelse kan visualiseres som byggesten eller underkonstruktion af en forbindelse. SMARTS er en meget kraftfuld sprog til at beskrive sådanne molekylære underlag [26]. Smarts strenge anvendes typisk til underbygning søgning, til at identificere molekyler baseret på mønstertilpasning, enten en ental snor eller som en gruppe af Smarts strenge. I den aktuelle undersøgelse, vi strengt fremstillet Smarts strenge af over 300 funktionelle grupper (herunder fælles metalliske former findes i forskellige lægemidler). Vi har fulgt de retningslinjer, som Dagslys [26], mens de forbereder disse Smarts strenge.

Features blev udvundet fra uddannelse forbindelser, fra Benchmark datasæt [17]. Datasættet består af over 18.000 forbindelser (styret og negativ-sæt) i SMILES format (se: https://bsb.kiz.ac.cn/site_media/download/CDRUG/Benchmark.rar). I den aktuelle undersøgelse har vi anvendt open source python bibliotek Pybel [27] til at finde underkonstruktioner kodet som en SMARTS streng i en forespørgsel sammensatte. Python-script blev skrevet for at automatisere opgaven med at matche listen af ​​Smarts svier mod benchmark datasæt (figur 2).

Til at gennemgå de udtrukne funktioner i alle forbindelser (positiv og negativ datasæt), vi observerede at mange af de understrukturer fra vores første liste over SMARTS snor var ikke til stede i nogen af ​​datasættet (dvs. positiv-eller negativ-sæt), og derfor blev de udelukket fra den videre nedstrøms analyse proces. Den endelige liste af Smarts strenge sammen med tilsvarende repræsentativ underkonstruktion (funktionelle grupper eller metalion) bestod af 228 kløgt strenge, som kan findes som online supplerende materiale-‘SMARTS_pattern.txt ‘(se S5 tekst). Ved afslutningen af ​​denne øvelse, opnåede vi har matrix af dimension M Γ N matrix; hvor “M” svarer til antallet af forbindelser i benchmark datasæt og »N« svarer til antallet af funktioner /substrukturer (dvs. 228) anvendes til fremstilling elementvektor af en forbindelse. Denne funktion vektor blev omdannet til et SVM format som angivet nedenfor:

label indeks1 : værdi1 Index2 : value2 …

Hvis indeholder hver linje en instans, og afsluttes med en “… \\ n ‘karakter. label er et helt tal angiver klassen etiket (1 → Forbindelse med anticanceraktivitet og 0 → Forbindelse uden anti-cancer aktivitet). Parret indeks : værdi giver en funktion (attribut) værdi: indeks er et heltal fra den 1. og værdi er et reelt tal (I den aktuelle undersøgelse, værdi kan være [0,1], hvor 0 → angiver funktion er fraværende i forbindelsen, og 1 → angiver funktion er til stede i forbindelsen). Indeks skal være i stigende rækkefølge [19].

Parameter Estimation og Model Building

. Den RBF kerne har to parametre

C

og γ; for en given forudsigelse problem, er værdien af ​​disse parametre ikke kendt på forhånd, og derfor en slags parameter søgning der skal gøres for at estimere værdier for disse parametre. Hovedformålet med parameter søgning er at finde gode (

C

, γ), således at den forudsigelse model præcist vil forudsige aktiviteten af ​​ukendte forbindelser. Generelt dårligt optimerede modeller tendens til at lide med en overfitting problem, som henviser til den tilstand, når forudsigelse model /klassificeringen viser høj nøjagtighed med træningsdata, men dens nøjagtighed falder drastisk, når de anvendes til at forudsige ukendte testdata. Krydsvalidering er en teknik, som anvendes til at overvinde overfitting problem. I

n

fold cross-validering, uddannelse datasæt er opdelt i

n

delmængder af samme størrelse. Sekventielt en delmængde testes ved hjælp af modellen, er uddannet på de resterende

n

-1 delmængder. På denne måde er hver forekomst af hele træningssæt forudsagt en gang, således at den krydsvalidering nøjagtighed er procentdelen af ​​data, der klassificeres korrekt.

I den aktuelle undersøgelse, udførte vi en udtømmende gitter- søgning på

C

og γ med 5-dobbelt cross-validering. Efter feature extraction og transformation af data af benchmark datasæt (se afsnit Feature Extraction), vi først gjorde en grov gitter søgen efter at finde bedste

C

og γ med 5-dobbelt cross-validering. Vi startede først med groft gitter søgning med en eksponentielt voksende sekvens af

C

og γ (

C

= 2

-5, 2

-4, 2

– 3 …, 2

14, 2

15 og y = 2

-15, 2

-14 … 0,2

4, 2

3), som gav os bedste parametre (

C

= 2

2 og γ = 2

-2) med cross-validering nøjagtighed på 80,99% (figur 3). Parametrene med cross-validering nøjagtighed på over 80,5% er tydeligt markeret med grøn farve i gitter rum figur 3, vi næste fokuseret på fine gitter søgning i denne region.

Den fine gitter søgning blev gennemført med en voksende sekvens af

C

og γ (

C

= 2

-1, 2

-0,75, 2

-50 … 2

5,50, 2

5,75, 2

6 og γ = 2

0, 2

-0,75 … 0,2

-4,50, 2

-4,75, 2

-5), som gav os bedste parametre (

C

= 2

1,5 og γ = 2

-1,5) med cross-validering nøjagtighed på 81,18% (figur 4). Hele træningssæt (dvs. den transformerede benchmark datasæt med trækvektorer) blev anvendt til at opbygge en endelig klassifikator med de bedste parametre (

C

= 2

1,5 og γ = 2

-1.5). De mellemliggende filer genereres under gitter søgning, sammen med den endelige klassifikator “

kræft

.

model

‘kan findes som online supplerende materiale« Model_Build.zip «(S6 Text). I den aktuelle undersøgelse, klassificeringen ‘

kræft

.

model

‘ blev brugt i den efterfølgende SVM baseret forudsigelse af anticancer aktivitet. Den udtømmende grid baseret parameter søgning blev gjort med hjælp af python scriptet ‘grid.py’ fås med LIBSVM pakke [19]. Beregningsmæssigt gitter søgning er hukommelse og CPU intensive opgave, i en parallel tilstand, tog det næsten 10 dage til at fuldføre denne opgave i 4 GB Intel

® Core

™ i5 desktop installeret med Linux operativsystem.

Prediction Process

. Forudsigelsen af ​​anticancer aktivitet med SVM klassificeringen «.

kræft

model

‘for query forbindelser involverer følgende trin:

Læs liste over’ n ‘antallet af forespørgsler forbindelser

Angiv indledende indeks i = 1.

Udarbejdelse af trækvektor for jeg

th query forbindelse (som forklaret i afsnit Feature Extraction). Funktionen vektor D

i [x1, x2 … .x228] for ai

th forespørgsel forbindelse, ville være en binær vektor, der repræsenterer tilstedeværelsen eller fraværet af funktionel gruppe /underkonstruktion i en forespørgsel forbindelse.

Kontroller, om »i« er mindre end ‘n’, Hvis ja så i = i + 1 og gå til trin 3, ellers gå til trin 5.

Transformer funktionen matrix i SVM input format og gem som fil “svm_input.dat”

forudsige med følgende kommando:

./SVM-forudsige svm_input.dat cancer.model output_name Vejviser

Validering af modeller

Validering datasæt

. Nøjagtigheden af ​​de metoder til forudsigelse af anticancer aktivitet (dvs. CDRUG og førnævnte SVM klassificeringen) blev testet ved hjælp af forbindelsen datasæt, der er forbundet med deres indikation område uden nogen tvetydighed. Valideringen datasæt anvendes i den nuværende undersøgelse blev tilfældigt udvalgt fra indsamling af DrugBank og naturlige plante baserede anti-cancer-forbindelser (se afsnittet

Drug-Target data

for detaljer om den primære datasæt). Vi skabte en balanceret datasæt, som bestod af 526 forbindelser med anticancer aktivitet (positiv datasæt), og 526-forbindelser uden anticancer aktivitet (negativ datasæt). Valideringen datasæt, kan findes som online supplerende materiale-‘cancer_nat_db_smi.txt “(forbindelser med anti-cancer aktivitet) (se S7 Tekst), og” others_smi.txt “(forbindelser uden anti-cancer aktivitet) (se S8 tekst) .

den enkeltstående version af CDRUG [17] blev brugt til at forudsige aktiviteten af ​​validering datasæt kan forudsigelse resultaterne af CDRUG findes i filen-‘validation_set_tab.txt «(se S9 tekst), som er tilgængelig som online supplerende materiale. SVM klassificeringen “cancer.model” bygge i den aktuelle undersøgelse blev også brugt til at forudsige aktiviteten af ​​validering datasæt. Den SVM baseret klassifikation af validering datasæt blev opnået i følgende brede trin:

Smarts snor baseret beregning af funktionen vektor (se afsnit Feature Extraction for detaljeret procedure). Resultatet af funktionen udvinding proces på validering datasæt findes i filen ‘Validation_dataset_features.txt “(se S10 tekst) som online supplerende materiale.

Transformation af trækvektor i SVM input format. Det transformerede funktion matrix er tilgængelig i filen ‘Validation_dataset_dat.txt “(se S11 tekst) som online supplerende materiale

SVM baseret forudsigelse:. Anticancer aktivitet af validering datasæt blev forudsagt med følgende kommando af libsvm [19]:. /SVM-forudsige Validation_dataset_dat.txt cancer.model Validation_dataset_out.txt.

SVM forudsigelse resultatet kan findes i ‘Validation_dataset_out.txt “(se S12 tekst) som online supplerende materiale.

De forudsigelse resultater fra CDRUG og SVM klassificeringen blev sammenlignet, er baseret på følgende statistik:. (i) (ii) (iii) hvis

‘TP’ er True Positive

‘ TN ‘er True Negativ.

‘ FP ‘er falsk positiv.

‘ FN ‘er False Negative.

følsomhed, specificitet og nøjagtighed statistik de blev beregnet for resultaterne opnået fra begge metoder (tabel 1). Det kan ses, at den samlede nøjagtighed CDRUG metode er lidt bedre end brugerdefinerede build SVM klassificeringen, som kan primært tilskrives dens exceptionelt høj specificitet (~ 91%). Statistikken på brugerdefinerede build SVM klassificeringen ydeevne kan betragtes som balanceret med hensyn til følsomhed (~ 61%) og specificitet (~ 62%), mens følsomheden af ​​CDRUG observeret som ganske lav (~ 40%) (tabel 1).

for en undersøgelse af en sonderende karakter som dette, kunne forudsigelse metoder med lav følsomhed virke mod hensigten, da det ville vigtigt middel muligheden for at miste ud masser af potentielle forbindelser under indledende stadier screening uden nogen mulighed for at blive betragtning til dets terapeutiske anvendelse til oral cancer under nedstrøms analytiske proces. Vi har derfor valgt SVM klassificeringen til forudsigelse af anti-cancer aktivitet på over 84 mio forbindelser indsamlet fra ChEMBL og sy database (se afsnit Compound-Target datakilder). Vi besluttede at udnytte høj specificitet CDRUG at identificere mulige falske positiver på listen over potentielle forbindelser opnået ved afslutningen af ​​denne undersøgelse.

Forudsigelse af Anticancer aktivitet.

Forbindelserne indsamlet fra ChEMBL og SØM database (se afsnittet

Compound-Target datakilder

) blev givet som input til SVM klassificeringen til forudsigelse af anticancer aktivitet. Der var mere end 82.840.000 forbindelser fra søm, og over 1,4 millioner forbindelser fra ChEMBL databaser. Forskellige analytiske trin i forbehandling (som feature extraction) og SVM forudsigelse, har visse fysiske hukommelse og CPU krav, som er bestemt af størrelsen af ​​et datasæt og kompleksitet underliggende algoritme, på grund af disse begrænsninger, var det ikke muligt at analysere hele datasæt med mere end 84 mio forbindelser på én gang. Efter et par indledende testkørsler af forudsigelse workflow med varieret størrelse undergrupper af den sammensatte datasæt, var vi i stand til at finde øvre tærskel på 2,6 millioner forbindelser, som kan analyseres i skrivebordet med 4 GB hukommelse (med 4 kerner).

The https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/ ListOfCIDs /assaysummary/CSV

BioAssay

Be the first to comment

Leave a Reply