SMILES
Filename extension | .smi |
---|---|
Type of format | Hemijski fajl format |
SMILES, ili pojednostavljena molekulska specifikacija inputnih linijskih podataka (engl. simplified molecular input line entry specification'), je specifikacija za nedvosmisleno opisivanje strukture hemijskih molekula koristeći relativno kratke ASCII nizove simbola.[1][2][3][4] SMILES niske se mogu učitati u većinu molekulskih editora za konverziju nazad u dvo-dimenzionalne crteže ili tri-dimenzionalne modele molekula.
Originalnu SMILES specifikaciju su razvili Arthur Weininger i David Weininger kasnih 1980-tih godina. Ona je od tada bila modifikovana i proširena od strane drugih, pogotovu od strane kompanije Daylight Hemijski Informacioni Sistemi Inc. 2007. godine, otvoreni standard pod imenom OpenSMILES je razvijen od strane Blue Obelisk slobodni-kod hemijske zajednice. Neke of drugih postojećih 'linearnih' notacija su Wiswesser linijska notacija (WLN), ROSDAL i SLN (Tripos Inc).
Augusta 2006. godine IUPAC je uveo InChI kao standard za reprezentaciju formula. Za SMILES se generalno smatra da imaju prednost u pogledu lakoće čitanja u odnosu na InChI. Pored toga, SMILES imaju široku bazu softverske podrške sa opsežnom teoretskom (npr., graf teorija) zaleđinom.
Termin SMILES se odnosi na linijsku notaciju za kodiranje molekulskih struktura. Specifični primeri struktura se striktno zovu SMILES nizovi simbola. Međutim, uobičajeno da se termin SMILES koristi za pojedinačne molekule i za nizove molekula; tačno značenje je očevidno iz konteksta. Termini kanonički i izomerni mogu da dovedu do zabune kad su primenjeni na SMILES. Termini opisuju različite atribute SMILES nizova znakova, i nisu međusobno ekskluzivni.
Tipično, više jednako validnih SMILES može biti napisano za molekul. Na primer, CCO, OCC i C(O)C svi specificiraju strukture etanola. Razvijeni su algoritmi koji omogućavaju da se isti SMILES generiše za molekul nezavisno od redosleda atoma u strukturi. Takvi SMILES su jedinstveni za svaku strukturu, mada su zavisni od korišćenog algoritma za kanonikalizaciju redosleda atoma u toku njihovog generisanja, i oni se nazivaju kanonički SMILES. Ti algoritmi prvo konvertuju SMILES u internu reprezentaciju molekulske strukture, i koriste molekularni graf kao bazu za određivanje jedinstvenog redosleda atoma. Oni ne manipulišu neposredno linerane nizove znakova. Različiti algoritmi za generisanje kanoničkih SMILES su razvijeni, uključujući one od strane Daylight Hemijskih Informacionih sistema, OpenEye naučnog softvera, MEDIT i Grupe za hemijsko računarstvo. Univerzalni način primene kanoničkih SMILES je indeksiranje i osiguravanje jedinstvenosti molekula u bazama podataka.
SMILES notacija omogućava specificiranje konfiguracije na tetraedarskim centrima, i geometrije dvostrukih veza. To su strukturne osobine koje se nemogu specifirati samo na osnovu konektivnosti i SMILES koji kodiraju te informacije se nazivaju izomerni SMILES. Značajna karakteristika ovih pravila je da ona dozvoljavaju rigoroznu delimičnu specifikaciju hiralnosti. Termin izomerni SMILES se isto koristi za SMILES kod kojih su izotopi specificirani.
U smislu graf baziranih računarskih procedura, SMILES je niska koja se formira ispisivanjem simbola čvorova u redosledu dubinski prioritizovane pretrage drveta hemijskog grafa. Hemijski graf se pripremi odstranjivanjem vodonikovih atoma, i otvaranjem prstenova tako da se formira graf razgranatog drveta. Na mestima otvaranja prstenova, povezani čvorovi se obeležavaju numeričkim oznakama. Zagrade se koriste za označavanje grananja stabla.
Atomi su predstavljeni standardnim oznakama hemijskih elemenata, u uglastim zagradama, npr. [Au] za zlato. Zagrade se mogu izostaviti za "organski pod-skup": B, C, N, O, P, S, F, Cl, Br, i I. Svi drugi elementi moraju biti navedeni u zagradama. Ako su zagrade izostavljene, korektan broj implicitnih vodonikovih atoma se podrazumeva, npr. SMILES za vodu je jednostavno O.
Atom sa jednim ili više električnih naboj(a) se okružava zagradama (nezavisno od atomskog tipa), čemu sledi simbol H ako je atom vezan za jedan ili više atoma vodonika (tome dalje sledi broj vodonika ukoliko ih ima više: NH4 za amonijum), i iza toga dolazi znak '+' za pozitivni naboj ili '-' za negativni naboj. Broj naboja se specificira posle znaka (ukoliko je veći of jedan); međutim, isto je moguće napisati znak onoliko puta koliko naboja jon sadrži: umesto "Ti+4", može se napisati "Ti++++" (Titanijum IV, Ti4+). Iz ovoj sledi, da se hidroksid anjon predstavlja sa [OH-], oksonijum katjon sa [OH3+], i kobalt III katjon (Co3+) nože biti [Co+3] ili [Co+++].
Veze između alifatičnih atoma se podrazumevaju da su jednostruke ukoliko nije drugačije specificirano i one proizilaze iz susednosti atoma u SMILES. Na primer SMILES za etanol može biti napisan kao CCO. Oznake za zatvaranje prstena se koriste za indiciranje povezanosti između ne-susednih atoma u SMILES, što se za cikloheksan i dioksan može napisati kao C1CCCCC1 i O1CCOCC1 respektivno. Za drugi prsten, oznake će biti 2 (naftalin: c1cccc2c1cccc2), itd. Posle 9, oznaka mora biti predhođena sa '%', da be se mogla diferencirati od dve različite oznake vezane za isti atom (~C12~ znači da je atom ugljenika mesto zatvaranja prstenova sa oznakama 1 i 2, dok ~C%12~ indicira samo jednu oznaku, 12). Dvostruke i trostruke veze se predstavljaju simbolima '=' i '#' respektivno kao što je ilustrovanu sa SMILES O=C=O (karbon dioksid) i C#N (cijanovodonik).
Aromatični C, O, S i N atomi se pišu malim slovima 'c', 'o', 's' i 'n' respektivno. Benzen, piridin i furan se mogu predstaviti sa: c1ccccc1, n1ccccc1 i o1cccc1. Veze između aromatičnih atoma se podrazumevaju da su aromatične, mada se one mogu eksplicitno specifirati koristeći ':' simbol. Aromatični atomi mogu biti jednostruko vezani jedan s drugim, i bifenil se može zapisati kao c1ccccc1-c2ccccc2. Aromatični azot vezan za vodonik, kao što se nalazi u pirolu mora biti reprezentiran kao [nH], i imidazol se piše u SMILES notaciji kao n1c[nH]cc1.
Daylight i OpenEye algoritmi za generisanje kanoničkih SMILES se razlikuju u njihovom tretmanu aromatičnosti.
Grananje se opisuje zagradama, kao u CCC(=O)O propionsku kiselinu i C(F)(F)F za fluoroform. Supstituisani prstenovi se mogu napisati sa tačkom granja na ringu kao što je ilustrovano sa SMILES COc(c1)cccc1C#N (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u) i COc(cc1)ccc1C#N (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u) koji kodiraju 3 i 4-cijanoanizol izomere. Zapisivanje SMILES za supstituisane prstenove na ovaj način čini ih lakšim za čitanje.
Konfiguracija oko dvostruke veze se specificira koristeći znakove "/" i "\". Na primer, F/C=C/F (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u) je reprezentacija trans-difloroetena, kod koje su atomi flora na suprotnim stranama dvostruke veze, dok F/C=C\F (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u) je jedna of mogućih reprezentacija cis-difloroetena, kod koje su F atomi na istoj strani dvostruke veze, kao što je prikazano na slici.
Konfiguracija na tetrahedralnom ugljeniku se specificira sa @ ili @@. L-alanin, rasprostranjeniji enantiomer aminokiseline alanin se može zapisati kao N[C@@H](C)C(=O)O (pogledajte prikaz Arhivirano 2013-07-04 na Wayback Machine-u). Oznaka @@ ukazuje da, kad se posmatra od azota duž veze ka hiralnom centru, sekvenca supstituenata je vodonik (H), metil (C) i karboksilat (C(=O)O) u smeru kazaljki na satu. D-Alanin se može napisati kao N[C@H](C)C(=O)O (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u). Redosled supstituenata u SMILES niski je veoma važan i D-alanin se isto tako može kodirati sa N[C@@H](C(=O)O)C (pogledajte prikaz Arhivirano 2013-05-22 na Wayback Machine-u).
Izotopi se specificiraju sa brojem jednakim celobrojnoj izotopskoj masi ispred atomskog simbola. Benzen u kome je jedan atom ugljenik-14 se piše kao [14c]1ccccc1 i deuterohloroform je [2H]C(Cl)(Cl)Cl.
Molekul | Struktura | SMILES Formula |
---|---|---|
Diazot | N≡N | N#N |
Metil izocijanat (MIC) | CH3–N=C=O | CN=C=O |
Bakar(II) sulfat | Cu2+ SO42- | [Cu+2].[O-]S(=O)(=O)[O-] |
Oenantotoksin (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO | |
Piretrin II (C21H28O3) | COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C | |
Aflatoksin B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
Glukoza (glukopiranoza) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1 | |
Kuskutin ili Bergenin (rezin) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
Feromon kalifornijkih štitastih vaši | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
2S,5R-halkogran : feromon potkorne bube Pityogenes chalcographus[5] | CC[C@H](O1)CC[C@@]12CCCO2 | |
Vanilin | O=Cc1ccc(O)c(OC)c1 | |
Melatonin (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 | |
Flavopereirin (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4 | |
Nikotin (C10H14N2) | CN1CCC[C@H]1c2cccnc2 | |
Alfa-tujone (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
Tiamin (C12H17ClN4OS+) (vitamine B1) | OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2 |
Ilustracija molekula sa više od 9 prstenova, Cefalostatin-1[6] (steroidni trisdeka ciklični pirazin sa empirijskom formulom C54H74N2O10 izolovanog iz Indijskog Okeana iz hemichordata Cephalodiscus gilchristi):
Počevši od metil radikala na levoj strani slike dobija se:
C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
(Obratite pažnju na '%' ispred indeksa oznaka zatvaranja prstenova iznad 9, pogledajte paragraf "Veze", iznad).
SMILES notacija je ekstenzivno opisana u SMILES teorijskom uputstvu koje je objavila kompanija Daylight Hemijski Informacioni Sistemi, i brojni ilustrovani primeri su dati. Daylight oruđe za prikaz Arhivirano 2001-12-02 na Wayback Machine-u pruža mogućnost korisnicima da provere njihove SMILES primere, i vredno je edukativno sredstvo.
SMARTS (engl. SMILES arbitrary target specification) je linijska notacija za specifikaciju podstrukturnih obrazaca molekula. Dok ona koristi većinom iste simbole kao SMILES, ona takođe dozvoljava specifikaciju džoker atoma i veza, koji se mogu koristiti za definisanje podstrukturnih upita za pretragu hemijskih baza podataka. Jedna česta miskoncepcija je da se SMARTS-bazirana podstrukturna pretraga sastoji od podudaranja SMILES i SMARTS niski. Zapravo, SMILES i SMARTS niske se prvo konvertuju u internu graf reprezentaciju koja se pretražuje za podgraf izomorfizam. SMIRKS je linijska notacija za specificiranje reakcionih transformacija.
SMILES se mogu konvertovati nazad u 2-dimenzionu reprezentaciju koristeći algoritam za generisanje strukturnog dijagrama (Helson, 1999). Ta konverzija nije uvek nedvosmislena. Konverzija u 3-dimenzionu reprezentaciju se može ostariti putem energijsko minimizacionih pristupa. Postoje mnogi dostupni programi i veb-bazirani konverzioni servisi.
- SMARTS jezik za specifikaciju podstrukturnih upita.
- SYBYL Linijska Notacija (SLN)
- Molekularni Upitni Jezik - upitni jezik koji sa podrškom za numeričke osobine, npr. fiziko-hemijske vrednosti ili razdaljine
- Hemijski Razvojni Pribor (2D raspored i konverzija)
- Internacionalni Hemijski Identifikator (InChI), besplatna i otvorena SMILES alternative, koju je razvio IUPAC.
- OpenBabel, JOELib, OELib (konverzija)
- ↑ Anderson, E.; Veith, G.D; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures (Report No. EPA/600/M-87/021 izd.). U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804.
- ↑ Weininger, D. (1988). „SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules”. J. Chem. Inf. Comput. Sci. 28 (31-36). DOI:10.1021/ci00057a005.
- ↑ Weininger, D.; Weininger, A.; Weininger, J.L. (1989). „SMILES. 2. Algorithm for generation of unique SMILES notation”. J. Chem. Inf. Comput. Sci. 29: 97-101. DOI:10.1021/ci00062a008.
- ↑ Helson, H.E. (1999). „Structure Diagram Generation”. Rev. Comput. Chem. edited by Lipkowitz, K. B. and Boyd, D. B. Wiley-VCH, New York: 313-398.
- ↑ ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY
- ↑ PubChem Compound CID=183413 (Cephalostatin-1)
- Vikimedija ostava ima još multimedijalnih fajlova vezanih za: Hemijska jedinjenja
- SMILES - Pojednostavljeni hemijski jezik
- OpenSMILES
- SMARTS - SMILES ekstenzija
- Daylight SMILES uputstvo
- SMILES parsiranje
- SMILES prevodilac i generator strukturnih fajlova Arhivirano 2001-05-01 na Wayback Machine-u
- PubChem strukturni editor
- smi23d Arhivirano 2007-09-14 na Wayback Machine-u – Generacija 3D koordinata
- Daylight prikaz Arhivirano 2001-12-02 na Wayback Machine-u – Translacija SMILES formula u grafike
- GIF/PNG-kreator za 2D crteže hemijskih struktura Arhivirano 2004-10-15 na Wayback Machine-u
- JME molekulski editor Arhivirano 2001-04-28 na Wayback Machine-u
- ACD/ChemSketch Arhivirano 2006-10-18 na Wayback Machine-u
- Marvin Arhivirano 2007-11-07 na Wayback Machine-u ChemAxon – online hemijski editor
- Instant JChem Arhivirano 2007-11-12 na Wayback Machine-u ChemAxon – program za manipulaciju SMILES struktura
- JChem za –{Excel Arhivirano 2010-02-03 na Wayback Machine-u ChemAxon – MS Excel add-in
- Smormo-Ed – molekulski editor za Linux
- InChI.info – nezvanični InChI vebsajt
- Balloon – Besplatni program za generisanje 3D koordinata i konformacionu analizu
- Dingo Arhivirano 2009-11-05 na Wayback Machine-u – IUPAC-usaglašena kros-platformska biblioteka
- Open Babel
- Bioclipse Arhivirano 2010-01-11 na Wayback Machine-u