SMILES
SMILES (Simplified Molecular Input Line Entry Specification) kan på norsk oversettes med forenklet strukturkode for molekyler og er et system som muliggjør entydig beskrivelse av kjemiske molekylers struktur ved hjelp av korte ASCII-strenger. SMILES-strenger kan importeres av de fleste molekyl-editorer for konversjon tilbake til to-dimensjonale tegninger eller tre-dimensjonale modeller av molekylet.
Den opprinnelige SMILES-spesifikasjonen ble utviklet av Arthur Weininger og David Weininger på slutten av 1980-tallet. Den har siden blitt modifisert og utvidet av andre, særlig av Daylight Chemical Information Systems Inc. Andre lineære notasjonssystemer inkluderer Wiswesser Line Notation (WLN), ROSDAL og SLN (Tripos Inc). Nylig har IUPAC introdusert InChI (International Chemical Identifier) som en standard for å presentere formler. SMILES regnes generelt som å ha den fordelen at det er noe lettere å lese for mennesker enn InChI, og det har også et rikt utvalg av programvarestøtte med omfattende teoretisk (f.eks. grafteori) støtte.
Kanonisk SMILES og Isomerisk SMILES
[rediger | rediger kilde]Termen kanonisk SMILES viser til den versjonen av SMILES-spesifikasjon som inkluderer regler for å sikre at hvert distinkt kjemisk molekyl har en eneste, unik SMILES-representasjon. En vanlig anvendelse av kanonisk SMILES er indeksering og sikring av unikhet for molekyler i en database.
Termen isomerisk SMILES viser til den versjonen av SMILES-spesifikasjon som inkluderer tillegg til støtte for spesifisering av isotoper, chiralitet og konfigurasjonen av dobbeltbindinger. En viktig egenskap ved disse reglene er at de muliggjør rigorøs partiell spesifisering av chiralitet.
Grafbasert definisjon
[rediger | rediger kilde]I forhold til en grafbasert beregningsprosedyre er SMILES en streng som fremkommer ved å skrive ut symbolnodene man støter på i dybde-først-søk trevandring gjennom en kjemisk graf. Den kjemiske grafen blir først trimmet for å fjerne hydrogenatomer og sykluser brytes opp for å gjøre grafen om til et omspennende tre. Der sykluser har blitt brutt blir numeriske suffiksmerkelapper inkludert for å angi de tilkoplete nodene. Parenteser blir brukt for å angi punkter hvor treet forgrener seg.
Eksempler
[rediger | rediger kilde]Atomer blir representert med standardforkortelsen for grunnstoffene, i klammer, slik som [Au] for gull. Hydroksid-anionet er [OH-]. Klammer kan utelates for den «organiske undergruppen» til B, C, N, O, P, S, F, Cl, Br og I. Alle andre grunnstoffer må omsluttes med klammer. Dersom klammene utelates vil det korrekte antall implisitte hydrogenatomer antas; for eksempel vil SMILES for vann være kun O og for etanol CCO.
Dobbeltbindingen i karbondioksid representeres som O=C=O og trippelbindingen i hydrogencyanid som C#N.
Grener beskrives med parenteser, som i CCC(=O)O for propionsyre og C(F)(F)F for fluoroform, som og kunne beskrives av den ikke-kanoniske formelen FC(F)F.
Sykloheksan representeres som C1CCCCC1, der ideen bak de to ettallene er at de indikerer den samme posisjonen i molekylet, slik at det her dannes en ring med seks karbonatomer. Bemerk også at merkelappen er sifferet (i dette tilfellet 1) og ikke kombinasjonen ‘C1’.
Aromatiske C-, O-, S- og N-atomer vises med minuskler, altså ‘c’, ‘o’, ‘s’ og ‘n’. Bindinger i en aromatisk syklus blir sjelden markert eksplisitt unntatt i SMARTS søkemønstre. Benzen er derfor c1ccccc1.
Isomerisk SMILES
[rediger | rediger kilde]Konfigurering rundt dobbeltbindinger blir angitt ved bruk av tegnene «/» og «\». For eksempel er F/C=C/F en representasjon av trans-difluoroeten, hvor F-ene er på hver sin side av dobbeltbindingen, mens F/C=C\F er en representasjon av cis-difluoroeten, hvor F-ene er på samme side av dobbeltbindingen, slik figuren viser.
Utvidelser
[rediger | rediger kilde]SMARTS er en modifikasjon av SMILES som i tillegg til SMILES-elementene muliggjør spesifiseringen av joker-atomer og -bindinger. Dette brukes til å spesifisere søkestrukturer og blir i stor utstrekning brukt i søkeapplikasjoner for kjemiske databaser. Denne praksisen har ført til en utbredt misforståelse om at søk på kjemiske substrukturer ved utregninger skjer ved å matche SMILES/SMARTS-strenger mens de isteden skjer gjennom de utregningsmessig mer krevende søk etter subgraf isomorfisme i grafene som rekonstrueres utfra SMILES-representasjoner.
Konvertering
[rediger | rediger kilde]SMILES kan konvertes tilbake til to-dimensjonale representasjoner ved å bruke Struktur Diagram-Generering-algoritmer.[1] Denne konversjonen er ikke alltid entydig. Konversjon til tre-dimensjonal representasjon oppnås gjennom energiminimiserende innfallsmetoder.
Se også
[rediger | rediger kilde]- Chemistry Development Kit (2D layout og konvertering)
- International Chemical Identifier (InChI), det frie og åpne alternativet til SMILES av IUPAC.
- OpenBabel, JOELib, OELib (konvertering)
Referanser
[rediger | rediger kilde]- ^ Helson, Harold E. (1999). «Structure Diagram Generation». Reviews in Computational Chemistry. 13: 313-98. Red. Lipkowitz, K.B, Boyd, D.B., Wiley-VCH Press
Eksterne lenker
[rediger | rediger kilde]- «SMILES – Et forenklet språk»
- Daylight SMILES tutorial
- Webbaserte applikasjoner som kan utføre konvertering av SMILES-strenger til 2D strukturbilder
- Daylight Depict
- CACTVS ved NCI GIF/PNG-konverter med flere kontroller
- PubChem nettbasert molekyleditor som støtter SMILES/SMARTS, InChI og alle vanlige kjemiske filformater
- JME molekyleditor Arkivert 28. april 2001 hos Wayback Machine.-applet som kan skape SMILES
- Parsing av SMILES
- ACD/ChemSketch freeware
- Jmol molekyl-viewer for SMILES
- ChemAxon SMILES-kompatibel Javabasert molekyleditor og 2D/3D-viewer (Marvin), database og fullstendig kjeminformatikk verktøysett (JChem) med API, gratis for opplæring, akademisk forskning og for fritt tilgjengelig nettsteder
- Smormo-Ed Molekyleditor for Linux som kan lese og skrive SMILES
- E-BABEL Arkivert 15. februar 2011 hos Wayback Machine. Interaktiv konvertering av molekyler på nettet ved bruk av OpenBabel