SMILES

SMILES (Simplified Molecular Input Line Entry Specification) kan på norsk oversettes med forenklet strukturkode for molekyler og er et system som muliggjør entydig beskrivelse av kjemiske molekylers struktur ved hjelp av korte ASCII-strenger. SMILES-strenger kan importeres av de fleste molekyl-editorer for konversjon tilbake til to-dimensjonale tegninger eller tre-dimensjonale modeller av molekylet.

Den opprinnelige SMILES-spesifikasjonen ble utviklet av Arthur Weininger og David Weininger på slutten av 1980-tallet. Den har siden blitt modifisert og utvidet av andre, særlig av Daylight Chemical Information Systems Inc. Andre lineære notasjonssystemer inkluderer Wiswesser Line Notation (WLN), ROSDAL og SLN (Tripos Inc). Nylig har IUPAC introdusert InChI (International Chemical Identifier) som en standard for å presentere formler. SMILES regnes generelt som å ha den fordelen at det er noe lettere å lese for mennesker enn InChI, og det har også et rikt utvalg av programvarestøtte med omfattende teoretisk (f.eks. grafteori) støtte.

Kanonisk SMILES og Isomerisk SMILES

[rediger | rediger kilde]

Termen kanonisk SMILES viser til den versjonen av SMILES-spesifikasjon som inkluderer regler for å sikre at hvert distinkt kjemisk molekyl har en eneste, unik SMILES-representasjon. En vanlig anvendelse av kanonisk SMILES er indeksering og sikring av unikhet for molekyler i en database.

Termen isomerisk SMILES viser til den versjonen av SMILES-spesifikasjon som inkluderer tillegg til støtte for spesifisering av isotoper, chiralitet og konfigurasjonen av dobbeltbindinger. En viktig egenskap ved disse reglene er at de muliggjør rigorøs partiell spesifisering av chiralitet.

Grafbasert definisjon

[rediger | rediger kilde]

I forhold til en grafbasert beregningsprosedyre er SMILES en streng som fremkommer ved å skrive ut symbolnodene man støter på i dybde-først-søk trevandring gjennom en kjemisk graf. Den kjemiske grafen blir først trimmet for å fjerne hydrogenatomer og sykluser brytes opp for å gjøre grafen om til et omspennende tre. Der sykluser har blitt brutt blir numeriske suffiksmerkelapper inkludert for å angi de tilkoplete nodene. Parenteser blir brukt for å angi punkter hvor treet forgrener seg.

Eksempler

[rediger | rediger kilde]

Atomer blir representert med standardforkortelsen for grunnstoffene, i klammer, slik som [Au] for gull. Hydroksid-anionet er [OH-]. Klammer kan utelates for den «organiske undergruppen» til B, C, N, O, P, S, F, Cl, Br og I. Alle andre grunnstoffer må omsluttes med klammer. Dersom klammene utelates vil det korrekte antall implisitte hydrogenatomer antas; for eksempel vil SMILES for vann være kun O og for etanol CCO.

Dobbeltbindingen i karbondioksid representeres som O=C=O og trippelbindingen i hydrogencyanid som C#N.

Grener beskrives med parenteser, som i CCC(=O)O for propionsyre og C(F)(F)F for fluoroform, som og kunne beskrives av den ikke-kanoniske formelen FC(F)F.

Sykloheksan representeres som C1CCCCC1, der ideen bak de to ettallene er at de indikerer den samme posisjonen i molekylet, slik at det her dannes en ring med seks karbonatomer. Bemerk også at merkelappen er sifferet (i dette tilfellet 1) og ikke kombinasjonen ‘C1’.

Aromatiske C-, O-, S- og N-atomer vises med minuskler, altså ‘c’, ‘o’, ‘s’ og ‘n’. Bindinger i en aromatisk syklus blir sjelden markert eksplisitt unntatt i SMARTS søkemønstre. Benzen er derfor c1ccccc1.

Isomerisk SMILES

[rediger | rediger kilde]
Representasjon av cis-difluoroeten

Konfigurering rundt dobbeltbindinger blir angitt ved bruk av tegnene «/» og «\». For eksempel er F/C=C/F en representasjon av trans-difluoroeten, hvor F-ene er på hver sin side av dobbeltbindingen, mens F/C=C\F er en representasjon av cis-difluoroeten, hvor F-ene er på samme side av dobbeltbindingen, slik figuren viser.

Utvidelser

[rediger | rediger kilde]

SMARTS er en modifikasjon av SMILES som i tillegg til SMILES-elementene muliggjør spesifiseringen av joker-atomer og -bindinger. Dette brukes til å spesifisere søkestrukturer og blir i stor utstrekning brukt i søkeapplikasjoner for kjemiske databaser. Denne praksisen har ført til en utbredt misforståelse om at søk på kjemiske substrukturer ved utregninger skjer ved å matche SMILES/SMARTS-strenger mens de isteden skjer gjennom de utregningsmessig mer krevende søk etter subgraf isomorfisme i grafene som rekonstrueres utfra SMILES-representasjoner.

Konvertering

[rediger | rediger kilde]

SMILES kan konvertes tilbake til to-dimensjonale representasjoner ved å bruke Struktur Diagram-Generering-algoritmer.[1] Denne konversjonen er ikke alltid entydig. Konversjon til tre-dimensjonal representasjon oppnås gjennom energiminimiserende innfallsmetoder.

Referanser

[rediger | rediger kilde]
  1. ^ Helson, Harold E. (1999). «Structure Diagram Generation». Reviews in Computational Chemistry. 13: 313-98.  Red. Lipkowitz, K.B, Boyd, D.B., Wiley-VCH Press

Eksterne lenker

[rediger | rediger kilde]
Autoritetsdata