SMILES of voluit simplified molecular-input line-entry specification is een specificatie om de structuur van chemische moleculen op eenduidige wijze te beschrijven als een tekenreeks. SMILES kunnen door de meeste chemische tekenprogramma's ingelezen worden en worden omgezet in een tweedimensionale tekening of een driedimensionaal model van het molecuul.

De specificatie was al ontwikkeld door David Weininger eind jaren 80 van de 20e eeuw, maar is door anderen aangepast en uitgebreid. Er bestaan nog andere lineaire notaties voor moleculen zoals Wiswesser Line Notation (WLN), ROSDAL en SLN (Tripos Inc).

Definitie

bewerken
 
Genereren van een SMILES-notatie: voorbeeld met vertakkingen en cyclische structuren; A: structuur, B: opzoeken cyclische eenheden, C: opzoeken langste koolstofketen met vertakkingen en D: SMILES-notatie

Het molecuul wordt weergegeven in een boomstructuur en de SMILES voor dat molecuul wordt verkregen door de labels van de knopen in de boom op te sommen zoals bij depth-first search.

Een label in de boom is de standaard representatie van het chemische element in rechte haken. Het label van goud is dus '[Au]'. De rechte haken mogen worden weggelaten voor de elementen B, C, N, O, F, P, S, Cl, Br, en I. Alle andere elementen moeten tussen rechte haken genoteerd worden. Als rechte haken worden weggelaten wordt het juiste aantal impliciete waterstofatomen verondersteld. Zo kan water (H2O) in SMILES eenvoudigweg als 'O' worden geschreven. Evenzo kan methaan (CH4) aangeduid worden met '[C]([H])([H])([H])[H]' en het kortere 'C'.

Vertakkingen in de boom worden aangegeven met haakjes: '(' en ')'. Een geladen atoom wordt weergegeven door een aantal keren '-' of '+' achter het label te plaatsen of door een keer '-' of '+' en dan een numerieke waarde, het geheel tussen rechte haken. Zo kan het hydroxide-anion gerepresenteerd worden door '[OH-]' en door '[OH-1]'.

Een molecuul kan een of meer ringstructuren bevatten. Om deze in een boom te kunnen opslaan, worden de ringen verbroken. Op de plaatsen waar de ringen verbroken worden, worden de labels in de boom uitgebreid met een getal. Gelijke getallen willen zeggen dat er in het molecuul daar een verbinding is. Cyclohexaan wordt gerepresenteerd door 'C1CCCCC1'.

Tussen twee atomen zijn verschillende typen chemische bindingen mogelijk. Het type van de binding wordt opgeslagen in de verbindingen in de boom. Een enkelvoudige binding wordt niet in de SMILES opgenomen, een dubbele binding wordt aangeduid met een '=' en een drievoudige binding met een '#'. Koolstofdioxide wordt gerepresenteerd door 'O=C=O' en waterstofcyanide door 'C#N'. Aromatische bindingen worden impliciet verondersteld tussen aromatische atomen, maar kunnen expliciet worden weergegeven door een dubbele punt, ':'. Een enkele binding tussen twee aromatische atomen kan ook expliciet worden aangegeven (zoals in bifenyl: c1ccccc1-c2ccccc2, hoewel dit niet de meest gebruikelijke notatie is voor bifenyl).

Uitbreidingen

bewerken

SMARTS is een aanpassing van SMILES die naast de SMILES elementen het gebruik van jokeratomen en -bindingen toe staat. Dit wordt gebruikt om chemische zoekstructuren te specificeren voor het zoeken in chemische databases.

Een belangrijke verbetering aan SMILES is de uitbreiding om stereochemische informatie te kunnen weergeven.

bewerken