DNA dizisi
DNA dizisi veya genetik dizi, gerçek veya hayalî bir DNA molekülü veya ipliğinin birincil yapısına karşılık gelen harfler dizisidir.
Bu dizide bulunan harfler A, C, G ve T 'dir, bunlar DNA ipliğinde bulunan adenin, sitozin, guanin ve timin adlı dört bazı temsil eder. Tipik olarak bu diziyi oluşturan harfler birbirine bitişik olarak, aralarda boşluk olmaksızın yazılır, örneğin AAAGTCTGAC gibi; bu dizinin soldan sağa okunuşu 5'-3' doğrultusuna karşılık gelir.
Fonksiyona göre bir DNA dizisine anlamlı veya anti-anlamlı ve kodlayan veya kodlamayan olarak değinilebilir.
Bir DNA molekülünün baz dizisinin okunmasına DNA dizilemesi denir.
Belirsizlik sembolleri
[değiştir | kaynağı değiştir]Özel durumlarda bir dizide A, T, C ve G dışında harfler bulunabilir. Bu harfler dizide belirsizlik olduğunu belirtmek için kullanılır. Saf ve Uygulamalı Kimya Uluslararası Birliği (IUPAC)'nin bu amaç için belirlemiş olduğu sembollerin anlamları (ve anımsatıcıları) şöyledir:[1]
- A = adenin
- C = sitozin (ing. cytosine)
- G = guanin
- T = timin
- U = uridin (RNA dizilerinde kullanılır)
- R = G A (pürin)
- Y = T C (pirimidin: ing. pyrimidine)
- K = G T (keto gruplular)
- M = A C (amino gruplular)
- S = G C (kuvvetli bağlılar: ing. strong bonds)
- W = A T (zayıf bağlılar: ing. weak bonds)
- B = G T C (A harici hepsi)
- D = G A T (C harici hepsi)
- H = A C T (G harici hepsi)
- V = G C A (T harici hepsi)
- N = A G C T (herhangi)
Yukarıda belirtilen belirsizlik sembolleri başlıca iki durumda kullanılır:
- DNA dizilemesi sırasında bir baz teknik nedenlerden dolayı tam okunamadığı zaman (örneğin ya G ya C olabilirse, 'S' yazılır)
- birbirine benzeşen dizilerin ortak yönlerini belirtmek için. Örneğin SREBP adlı transkripsiyon faktörünün bağlandığı dizilerin ortak özelliği TCACNCCAC olarak yazılabilir. Bu örnekteki N harfi o konumda herhangi bir bazın bulunabileceği anlamına gelir. Bir diziler grubununu bu şekilde ifade edilen biçimine dizi motifi denir.
Dizi formatları
[değiştir | kaynağı değiştir]DNA dizilerinin biyoenformatik programları tarafından okunması için belli standart formatlar oluşmuştur. Örneğin bunların en yaygını olan FASTA formatında birinci satır bir ">" sembolünü takibeden bir başlık içerir, onu izleyen satırlarda ise DNA dizisi yer alır.[2] Örneğin:
>gi|14456711|ref|NM_000558.3| Homo sapiens hemoglobin, alpha 1 (HBA1), mRNA ACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTC AAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCC TGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGG CCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTG TCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACT GCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAA GTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTT CTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAA AGTCTGAGTGGGCGGC
Ayrıca bakınız
[değiştir | kaynağı değiştir]Kaynakça
[değiştir | kaynağı değiştir]- ^ Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences 21 Ağustos 2017 tarihinde Wayback Machine sitesinde arşivlendi., NC-IUB, 1984.
- ^ "FASTA format description". 10 Ağustos 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Haziran 2009.