Persejajaran sekuen jamak

Penyejajaran sekuens jamak menggunakan ClustalW

Penyejajaran sekuens jamak (bahasa Inggris: multiple sequence alignment) merupakan penyejajaran tiga atau lebih sekuens asam nukleat, protein, atau RNA.[1] Penyejajaran ini dapat digunakan untuk melihat homologi baik secara keseluruhan ataupun parsial, yang nanti datanya dapat digunakan untuk melihat kekerabatan antara spesies.[1]

Kegunaan

Kegunaan penyejajaran sekuens jamak antara lain:

  1. Dapat melihat hubungan evolusi antar sekuens.[1]
  2. Melihat area yang berulang pada sekuens yang berbeda. Contoh pada sekuens asam amino yang memiliki area yang berulang pada sekuens yang berbeda maka dapat diprediksi memiliki struktur yang mirip. Pada DNA dapat digunakan untuk mencari sekuens regulator.[1]
  3. Dapat menyusun proba atau primer DNA yang dapat digunakan untuk penelitian biologi molekular seperti reaksi berantai polimerase.[1]

Tantangan

Dalam penyejajaran sekuens jamak terdapat sejumlah tantangan, yaitu:

  • Pencarian nilai penyejajaran yang paling optimum.[1]
Untuk mencari penyejajaran yang paling optimum terdapat empat jenis pendekatan yaitu:
  1. Penyejajaran progresif global.[1]
  2. Metode iterasi.[1]
  3. Penyejajaran berdasarkan daerah lokal yang berulang.[1]
  4. Metode statistik dan model kemungkinan atau probabilitas.[1]
  • Mengidentifikasi metode yang logis untuk memperoleh nilai kumulatif untuk substitusi dalam kolom penyejajaran.[1]
  • Peletakan dan penilaian dari elemen (asam amino, protein atau RNA) yang senjang (gap) pada sekuens yang bervariasi.[1]

Pemograman dinamis

Teknik ini digunakan untuk mencari penyejajaran yang terbaik dari sekuens yang ada dengan menggunakan penyejajaran global.[1] Terdapat dua jenis teknik dalam menilai hasil dari pemograman dinamis:

  1. Weighted sum: jumlah sekuens yang dianalisis bergantung pada tahap komputasi dan kemampuan memori komputer, sehingga jumlah sekuens yang dianalisis tidak bisa dalam jumlah besar.[1] Contoh bila terdapat tiga sekuens, maka komputer akan memprediksikan dalam bentuk tiga dimensi.[1] Bila terdapat empat sekuens, maka komputer akan memprediksikan dalam bentuk empat dimensi, dan seterusnya.[1]
  2. Sum of Pair: karena teknik sebelumnya yang sulit untuk digunakan, maka Carrillo dan Lipman (1988) menemukan teknik sum of pair.[1] Metode ini menghitung menggunakan matriks PAM (Percent Accepted Mutation) dan BLOSUM (Blocks Amino Acid Substitution Matrices).[1] Masalah yang terjadi pada teknik ini adalah mutasi dari satu jenis asam amino saja dapat mengubah skor secara signifikan.[1]

Metode progresif

Jika metode sebelumnya digunakan hanya untuk tiga sekuens atau sekuens pendek (sekitar enam hingga delapan asam amino),[1] maka metode ini juga menggunakan pemograman dinamik, lalu secara progresif menambahkan sekuens yang tidak terlalu berhubungan.[1] Hubungan antar sekuens dimodelkan dalam pohon filogenetika; cabang dan daunnya adalah hasil dari penyejajaran sekuens.[1] Algoritma yang biasa digunakan adalah Feng Doolittle, ditemukan oleh Da-Fei Feng dan Russel Doolittle.[2] Program yang menggunakan metode ini salah satunya adalah ClustalW.[1] Clustal telah lama ada, sudah lebih dari sepuluh tahun dan Clustal membuat penyejajaran global-jamak.[1] Huruf W dari ClustalW memiliki kepanjangan yaitu weighting yang berarti memiliki kemampuan untuk menyediakan bobot pada sekuens dan parameter program.[1] ClustalW akan memberikan hasil yang baik bila sekuens memiliki kemiripan lebih dari 6σ.[3] Tahap pengerjaan mencakup: membuat penyejajaran berpasangan dari semua sekuens, menggunakan skor penyejajaran untuk membuat pohon filogenetika, dan menyejajarkan progresif sekuens jamak yang mengacu pada pohon filogenetika, sehingga sekuens yang paling mirip akan disejajarkan terlebih dahulu.[1] Dalam pembuatan pohon filogenetika, jarak genetika antar sekuens diperlukan.[1] Jarak genetika adalah jumlah posisi yang tidak berpasangan dibagi dengan posisi yang berpasangan.[1] Clustal W juga memiliki pilihan untuk menambah satu atau lebih sekuens dengan bobot atau penyejajaran yang sudah ada.[1] Ketika satu pohon filogenetika telah dibuat, dengan tambahan tersebut dapat memungkinkan terjadi perubahan jamak.[1] Hal yang harus diperhatikan adalah sekuens pertama yang disejajarkan harus paling dekat dengan pohon sekuens, maka kejanggalan yang dihasilkan tidak akan banyak.[1]

Metode iteratif

Metode ini menghitung terlebih dahulu hal yang membuat penyejajaran tersebut lebih baik, lalu diulang terus menerus hingga mendapatkan nilai penyejajaran yang lebih tinggi.[1]

Penyejajaran secara lokal

Jika metode-metode sebelumnya menjelaskan penyejajaran secara global.[1] Ketika analisis secara global banyak ditemukan kesenjangan, dan telah dapat disubstitusi, sehingga penyejajaran dari area tersebut menjadi sebuah sekuens baru yang dapat ditentukan.[1] Area baru tanpa kesenjangan disebut blok, dan blok ini dapat dipakai dalam penyejajaran sekuens.[1] Teknik penyejajaran secara lokal dapat dilakukan dengan analisis profil, analisis blok, ekstraksi blok dari penyejajaran secara global dan lokal, pencarian pola (pattern), blok yang diproduksi oleh server BLOCKS dari sekuens yang belum disejajarkan, metode emotif dari analisis motif.[1]

Analisis profil

Hal yang pertama kali dilakukan adalah menganalisis secara global, lalu pada bagian yang sangat mirip (highly conserved) dari semua sekuens yang dianalisis dihapus, sehingga terbentuk sekuens yang lebih pendek.[1] Kelemahannya adalah hanya merepresentasikan variasi dari famili sekuens. Jika beberapa sekuens memiliki elemen yang mirip maka akan menjadi bias.[1]

Analisis blok

Proses ini memakai bagian yang mirip (conserved), karena pada bagian ini sedikit sekali elemen yang mengalami insersi dan delesi, tetapi hal yang ditampilkan dari sekuens-sekuens tersebut adalah elemen yang cocok dan tidak cocok.[1] Penggunaan statistika dan statistika Bayessian dapat menunjukkan area yang memiliki bagian yang mirip.[1] Melalui analisis blok, pohon filogenetika dapat dibentuk.[1] Metode ini tidak menggunakan matriks PAM dan BLOSUM, sehingga mereka akan mencari pasangan yang cocok yang sedikit input.[1]

Ekstraksi blok dari penyejajaran secara global dan lokal

Bagian yang tidak senjang dapat diekstraksi dan digunakan untuk memproduksi blok baru.[1] Blok yang dihasilkan akan bagus bisa sumber ekstraksinya juga bagus.[1]

Pencarian pola

Pola suatu area dari berbagai sekuens dapat diacu dari sebuah katalog. Pola tersebut dapat menyatakan fungsi yang mirip dari sekuens yang dianalisis.[1] Contoh, suatu protein A memiliki pola yang mirip dengan enzim tertentu, sehingga dapat diprediksikan fungsi protein A mirip dengan enzim tersebut.[1]

Blok yang diproduksi oleh server BLOCKS dari sekuens yang belum disejajarkan

Server BLOCKS dapat mengekstraksi area yang mirip dan tidak senjang untuk membuat sebuah blok.[1] Server yang sama dapat juga mencari blok pada set dari sekuens yang belum disejajarkan, input sekuens-sekuens, dan menjaga database blok yang besar.[1]

Metode emotif dari analisis motif

Metode ini sangat berbeda tetapi sangat berguna untuk mengidentifikasi motif dalam sekuens protein.[1] Dari database BLOCKS dan database HSSP, set dari karakteristik substitusi asam amino dari penyejajaran ditemukan.[1]

Metode statistik untuk membantu penyejajaran

  • Memaksimumkan algoritma
Algoritme telah digunakan untuk mengidentifikasi daerah yang mirip dari protein yang belum disejajarkan dan situs pengikatan protein pada sekuens DNA yang belum disejajarkan, termasuk area yang mungkin mengandung senjang.[1] Sebuah teknik yang digunakan untuk sekuensing protein telah ditemukan dalam program SAGA (Sequence Alignment by Genetic Algorithm).[4]
  • Gibbs Sampler
Gibss Sampler mencari motif yang paling mungkin dan dapat mencari kedalaman yang optimal dan angka dari motif-motif dari setiap sekuens.[1] Pendekatan kombinatorial dari Gibbs Sampler dapat digunakan untuk membuat blok.[1]
  • Model Markov Tersembunyi
Model Markov tersembunyi merupakan model statistik yang menggunakan semua kombinasi yang munkin dari elemen yang cocok, tidak cocok dan senjang untuk mendapatkan penyejajaran dari sebuah sekuens.[1] Sebuah model dari sekuens famili pertama kali dibuat dan diinisialisasi dengan informasi mengenai sekuens.[1] Model Markov tersembunyi telah diaplikasikan dalam pengenalan struktur protein, yang telah ada dalam program CASP.[5]

Referensi

  1. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc (Inggris) Mount DW. 2004. Bioinformatics: Sequence and Genome Analysis. New York: Cold Spring Harbor Laboratory.
  2. ^ (Inggris) Pevsner J. 2009. Bioinformatics and Functional Genomics. Hoboken: Wiley & Blackwell.
  3. ^ (Inggris) Baxevanis AD, Oullette BFF. 2001. Bioinformatics: A Practical Guides to Analysis of Genes and Proteins. New York: John Wiley & Sons.
  4. ^ (Inggris) Notredame C, Higgins DG. 1996. SAGA: Sequence Alignment by Genetic Algortihm. Nucleic Acid Res 24(8): 1515-1524.
  5. ^ (Inggris) Lesk AM. 2002. Introduction to Bioinformatics. New York: Oxford University Press.

Konten ini disalin dari wikipedia, mohon digunakan dengan bijak.

×
Advertisement