Clustal

Clustal

Alineamiento múltiple de secuencias obtenido mediante ClustalW.
Información general
Tipo de programa Herramienta bioinformática
Autor Desmond Higgins
Desarrollador Desmond Higgins
Fabian Sievers
David Dineen
Andreas Wilm
(todos miembros del Conway Institute, UCD)
Licencia Libre para uso académico
Información técnica
Programado en C++
Archivos legibles
Formato FASTA
Enlaces

Clustal es una familia de programas informáticos ampliamente utilizados para realizar alineamientos múltiples de secuencias.[1]

Historia

[editar]

Se han desarrollado diferentes variaciones del software Clustal, los cuales se enumeran a continuación:

  • Clustal: El software original para alineamiento múltiple de secuencias, creado por Des Higgins en 1988. Se basa en la obtención de árboles filogenéticos a partir de pares de secuencias de aminoácidos o nucleótidos.[2]
  • ClustalV: En 1992, se publicó la segunda generación del software Clustal, siendo un rediseño de la primera. Introdujo la reconstrucción de árboles filogenéticos en el último alineamiento, la posibilidad de crear alineamiento a partir de otros alineamientos, y la opción de crear árboles con alineamientos mediante el método de unión de vecinos.[3]
  • ClustalW: Tercera generación, la cual fue publicada en 1994 y mejoró sustancialmente respecto a las anteriores versiones. El algoritmo de alineamiento progresivo mejoró en diferentes aspectos. Permite considerar o descartar secuencias individuales de acuerdo con su grado de similitud o divergencia respectivamente, en un alineamiento parcial. También permite ejecutar el programa por módulos en una interfaz de línea de comandos.[4]
  • ClustalX: Esta versión fue lanzada en 1997 e incluye una interfaz gráfica de usuario.[5]
  • Clustal2: Esta versión, publicada en 2007, actualiza tanto ClustalW como ClustalX, con mayor precisión y eficiencia.[6]
  • ClustalΩ (Omega): La versión estándar actual, la cual se publicó en 2011 por primera vez.[7]

Funciones

[editar]

Entrada/Salida

[editar]

Este programa acepta un amplio rango de formatos de entrada. Incluyendo NBRF/PIR, FASTA, EMBL/Swissprot, Clustal, GCC/MSF, GCG9 RSF y GDE.

El formato de salida puede ser alguno de los siguientes: Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE o NEXUS.

Alineamiento múltiple de secuencias

[editar]

Hay tres etapas importantes:

  1. Hacer un alineamiento por pares
  2. Crear un árbol filogenético (o usar un árbol definido por el usuario)
  3. Usar el árbol filogenético para llevar a cabo el alineamiento múltiple

Esto es hecho automáticamente cuando seleccionas "Do Complete Alignment" ("Hacer el alineamiento completo", en español). Otras opciones son "Do Alignment from guide tree" ("Hacer el alienamiento con el árbol guía") y "Produce guide tree only" ("Sólo producir el árbol guía).

Alineamientos de perfiles

[editar]

Los alineamientos de parejas son computados con un método todos contra todos y las similitudes son guardadas en una matriz. Esta es luego convertida en una matriz de distancias, donde la longitud de la distancia refleja la distancia evolutiva entre cada par de secuencias.

De esta matriz de distancias, es creado un árbol de guía o filogenético utilizando un algoritmo de clustering neighbour-joining para determinar el orden en que los pares de secuencias serán alineados y combinados con alineamientos previos. Las secuencias son alineadas progresivamente en cada punto de ramificación empezando por los pares de secuencias más cercanos.

Configuraciones

[editar]

Los usuarios pueden alinear las secuencias usando las configuraciones por defecto, pero ocasionalmente es más útil personalizar los parámetros. Los principales parámetros son la penalización por abrir huecos ("gaps") y por extenderlos.

Versión acelerada

[editar]

Una versión basada en FPGA del algoritmo ClustalW es ofrecida por Progeniq, mostrando ser 20 veces más veloz que otras implementaciones.

Referencias

[editar]
  1. Chenna, Ramu; Sugawara, Hideaki; Koike, Tadashi; Lopez, Rodrigo; Gibson, Toby J.; Higgins, Desmond G.; Thompson, Julie D. (1 de julio de 2003). «Multiple sequence alignment with the Clustal series of programs». Nucleic Acids Research 31 (13): 3497-3500. ISSN 1362-4962. PMID 12824352. doi:10.1093/nar/gkg500. Consultado el 14 de julio de 2023. 
  2. Higgins, D. G.; Sharp, P. M. (15 de diciembre de 1988). «CLUSTAL: a package for performing multiple sequence alignment on a microcomputer». Gene 73 (1): 237-244. ISSN 0378-1119. PMID 3243435. doi:10.1016/0378-1119(88)90330-7. Consultado el 29 de diciembre de 2023. 
  3. Higgins, D. G.; Bleasby, A. J.; Fuchs, R. (Abril de 1992). «CLUSTAL V: improved software for multiple sequence alignment». Computer applications in the biosciences: CABIOS 8 (2): 189-191. ISSN 0266-7061. PMID 1591615. doi:10.1093/bioinformatics/8.2.189. Consultado el 29 de diciembre de 2023. 
  4. Thompson, J. D.; Higgins, D. G.; Gibson, T. J. (11 de noviembre de 1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Research 22 (22): 4673-4680. ISSN 0305-1048. PMID 7984417. doi:10.1093/nar/22.22.4673. Consultado el 29 de diciembre de 2023. 
  5. Thompson, J. D.; Gibson, T. J.; Plewniak, F.; Jeanmougin, F.; Higgins, D. G. (15 de diciembre de 1997). «The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools». Nucleic Acids Research 25 (24): 4876-4882. ISSN 0305-1048. PMID 9396791. doi:10.1093/nar/25.24.4876. Consultado el 14 de julio de 2023. 
  6. Larkin, M. A.; Blackshields, G.; Brown, N. P.; Chenna, R.; McGettigan, P. A.; McWilliam, H.; Valentin, F.; Wallace, I. M. et al. (1 de noviembre de 2007). «Clustal W and Clustal X version 2.0». Bioinformatics (Oxford, England) 23 (21): 2947-2948. ISSN 1367-4811. PMID 17846036. doi:10.1093/bioinformatics/btm404. Consultado el 29 de diciembre de 2023. 
  7. Sievers, Fabian; Higgins, Desmond G. (2014). «Clustal Omega, accurate alignment of very large numbers of sequences». Methods in Molecular Biology (Clifton, N.J.) 1079: 105-116. ISSN 1940-6029. PMID 24170397. doi:10.1007/978-1-62703-646-7_6. Consultado el 29 de diciembre de 2023. 

Enlaces externos

[editar]