Filogenética computacional

Filogenética computacional é a aplicação de algoritmos computacionais, métodos e programas para a análise filogenética. O objetivo é montar uma árvore filogenética representando uma hipótese sobre a ancestralidade evolutiva de um conjunto de genes, espécies ou outras taxa.^[1]^[2] Por exemplo, estas técnicas têm sido usadas para explorar a árvore genealógica da família das espécies de hominídeos^[3] e as relações entre genes específicos compartilhados por muitos tipos de organismos.^[4] A filogenética tradicional baseia-se nos dados morfológicos obtidos pela medição e quantificação das propriedades fenotípicas de organismos representativos, enquanto o campo mais recente da filogenia molecular usa seqüências de nucleotídeos codificando genes ou seqüências de aminoácidos codificando proteínas como base para a classificação. Muitas formas de filogenia molecular estão intimamente relacionadas e fazem uso extensivo do alinhamento de seqüências na construção e refino de árvores filogenéticas, que são utilizadas para classificar as relações evolutivas entre genes homólogos representados nos genomas de espécies divergentes. As árvores filogenéticas construídas por métodos computacionais não são susceptíveis de reproduzir perfeitamente as árvores evolutivas que representam as relações históricas entre as espécies que estão sendo analisadas. A árvore histórica das espécies também podem ser diferentes da árvore histórica de um gene homólogo individual compartilhado por essas espécies.

Produzir uma árvore filogenética requer uma medida de homologia entre as características compartilhadas pelos taxa sendo comparada. Em estudos morfológicos, isto requer decisões explícitas sobre quais características físicas se deve medir e como usá-las para codificar estados distintos correspondente à taxa fornecida. Em estudos moleculares, um problema principal consiste na produção de um Alinhamento múltiplo de sequências entre os genes ou seqüências de aminoácidos de interesse. Métodos de alinhamento progressivo de seqüências de produzem uma árvore filogenética por necessidade, porque eles incorporam novas seqüências no alinhamento calculado na ordem da distância genética.

Tipos de árvores filogenéticas

Árvore filogenéticas geradas pela filogenia computacional podem ser enraizadas ou não enraizadas dependendo dos dados de entrada e do algoritmo utilizado. Uma árvore enraizada é um grafo orientado que identifica explicitamente a ancestral comum mais recente (MRCA), geralmente uma seqüência imputado que não esteja representada na entrada. Medidas de distância genética podem ser usadas para traçar uma árvore com as seqüências de entrada como sendo os nós folha e as suas distâncias da raiz proporcional à sua distância genética a partir do MRCA hipotetisado. A identificação de uma raiz geralmente requer a inclusão nos dados de entrada de pelo menos um "grupo-externo" sabendo-se apenas remotamente relacionado com as seqüências de interesse.

Por outro lado, as árvores não enraizadas plotam as distâncias e as relações entre as seqüências de entrada, sem fazer suposições sobre a sua descida. Uma árvore não enraizada sempre pode ser produzida a partir de uma árvore enraizada, mas uma raiz normalmente não podem ser colocada em uma árvore não enraizadas sem dados adicionais sobre as taxas de divergência, como pressuposto na hipótese do relógio molecular.^[5]

O conjunto de todas as árvores filogenéticas possíveis para um determinado grupo de seqüências de entrada pode ser conceituada discretamente como um "espaço árvore" multidimensional definido através de caminhos de pesquisa que podem ser rastreados por algoritmos de otimização. Embora a contagem do número total de árvores para um número não trivial de seqüências de entrada pode ser complicado por variações na definição de uma topologia de árvore, é sempre verdade que há mais árvores enraizadas do que as árvores não enraizadas para um determinado número de entradas e escolha de parâmetros.^[6]

Codificação de caracteres e definindo homologia

Análise morfológica

O problema básico em filogenia morfológica é a montagem de uma matriz que represente um mapeamento de cada uma das taxa sendo comparadas a medições representativas para cada uma das características fenotípicas sendo usadas como um classificador. Os tipos de dados fenotípicos usados para construir esta matriz dependem da taxa sendo comparada; para espécies individuais, elas podem envolver medidas de médio tamanho corporal, comprimentos ou tamanhos de ossos em particular ou outras características físicas, ou mesmo manifestações comportamentais. Naturalmente, uma vez que nem todas as características fenotípicas possíveis poderiam ser medidas e codificadas para análise, a seleção de quais recursos medir é um dos principais obstáculos inerentes ao método.

A decisão de que traços usar como base para a matriz representa necessariamente uma hipótese sobre qual os traços de uma espécie ou taxon superiores são evolutivamente relevantes.^[7] Estudos morfológicos podem ser confundidos com exemplos de evolução convergente de fenótipos.^[8] Um desafio maior na construção de classes úteis é a alta probabilidade de sobreposição inter-taxon na distribuição da variação dos fenótipos. A inclusão da taxa extinto na análise morfológica é muitas vezes difícil, devido à ausência de ou incompletos registros fósseis, mas se tem mostrado ter um efeito significativo sobre as árvores produzidas; em um estudo apenas a inclusão de espécies extintas de macacos produziu uma árvore morfologicamente derivada que foi consistente com a produzida a partir de dados moleculares.^[3]

Algumas classificações fenotípicas, particularmente aquelas usadas quando se analisa grupos muito diversificados de taxa, são discretos e sem ambiguidades; a classificação de organismos como possuindo ou não cauda, por exemplo, é simples na maioria dos casos, como na contangem de características como os olhos ou vértebras. No entanto, a representação mais adequada de medições fenotípicas continuamente variáveis é um problema controverso, sem uma solução geral. Um método comum é simplesmente classificar as medidas de interesse em duas ou mais classes, tornando a variação contínua observada como classificável como discreta (por exemplo, todos os exemplos com os ossos úmero maiores do que um dado corte são marcados como membros de um estado, e todos os membros cujos ossos úmero são mais curtos do que o corte são classificadas como membros de um segundo estado). Isso resulta em um conjunto de dados facilmente manipulado, mas tem sido criticado pelos relatórios pobres da base para as definições de classe e por sacrificar informações em relação aos métodos que utilizam uma distribuição contínua ponderada das medições.^[9]

Como os dados morfológicos são extremamente trabalhosos para coletar, seja de fontes bibliográficas ou de observações de campo, a reutilização de matrizes de dados previamente compiladas não é incomum, embora isso possa propagar falhas na matriz original em múltiplas análises de derivativos.^[10]

Análise molecular

O problema de codificação de caracteres é muito diferente em análise molecular, uma vez que os caracteres na seqüência de dados biológicos são definidos discretamente e de forma imediata - distintos nucleotídeos em seqüências de ADN ou ARN e distintos aminoácidos em seqüências de proteínas. No entanto, definir homologias pode ser um desafio devido às dificuldades inerentes do alinhamento múltiplo de sequências. Para um determinado alinhamento múltiplo de sequências (AMSs) com lacunas, várias árvores filogenéticas enraizadas podem ser construídas que variam em suas interpretações de quais mudanças são "mutações" versus caracteres ancestrais e quaiss eventos são mutações de inserção ou mutações de deleção. Por exemplo, dado apenas um alinhamento de pares com uma região de lacuna, é impossível determinar se uma seqüência tem uma mutação de inserção ou é a outra que tem uma deleção. O problema é ampliado em AMSs com lacunas desalinhadas e que não se sobrepõem. Na prática, regiões consideráveis de um alinhamento calculado podem ser descontadas na construção da árvore filogenética para evitar a integração de dados com ruído no cálculo da árvore.

Métodos de matrizes de distâncias

Métodos de matrizes de distâncias para análise filogenética dependem explicitamente de uma medida de "distância genética" entre as seqüências sendo classificadas, e, portanto, eles exigem um AMS como entrada. Distância é muitas vezes definida como a fração de não correspondências em posições alinhadas, com lacunas ou ignoradas ou contadas como não correspondências.^[5] Métodos de distância tentam construir uma matriz de todos-para-todos da consulta (query) de seqüências descrevendo a distância entre cada um dos pares da seqüência. A partir desta é construída uma árvore filogenética que coloca seqüências estreitamente relacionadas sob o mesmo nó interior e cujo comprimento de ramo reproduz de perto as distâncias observadas entre as seqüências. Métodos de matrizes de distâncias podem produzir árvores enraizadas ou não enraizadas, dependendo do algoritmo usado para calculá-las. Eles são freqüentemente usados como base para progressivos e iterativos tipos de alinhamento múltiplo de sequências. A principal desvantagem dos métodos de matrizes de distâncias é sua incapacidade de usar eficientemente informações sobre regiões de alta variação local que aparecem através de múltiplas sub-árvores.^[6]

Agrupamento de vizinhos

Os métodos de Agrupamento de vizinhos (Neighbor-joining methods) aplicam técnicas gerais de clustering de dados para análise de sequências utilizando a distância genética como uma métrica de clustering. O método de Agrupamento de vizinhos produz árvores não enraizadas, mas não assume uma taxa constante de evolução (ou seja, um relógio molecular) em linhagens. Seu parente, o UPGMA (Unweighted Pair Group Method with Arithmetic mean) produz árvores enraizadas e requer um que seja pressuposta uma taxa constante - ou seja, ele assume uma árvore ultramétrica em que as distâncias a partir da raiz para cada ponta de ramo são iguais.

Método Fitch-Margoliash

O método Fitch-Margoliash usa um método dos mínimos quadrados ponderado para o agrupamento (clustering ) com base na distância genética.^[11] À seqüências estreitamente relacionadas é dado maior peso no processo de construção da árvore para corrigir a imprecisão crescente em medição de distâncias entre seqüências distantemente relacionadas. As distâncias utilizadas como entrada para o algoritmo devem estar normalizadas para evitar amplos artefatos nos relacionamentos computacionais entre os grupos afins e parentes distantes. As distâncias calculadas por este método devem ser lineares; o critério de linearidade para distâncias requer que os valores esperados dos comprimentos dos ramos para dois ramos individuais deve ser igual ao valor esperado da soma das duas distâncias dos ramos - uma propriedade que se aplica a seqüências biológicas apenas quando tiverem sido corrigidas para a possibilidade de mutações regressivas em locais específicos. Esta correcção é feita através da utilização de uma matriz de substituição, tais como as derivadas a partir do modelo de Jukes-Cantor da evolução do DNA. A correção da distância só é necessária na prática, quando as taxas de evolução diferem entre os ramos.^[6] Outra modificação do algoritmo pode ser útil, especialmente em caso de distâncias concentradas: essa modificação, descrita em ^[12] tem sido demonstrada melhorar a eficiência do algoritmo e a sua robustez.

O critério de mínimos quadrados aplicado a estas distâncias é mais preciso, mas menos eficiente do que os métodos de junção de vizinhos. Uma melhoria adicional que corrige as correlações entre as distâncias que surgem a partir de muitas sequências estreitamente relacionadas no conjunto de dados pode também ser aplicada no aumento do custo computacional. Encontrar a melhor árvore de mínimos quadrados com qualquer fator de correção é NP-completo^[13] de forma que métodos heurísticos de pesquisa, como aqueles utilizados na análise de máxima parcimónia são aplicados à pesquisa através do espaço da árvore.

Usando grupos externos

A informação independente sobre a relação entre seqüências ou grupos pode ser usada para ajudar a reduzir o espaço de busca em árvore e enraizar as árvores não enraizadas. A utilização padrão de métodos de matriz de distâncias envolve a inclusão de pelo menos uma sequência de um grupo externo conhecida por ser apenas remotamente relacionada com as sequências de interesse no conjunto de consulta.^[5] Esta utilização pode ser vista como um tipo de controle experimental. Se um grupo externo foi adequadamente escolhido, ele terá uma distância genética muito maior e assim um comprimento dos ramos mais longo do que qualquer outra sequência, e ela vai aparecer perto da raiz de uma árvore enraizada. Escolher um grupo externo apropriado requer a seleção de uma seqüência que é moderadamente relacionada com as seqüências de interesse; um relacionamento muito próximo frustra a finalidade do grupo externo e um relacionamento muito distante adiciona ruído à análise.^[5] Cuidados também devem ser tomados para evitar situações nas quais as espécies das quais as seqüências foram tiradas são distantemente relacionadas, mas o gene codificado pelas seqüências é altamente [Sequência conservada|conservado]] através das linhagens.

Bibliografia

Charles Semple and Mike Steel (2003), Phylogenetics, Oxford University Press, ISBN 9780198509424
Barry A. Cipra (2007), Algebraic Geometers See Ideal Approach to Biology, SIAM News, Volume 40, Number 6
Press, W.H.; Teukolsky , S.A.; Vetterling , W.T.; Flannery, B. P. (2007). «Section 16.4. Hierarchical Clustering by Phylogenetic Trees». Numerical Recipes: The Art of Scientific Computing 3 ed. New York: Cambridge University Press. ISBN 978-0-521-88068-8

Ver também

Referências

↑ Setubal, João; Meidanis, João (1997). Introduction to Computational Molecular Biology. Boston: PWS Publishing Company. 296 páginas. ISBN 0-534-95262-3
↑ Lesk, Arthur M. (2005). Introdução à Bioinformática. Porto Alegre: Artmed. p. 218. 381 páginas. ISBN 978-85-363-1104-3
↑ ^a ^b Strait D.S.; Grine F.E. (2004). «Inferring hominoid and early hominid phylogeny using craniodental characters: the role of fossil taxa». Journal of Human Evolution (em inglês). 47 (6): 399-452. ISSN 0047-2484
↑ Hodge T, Cope MJ. (2000). «A myosin family tree». Journal of Cell Science (em inglês). 113: 3353-3354. ISSN 0021-9533
↑ ^a ^b ^c ^d Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
↑ ^a ^b ^c Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.
↑ Swiderski DL, Zelditch ML, Fink WL. (1998). Why morphometrics is not special: coding quantitative data for phylogenetic analysis. 47(3):508-19.
↑ Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G. (2005). Mosaics of convergences and noise in morphological phylogenies: what's in a viverrid-like carnivoran? Syst Biol 54(6):865-94.
↑ Wiens JJ. (2001). Character analysis in morphological phylogenetics: problems and solutions. Syst Biol 50(5):689-99.
↑ Jenner RA. (2001). Bilaterian phylogeny and uncritical recycling of morphological data sets. Syst Biol 50(5): 730-743.
↑ Fitch WM, Margoliash E. (1967). Construction of phylogenetic trees. Science 155: 279-84.
↑ Lespinats, S., Grando, D., Maréchal, E., Hakimi, M.A., Tenaillon, O., et Bastien, O. (2011) “How Fitch-Margoliash Algorithm can benefit from Multi Dimensional Scaling.” Evolutionary Bioinformatics 2011:7 61-85
↑ Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.

[Meidanis-1] Setubal, João; Meidanis, João (1997). Introduction to Computational Molecular Biology. Boston: PWS Publishing Company. 296 páginas. ISBN 0-534-95262-3

[Lesk-2] Lesk, Arthur M. (2005). Introdução à Bioinformática. Porto Alegre: Artmed. p. 218. 381 páginas. ISBN 978-85-363-1104-3

[Strait-3] Strait D.S.; Grine F.E. (2004). «Inferring hominoid and early hominid phylogeny using craniodental characters: the role of fossil taxa». Journal of Human Evolution (em inglês). 47 (6): 399-452. ISSN 0047-2484

[Hodge-4] Hodge T, Cope MJ. (2000). «A myosin family tree». Journal of Cell Science (em inglês). 113: 3353-3354. ISSN 0021-9533

[mount-5] Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.

[felsenstein-6] Felsenstein J. (2004). Inferring Phylogenies Sinauer Associates: Sunderland, MA.

[Swiderski-7] Swiderski DL, Zelditch ML, Fink WL. (1998). Why morphometrics is not special: coding quantitative data for phylogenetic analysis. 47(3):508-19.

[Gaubert-8] Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G. (2005). Mosaics of convergences and noise in morphological phylogenies: what's in a viverrid-like carnivoran? Syst Biol 54(6):865-94.

[Wiens-9] Wiens JJ. (2001). Character analysis in morphological phylogenetics: problems and solutions. Syst Biol 50(5):689-99.

[Jenner-10] Jenner RA. (2001). Bilaterian phylogeny and uncritical recycling of morphological data sets. Syst Biol 50(5): 730-743.

[fitch-11] Fitch WM, Margoliash E. (1967). Construction of phylogenetic trees. Science 155: 279-84.

[Lespinats-12] Lespinats, S., Grando, D., Maréchal, E., Hakimi, M.A., Tenaillon, O., et Bastien, O. (2011) “How Fitch-Margoliash Algorithm can benefit from Multi Dimensional Scaling.” Evolutionary Bioinformatics 2011:7 61-85

[day-13] Day, WHE. (1986). Computational complexity of inferring phylogenies from dissimilarity matrices. Bulletin of Mathematical Biology 49:461-7.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]