BLEU
El BLEU, Evaluación bilingüe suplente (Bilingual Evaluation Understudy, en inglés), es un método de evaluación de la calidad de traducciones realizadas por sistemas de traducción automática. Una traducción tiene mayor calidad cuanto más similar es con respecto a otra de referencia, que se supone correcta. BLEU puede calcularse utilizando más de una traducción de referencia. Esto permite una mayor robustez a la medida frente a traducciones libres realizadas por humanos.
BLEU se calcula normalmente a nivel de frases y halla la precisión en ngramas entre la traducción del sistema y la de referencia. Sin embargo, se utiliza una precisión modificada con el fin de solucionar ciertas deficiencias en la medida.
Precisión modificada
[editar]La precisión de ngramas entre 2 frases es:
Candidata 1 | A | cat | is | on | the | mat |
Candidata 2 | The | cat | exists | in | the | board |
Referencia | The | cat | is | on | the | table |
En este ejemplo la precisión en 1-gramas sería de para la candidata 1 y de para la 2.
La precisión no es una medida adecuada para calcular la similitud entre 2 frases, como se puede ver a continuación:
Candidata | the | the | the | the | the | the |
Referencia | The | cat | is | on | the | table |
En este caso tendríamos una precisión de . Por ello se ha de tener en cuenta el número máximo de ocurrencias de un ngrama en la frase de referencia, siendo éste el límite a la hora de contabilizar las apariciones en la frase candidata. Con esto en cuenta la precisión modificada sería de en este último ejemplo.
Penalización por brevedad
[editar]Si las frases a comparar tienen una longitud muy distinta, no podemos afirmar que sean similares. Si la frase candidata tiene mayor longitud que la de referencia, este aspecto se ve reflejado en la fórmula de precisión modificada anterior. Habrá muchos ngramas en la frase candidata que no aparecerán en la frase de referencia por lo que la precisión será menor. Esto no ocurre cuando la frase de referencia es mucho menor, tal y como se puede observar en el siguiente ejemplo:
Candidata | the | the | ||||
Referencia | The | cat | is | on | the | table |
La precisión modificada sería de y no reflejaría la similitud entre ambas frases. Por ello se introduce un penalizador por brevedad de las frases candidatas.
donde c es la longitud de la frase candidata y r la longitud de la frase de referencia.
Cálculo de BLEU
[editar]Para el cálculo de BLEU se utiliza la media geométrica para los N ngramas que se vayan a utilizar. Cada ngrama tendrá un peso tal que . Típicamente
Referencias
[editar]- Papineni, K., Roukos, S., Ward, T., and Zhu, W. J. (2002). "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311--318
Véase también
[editar]- Métodos de evaluación para la traducción automática
- Traducción asistida
- Lingüística
- Traducción automática mediante lenguaje intermedio
- Traducción automática mediante transferencia
- Traducción automática basada en el contexto
- Traducción automática estadística