BLEU

El BLEU, Evaluación bilingüe suplente (Bilingual Evaluation Understudy, en inglés), es un método de evaluación de la calidad de traducciones realizadas por sistemas de traducción automática. Una traducción tiene mayor calidad cuanto más similar es con respecto a otra de referencia, que se supone correcta. BLEU puede calcularse utilizando más de una traducción de referencia. Esto permite una mayor robustez a la medida frente a traducciones libres realizadas por humanos.

BLEU se calcula normalmente a nivel de frases y halla la precisión en ngramas entre la traducción del sistema y la de referencia. Sin embargo, se utiliza una precisión modificada con el fin de solucionar ciertas deficiencias en la medida.

Precisión modificada

La precisión de ngramas entre 2 frases es:

P={\frac {\mbox{ngramas comunes}}{\mbox{ngramas candidata}}}

Ejemplo de precisión en 1-gramas
Candidata 1	A	cat	is	on	the	mat
Candidata 2	The	cat	exists	in	the	board
Referencia	The	cat	is	on	the	table

En este ejemplo la precisión en 1-gramas sería de ${\frac {4}{6}}$ para la candidata 1 y de ${\frac {3}{6}}$ para la 2.

La precisión no es una medida adecuada para calcular la similitud entre 2 frases, como se puede ver a continuación:

Ejemplo de mala traducción con una alta precisión
Candidata	the	the	the	the	the	the
Referencia	The	cat	is	on	the	table

En este caso tendríamos una precisión de ${\frac {6}{6}}=1$ . Por ello se ha de tener en cuenta el número máximo de ocurrencias de un ngrama en la frase de referencia, siendo éste el límite a la hora de contabilizar las apariciones en la frase candidata. Con esto en cuenta la precisión modificada sería de ${\frac {2}{6}}$ en este último ejemplo.

Penalización por brevedad

Si las frases a comparar tienen una longitud muy distinta, no podemos afirmar que sean similares. Si la frase candidata tiene mayor longitud que la de referencia, este aspecto se ve reflejado en la fórmula de precisión modificada anterior. Habrá muchos ngramas en la frase candidata que no aparecerán en la frase de referencia por lo que la precisión será menor. Esto no ocurre cuando la frase de referencia es mucho menor, tal y como se puede observar en el siguiente ejemplo:

Ejemplo de mala traducción con alta precisión
Candidata	the	the
Referencia	The	cat	is	on	the	table

La precisión modificada sería de ${\frac {2}{2}}=1$ y no reflejaría la similitud entre ambas frases. Por ello se introduce un penalizador por brevedad de las frases candidatas.

PB={\begin{cases}1\ {\mbox{si}}\ c>r\\e^{1-{\frac {r}{c}}}\end{cases}}

donde c es la longitud de la frase candidata y r la longitud de la frase de referencia.

Cálculo de BLEU

Para el cálculo de BLEU se utiliza la media geométrica para los N ngramas que se vayan a utilizar. Cada ngrama tendrá un peso $w_{n}$ tal que $\sum _{n=1}^{N}w_{n}=1$ . Típicamente $w_{n}={\frac {1}{N}}$

BLEU=PB\cdot \exp \left(\sum _{n=1}^{N}w_{n}\log P_{n}\right)

Referencias

Papineni, K., Roukos, S., Ward, T., and Zhu, W. J. (2002). "BLEU: a method for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of the Association for Computational Linguistics pp. 311--318

Véase también

Datos: Q3500773