Sous-échantillonnage de la chrominance

Sous-échantillonnage de la chrominance
Présentation
Type

Le sous-échantillonnage de la chrominance est une méthode de réduction de volume des images numériques. Il consiste à diminuer le nombre d'échantillons à traiter : on parle de décimation. Il peut être suivi d'une étape de compression d'image ou de compression vidéo. Ces étapes sont souvent nécessaires afin d'adapter un signal vidéo à son mode d'enregistrement ou de transmission. La vision humaine présentant une sensibilité moindre à la couleur qu'à la luminosité, on conserve généralement moins d'informations de chrominance que de luminance sans pour autant dégrader la qualité perçue de l'image. Il est cependant possible de sous-échantillonner la luminance.

Vidéo analogique

[modifier | modifier le code]

En vidéo analogique, la bande passante allouée aux signaux de chrominance est souvent deux fois moins grande que celle allouée à la luminance. Ce résultat est obtenu par filtrage passe-bas des signaux de chrominance après l'opération de matriçage.

Vidéo numérique

[modifier | modifier le code]

Structures d'échantillonnage

[modifier | modifier le code]

Chaque pixel de l'image peut être reconstitué à partir de ces trois composantes : la luminance Y', la chrominance bleu ou différence bleu (Cb) et la chrominance rouge (Cr). Cependant, on diminue souvent le nombre d'échantillons pour réduire le nombre d'informations à transmettre : un échantillon pourra être utilisé pour plusieurs pixels. Pour quantifier le sous-échantillonnage, on se représente une région de quatre pixels de largeur sur 2 pixels de hauteur et on indique une série de 3 nombres J:a:b (par exemple 4:2:2).

  • J est le nombre d'échantillons de luminance (Y') par ligne (toujours identique sur les deux lignes de J pixels). Habituellement, 4.
  • a est le nombre d'échantillons de chrominance (Cb, Cr) sur la première ligne de pixels.
  • b est le nombre d'échantillons de chrominance (Cb, Cr) sur la deuxième ligne de pixels.
    Structures d'échantillonnage les plus courantes

Un quatrième nombre est parfois ajouté, J:a:b:α (par exemple, 4:2:2:4), pour permettre la transmission ou l'enregistrement d'un canal alpha.

  • α est le nombre d'échantillons alpha horizontal ; il peut être omis si la composante alpha n'est pas présente et est égal à J lorsqu'il est présent.

Pour calculer le rapport de débit requis par rapport à 4:4:4 (ou 4:4:4:4), il faut additionner tous les facteurs et diviser le résultat par 12 (ou 16, si alpha est présent).

L'utilisation du chiffre 4 comme référence a pour origine le choix historique de la fréquence d'échantillonnage fixée à 4 fois la fréquence de la sous-porteuse pour les signaux composites numériques[1], aujourd'hui obsolètes. Les fréquences de la sous-porteuse étaient de 4,43 MHz pour les signaux PAL et 3,58 MHz pour les signaux NTSC. Les fréquences d'échantillonnage pour les signaux numériques correspondants furent choisies à respectivement 17,73 MHz et 14,32 MHz. Puis la fréquence d'échantillonnage fut choisie à 13,5 MHz lors de l'élaboration de l'ITU-R BT 601 destinée à la numérisation des vidéos en définition standard (SDTV)[2]. Vinrent ensuite les signaux respectant les normes haute définition (HDTV) dont l'ITU-R BT 709 qui fixa la fréquence d'échantillonnage à 5,5 × 13,5 = 74,25 MHz. Ceci explique pourquoi on a pu lire parfois des notations sous la forme 22:11:11, les coefficients 4:2:2 ayant été multipliés par 5,5, au début du passage à la télévision à haute définition.

4:4:4 (Y'CbCr ou R'G'B')

[modifier | modifier le code]
Structure 4:4:4

La structure 4:4:4 est principalement utilisée dans le monde du cinéma et par les productions audiovisuelles les plus exigeantes car elle ne présente aucun sous-échantillonnage. Chaque pixel est défini totalement, ce qui facilite les travaux sur l'image comme les incrustations. Dans ce cas, on peut aussi bien transmettre les composantes R', G', B' sans matriçage que les composantes Y', Cb et Cr. Le problème de cette structure est son débit très élevé ce qui entraîne un coût des matériels de traitement et d'enregistrement et de montage.

Structure 4:2:2

Les deux composantes de chrominance sont échantillonnées à la moitié de la fréquence d'échantillonnage de luminance : il y a deux fois moins d'échantillons, la résolution de chrominance horizontale est réduite de moitié. Cela réduit le débit d'un tiers, avec peu ou pas de différence visuelle. Beaucoup de formats vidéo numériques haut de gamme et d'interfaces utilisent cette structure.

Structure 4:2:0

La structure 4:2:0 est un sous-échantillonnage utilisé généralement par le grand public, mais il peut aussi être utilisé par un professionnel s'il ne veut pas faire de travaux importants sur l'image comme une incrustation ou un étalonnage de couleurs. Une incrustation effectuée en 4:2:0 présentera des artefacts comme un effet escalier sur le contour de la découpe.

Structure 4:1:1

Cette structure d'échantillonnage est peu utilisée. Quelques formats d'enregistrement l'utilisent néanmoins.

Bien que ce mode soit techniquement défini[réf. nécessaire], très peu de codecs logiciels et matériels utilisent ce mode d'échantillonnage.

Structure 3:1,5:1,5

Cette structure ne concerne que des formats d'enregistrement. Le chiffre 3 signifie que trois échantillons de luminance, obtenus par interpolation, sont enregistrés à partir de 4 qui ont été captés et qui devront être restitués. Pour des définitions 1920×1080, 1440×1080 échantillons de luminance et 720×1080 échantillons de chaque chrominance sont enregistrés.

Structure 3:1,5:0

La résolution est divisée par deux verticalement par rapport à la structure 3:1,5:1,5.

Structure 3:1:1

Pour des définitions 1920×1080, 1440×1080 échantillons de luminance et 480×1080 échantillons de chaque chrominance sont enregistrés.

Le sous-échantillonnage de la chrominance a été développé dans les années 1950 par Alda Bedford pour le développement de la télévision couleur par RCA (Radio Corporation of America). La séparation luminance/chrominance a été développée dès 1938 par Georges Valensi.

Bedford a montré que l'œil humain a une résolution élevée pour le noir et blanc, un peu moins pour le "milieu de gamme" des couleurs comme le jaune ou le vert, et beaucoup moins pour les couleurs des extrémités du spectre (le rouge et le bleu). Ces connaissances ont permis à RCA de développer un système qui néglige la qualité du signal bleu (après être venu de la caméra), et qui conserve la plupart du signal vert et une partie du rouge ; ce qui est un sous-échantillonnage de la chrominance dans l’espace de couleur YIQ[réf. nécessaire], et qui est à peu près analogue au sous-échantillonnage 4:2:1, en ce sens qu'il diminue la résolution pour la luminance, le jaune/vert et le rouge/bleu[pas clair].

Références

[modifier | modifier le code]
  1. (en) Charles Poynton, Digital Video and HD : Algorithms and Interfaces, Amsterdam/Boston/London etc., Elsevier, , 1re éd., 692 p. (ISBN 1-55860-792-7, lire en ligne), p. 91
  2. (en) Charles Poynton, Digital Video and HD : Algorithms and Interfaces, Amsterdam/Boston/London etc., Elsevier, , 1re éd., 692 p. (ISBN 1-55860-792-7, lire en ligne), p. 97
  3. (en) SMPTE wallchart : [1554_SMPTE_Wallchart_v6.pdf UHDTV ecosystem reference diagram]
  4. a b c d e f g h i j k et l Jean-Noël GOUYET et Francis Mahieu, « TVHD Formats de compression. Formats-conteneurs », Techniques de l'ingénieur, no TE5681,‎ (lire en ligne)
  5. a b c d e et f (en) Apple ProRes White Paper, (lire en ligne), p. 21
  6. a b c d et e Apple ProRes Format Specifications
  7. a et b (en) David Wiswell, Panasonic DVCPRO – from DV to HD (lire en ligne), p. 4

Articles connexes

[modifier | modifier le code]