LD-AAC

Low Delay Advanced Audio Coding (LD-AAC o AAC-LD) significa, en anglès, codificació d'àudio avançada amb retard baix. És l'estàndard tècnic de codificació d'àudio, dins de MPEG-4, que ofereix una millor relació entre qualitat d'àudio i retard de codificació. L'algorisme de codificació provoca un retard de només 20 ms (mil·lisegons), a la vegada que suporta qualsevol tipus d'àudio: so de la parla (en anglès "speech"), música i sons atmosfèrics.

Descripció

[modifica]

Fins a l'aparició del còdec d'àudio LD-AAC no hi havia manera d'aconseguir fer comunicacions bidireccionals (dúplex) d'alta qualitat i baixa velocitat de dades (bitrate):

  • Per una banda, els codificadors d'àudio perceptible (que l'orella humana pot detectar) com mp3 (MPEG Layer 3) ofereixen una bona qualitat d'àudio per a tota mena de senyals, inclosos música i parla, a unes velocitats menors que 16 kbps. Tot i així, el retard degut a l'algorisme de codificació i descodificació pot excedir fàcilment els 100 ms, cosa que no és acceptable en comunicacions dúplex.
  • Per altra banda, els codificadors de parla, com el G.722.2, introdueixen un retard menor que els codificadors perceptibles i permeten ser acceptats per a suportar les comunicacions dúplex. De totes maneres, és important dir que aquests codificadors només ofereixen bona qualitat per a senyals de parla, ja que sovint fallen quan s'usen per a codificar senyals de música. A més a més, la qualitat de so que ofereixen moltes vegades no és suficient en aplicacions d'alta qualitat. Vegeu la figura següent:
Comparació de LD-AAC front LC-AAC i mp3.

Així que l'MPEG-4 LD-AAC està dissenyat per a combinar els avantatges de la codificació d'àudio perceptible amb un retard suficientment petit per a satisfer comunicacions bidireccionals. Aquest codificador l'ha desenvolupat l'empresa alemanya "Fraunhofer" i deriva de l'MPEG-4 LC-AAC (Low complexity AAC, AAC de baixa complexitat).

Com s'ha dit, el codificador LD-AAC introdueix un retard de codificació de tan sols 20 ms. Per altra banda, ofereix una bona qualitat d'àudio per a tota mena de senyals (música, perceptible, sons atmosfèrics, ...) i és suportable per comunicacions bidireccionals. A més, pot ser usat juntament amb les eines per a combatre errors de MPEG-4 (MPEG-4 Error Resilience Tools) per alleujar l'impacte, quant a la qualitat del so, degut als errors de transmissió.

Finalment, és important dir que, a diferència dels codificadors de parla (en anglès, "speech codec"), la qualitat de l'àudio creix a mesura que s'amplia el bitrate. Amb això es pot aconseguir una qualitat màxima.

Funcionament

[modifica]

La següent figura mostra el diagrama de blocs que segueix el codificador de LD-AAC:

Esquema de codificació del còdec LD-AAC.

La codificació consta de dos grans blocs: Processament de l'espectre i Quantificació i codificació.

  • Primerament fa un processament espectral del senyal que es vol codificar:
    • Es fa una transformada directa del cosinus modificat (MDCT), per a treballar en el domini transformat i no en el temporal.
    • S'usa la tècnica TNS (en anglès, Temporal Noise Shaping:). És una tècnica de reducció de bits que aconsegueix minimitzar l'impacte dels errors de quantificació. Afegeix soroll incorrelat al senyal.
    • Seguidament, el senyal passa pel bloc "intensitat/acoblament".
    • Després, el bloc "PNS" (en anglès, Perceptual Noise Substitution: substitució del soroll perceptible).
    • I, finalment, el bloc "Mid/side".
Així es té tota la part de tractament de l'espectre.
  • Per altra banda, es tracta de quantificar les mostres de senyal per a adaptar-les al tipus de codificació:
    • D'entada es decideixen quins són els factors d'escala que s'usaran.
    • Amb ells, es quantifiquen les mostres segons els nivells escollits pel bloc anterior (bloc "Quantization").
    • Per acabar, es codifiquen les mostres quantificades seguint l'algorisme de Huffman (codificació Huffman).
Sempre controlant que el bitrate sigui el que es desitja i que no es distorsioni massa el senyal (objectiu que controla el bloc "Bitrate/Distortion Controller").

Amb aquest procés, s'obté el flux de bits codificats.

Característiques

[modifica]
  • Suporta qualsevol tipus de so: música, parla i sons atmosfèrics.
  • Millor qualitat d'àudio, a la mateixa velocitat de dades, que els ITU G.722, G.722.1-C i G.729.1 i que el famós mp3.
  • Retard de l'algorisme de 20 ms.
  • Retard menor de 30 ms en implementacions a temps real en DSPs.
  • Permet ser ajustat a múltiples velocitats, típicament entre 32 i 128 kbps.
  • Permet complementar-se de la correcció d'errors d'MPEG-4 ERT (Error Resilience Tools)
  • Complexitat de computació i emmagatzematge comparables al LC-AAC.

Aplicacions

[modifica]

Aquest codificador és una opció apte per a qualsevol aplicació que pretengui transportar àudio d'alta qualitat amb un retard petit.

S'ha implantat en sistemes de telefonia i videoconferència com els que desenvolupen les empreses "Tandberg" i "Cisco". A més, "Texas Instruments" n'ha fet ús per les seves solucions de VoIP-DSP i "Apple", per la seva aplicació "iChat" basada en VoIP. També, ha estat estandarditzat pel ETSI DECT com a l'únic codificador pel seu "NG DECT".

Enllaços externs

[modifica]