MPEG-7

MPEG-7 consiste en una representación estándar de la información audiovisual que permite la descripción de contenidos (metadatos) para:

  • Palabras clave
  • Significado semántico (quién, qué, cuándo, dónde)
  • Significado estructural (formas, colores, texturas, movimientos, sonidos)

Es un estándar de la Organización Internacional para la Estandarización ISO/IEC y desarrollado por el grupo MPEG. El nombre formal para este estándar es Interfaz de Descripción del Contenido Multimedia (Multimedia Content Description Interface). La primera versión se aprobó en julio de 2001 (ISO/IEC 15938) y actualmente la última versión publicada y aprobada por la ISO data de octubre de 2004.

Introducción

[editar]

Una vez finalizado el estándar MPEG-4, juntamente con MPEG-1 y MPEG-2 quedan cubiertas las necesidades de obtener información audiovisual en cualquier sitio, también se consigue más libertad de interacción con el contenido audiovisual (gracias a MPEG-4).

Con MPEG-7 se busca la forma de enlazar los elementos del contenido audiovisual, encontrar y seleccionar la información que el usuario necesita e identificar y proteger los derechos del contenido. MPEG-7 surge a partir del momento en que aparece la necesidad de describir los contenidos audiovisuales debido a la creciente cantidad de información. El hecho de gestionar los contenidos es una tarea compleja (encontrar, seleccionar, filtrar, organizar... el material audiovisual).

MPEG-7 ofrece un mecanismo para describir información audiovisual, de manera que sea posible desarrollar sistemas capaces de indexar grandes bases de material multimedia (este puede incluir: gráficos, imágenes estáticas, audio, modelos 3D, vídeo y escenarios de cómo estos elementos se combinan) y buscar en estas bases de materiales manual o automáticamente.

El formato MPEG-7 se asocia de forma natural a los contenidos audiovisuales comprimidos por los codificadores MPEG-1, MPEG-2 y MPEG-4, de todas formas, se ha diseñado para que sea independiente del formato del contenido.

MPEG-7 se basa en el lenguaje XML de metadatos en un intento de favorecer la interoperabilidad y la creación de aplicaciones, aunque para evitar un problema de exceso de datos se ha creado un compresor llamado BiM (Binary Format for MPEG-7).[1]​ Este compresor presenta la ventaja de ser más robusto que XML ante los errores de transmisión.

Objetivos de MPEG-7

[editar]
  • Habilitar un método rápido y eficiente de búsqueda, filtrado e identificación de contenido.
  • Describir aspectos principales del contenido (características de bajo nivel, estructura, semántica, modelos, colecciones, etc.)
  • Indexar un gran abanico de aplicaciones.
  • El tipo de información a tratar es: audio, voz, vídeo, imágenes, gráficos y modelos 3D.
  • Informar de cómo los objetos están combinados dentro de una escena.
  • Independencia entre la descripción y el soporte dónde se encuentra la información.

Descripción de Contenidos

[editar]

Los contenidos pueden ser descritos de distintas formas dependiendo de la necesidad, ya que las características descriptivas deben tener un significado en el contexto de la aplicación.

Estas descripciones deberán ser distintas para distintos dominios de usuarios y sistemas. Esto significa que no se puede generar un sistema único para la descripción de contenidos, sino que se tendrán que proveer un conjunto de métodos y herramientas para satisfacer los distintos puntos de vista que distintos usuarios pueden tener.

El material multimedia, pues, puede ser descrito usando distintos niveles de abstracción. Cuanto mayor sea dicho nivel de abstracción, más difícil es efectuar un proceso automático. Por ejemplo, los cambios de ritmo de una melodía pueden catalogarse como de bajo nivel de abstracción, mientras que la información semántica "esta canción causó furor en el estadio", cae en un nivel más alto. Pero, además de disponer de la descripción relacionada con el contenido, también es necesario incluir otros tipos de información descriptiva, como pueden ser:


  • Información sobre su creación (aquí entran en juego descriptores como Dublin Core).
  • Información sobre el formato usado.
  • Información sobre los derechos de autor.
  • Punteros hacia otros materiales relevantes y el contexto donde se realizan las acciones.

Relación entre Contenido y Descripción

[editar]
Descripción independiente del contenido.

La arquitectura MPEG-7 se basa en que la descripción debe estar separada del contenido audiovisual.

Por otro lado, tiene que haber una relación entre contenido y descripción. Estos dos elementos están comunicados de forma que la descripción debe multiplexarse con el contenido.

El esquema de la derecha muestra esta relación entre el contenido y la descripción.

Herramientas de MPEG-7

[editar]
Relación entre las distintas herramientas y el proceso de elaboración del MPEG-7.

A continuación tenemos las herramientas con las que trabaja el estándar:


  • Descriptores (D): un descriptor es una representación de una característica definida sintáctica y semánticamente.

Es posible que un solo objeto esté descrito por varios descriptores.

  • Esquemas de descripción (Multimedia Description Schemes) (DS): especifica la estructura y semántica de las relaciones entre sus componentes, que pueden ser descriptores (D) o esquemas de descripción (DS).
  • Lenguaje de descripción y definición (Description Definition Language) (DDL): es un lenguaje basado en XML que se utiliza para definir las relaciones estructurales entre los descriptores y permite la creación y/o modificación de esquemas de descripción (DS) y la creación de nuevos descriptores (D).
  • Herramientas del sistema: son herramientas que hacen referencia a la binarización, sincronización y almacenamiento de descriptores. También se encargan de la protección de la propiedad intelectual.


La relación entre todas estas herramientas se puede observar en la figura de la derecha.

Partes del MPEG-7

[editar]

El MPEG-7 está organizado en ocho partes, de las cuales, de la 1.ª a la 5.ª, veremos que son herramientas que se refieren a la "tecnología" propiamente dicha del MPEG-7, mientras que las partes 6 a 8 son partes llamadas "de apoyo".


  • Parte 1:Sistemas: especifica las herramientas que se necesitan para preparar las descripciones de MPEG-7 para que se pueda llevar a cabo una binarización, un transporte eficiente y también para permitir la sincronización entre el contenido y las descripciones para proteger la propiedad intelectual.
  • Parte 2: Description Definition Language (DDL): especifica el lenguaje para definir nuevos esquemas de descripción (y también nuevos descriptores).
  • Parte 3: Visual: consiste en las estructuras básicas y descriptores que cubren distintas características visuales como: forma, color, textura, movimiento, localización y reconocimiento de caras.

Los ‘visual descriptors’ son el componente que especifica la estructura y semántica de las relaciones entre sus componentes (para el filtrado y recuperación de la información).

  • Parte 4: Audio: son un conjunto de descriptores de bajo nivel para el contenido de audio. A través de ellos se decriben características espectrales, paramétricas y temporales de un señal.

También se utilizan descriptores de alto nivel que incluyen reconocimiento de sonido general y herramientas para la indexación de descriptores, para la descripción de timbres instrumentales, para el contenido hablado, un esquema para firma de audio y herramientas también para la descripción de melodías.

  • Parte 5: Generic Entities and Multimedia Description Schemes (MDS): especifica la relación entre los descriptores (D) y los Description Schemes (DS) con el elemento multimedia.
  • Parte 6: Reference Software: incluye software.
  • Parte 7: Conformance Testing: define procedimientos y guías para hacer que el MPEG-7 sea correcto.
  • Parte 8: Extraction and Use of MPEG-7 Descriptions: da información de la extracción y uso de las herramientas de descripción.

Ejemplo de Áreas de Aplicación

[editar]

Existen muchas aplicaciones y muchos campos de aplicación que se pueden beneficiar del estándar MPEG-7. Algunos ejemplos son los siguientes:

  • Bibliotecas digitales: almacenaje y búsqueda de bases de datos audiovisuales.
  • Servicios de directorios multimedia (p.ej. Páginas amarillas).
  • Selección de medios de difusión (canales de radio, televisión...).
  • Edición multimedia (servicios electrónicos personalizados).
  • Vigilancia: control del tráfico, cadenas de producción...
  • E-comercio y tele-compra: búsqueda de ropa, modelos...
  • Entretenimiento: búsqueda de juegos, karaokes...
  • Servicios culturales: museos, art-galleries...
  • Periodismo: búsqueda de personas, sucesos...
  • Servicio personalizado de noticias por Internet.
  • Aplicaciones educativas.
  • Aplicaciones bio-médicas.

Referencias

[editar]

  1. de Cuetos, Philippe; Seyrat, Claude; Thienot, Cedric (enero de 2007 de). «BiM white paper (ISO/IEC JTC 1/SC 29/WG 11 N7922)». Coding of Moving Pictures and Audio (ISO/IEC JTC 1/SC 29/WG 11). Consultado el 17 de julio de 2008. 

Enlaces externos

[editar]