Codi de llengua IETF
Un codi de llengua IETF és un codi estandarditzat que permet identificar llengües de forma estructurada i jerarquitzada, o famílies i varietats lingüístiques. Per exemple, "ca" és català, "pt-BR" és portuguès brasiler o "nan-Hant-TW" és xinès Min Nan de Taiwan amb caràcters tradicionals Han.
Els codis estan definits per la recomanació estàndard BCP 47 de l'IETF (Internet Engineering Task Force), actualment la RFC 5646 (successora de la RFC 5645) i RFC 4647. Els codis vàlids són al Registre de Codis de Llengües de la IANA.[1] Els codis estan compostos a partir dels estàndards ISO 639, ISO 15924, ISO 3166-1 i UN M.49.
Sintaxi
[modifica]Cada codi de llengua està format per una o més etiquetes separades per guions. Cada etiqueta està composta per lletres bàsiques llatines o per dígits.
Excepte les etiquetes d'ús privatiu que comencen pel prefix "x-" i les etiquetes de famílies (incloses les que comencen pel prefix "i-" d'altres registrades prèviament), les etiquetes segueixen el següent ordre:
- llengua_base-llengua_estesa-escriptura-regió-variant-extensions
- L'etiqueta de llengua base està composta per dos o tres caràcters de la norma ISO 639: ISO 639-1 (2002), ISO 639-2 (1998), ISO 639-3 (2007) o ISO 639-5 (2008).
- :Exemples: fr (francès), ast (asturià)
- L'etiqueta estesa de llengua està formada per tres caràcters precedits per l'etiqueta de llengua base. Actualment no existeixen etiquetes esteses de llengua registrades a la base de dades de l'IANA i es prefereix l'etiqueta equivalent de llengua base. Aquest component del codi es manté per compatibilitat de codificacions anteriors i com a reserva de futur.
- :Exemples: zh-yue és xinès cantonès, equivalent al codi de llengua base yue
- L'etiqueta d'escriptura està formada per quatre caràcters de la norma ISO 15924, habitualment amb majúscula inicial. Només s'utilitza en casos en què la mateixa llengua tingui diferents escriptures.
- :Exemples: zh-Hans és xinès simplificat, zh-Hant és xinès tradicional
- L'etiqueta de regió està formada per dos caràcters del codi de país de la norma ISO 3166-1, normalment en majúscules, o per tres dígits de la norma UN M.49 per a àrees geogràfiques. Només s'utilitza en casos necessaris evitant redundàncies.
- :Exemples: en-GB és anglès britànic, es-005 és castellà sud-americà i it-IT és una combinació d'ús molt rar.
- L'etiqueta de variant està formada de cinc a vuit lletres o quatre caràcters començant per un dígit. Aquesta etiqueta està registrada per l'IANA sense associació amb cap altre estàndard.
- :Exemples: ca-valencia és valencià, de-CH-1901 és la variant alemanya amb ortografia suïssa de la reforma del 1901.
- Les etiquetes d'extensions estan formades per un caràcter seguit d'un guió i d'altres etiquetes. L'extensió "x-" està reservada per a usos privatius segons acords entre les parts i no estan incloses en el registre.[2]
- :Exemples: u- indica una codificació Unicode.
En general, les etiquetes subsegüents a la llengua base són opcionals i es prefereix ometre-les sempre que sigui possible i no afegeixin una informació diferencial necessària. En la majoria de llengües es pot entendre que s'utilitza una escriptura determinada que no cal especificar ("ca-Latn" per indicar català en alfabet llatí és redundant). Moltes diferències regionals es poden interpretar com a diferències dialectals més que estrictament regionals (es prefereix "arq" per l'àrab algerià en lloc de "ar-DZ"), o bé la regió es pot entendre implícita en l'estàndard de la llengua ("an-ES" no afegeix un tret diferencial a l'aragonès). Totes les combinacions comencen per l'etiqueta de la llengua base ("ca-valencia" és la variant valenciana del català).[3]
Referències
[modifica]Enllaços externs
[modifica]- BCP 47 Language Tags, especificació actual incorporant {{RFC|5646}} i {{RFC|4647}}.
- Language Subtag Registry, registre mantingut per IANA
- IANA Language Subtag Registry Search, eina de cerca de codis registrats.