La eñe y el retraso tecnológico de periodistas y políticos

Llevaba varios días indignándome progresivamente con el papanatismo que ha inundado los medios de comunicación desde este pasado lunes día 5, y la escasa capacidad crítica de los mismos, ante la noticia de que en España se podrán registrar dominios de Internet con caracteres propios del castellano, y también del catalán, como la eñe (ñ), la c con cedilla (ç), o la ele geminada (l·l), así como las vocales acentuadas agudas (áéíóú), graves (àèò), y con diéresis (ïü).

Pero si en sí la noticia es buena, ¿por qué esa indignación? Porque la medida llega muy tarde, es insuficiente, y se le ha dado un bombo desproporcionado.

Prehistoria

El problema de los acentos en nombres de Internet proviene de la época de los teletipos: siendo tecnología creada fundamentalmente en países anglosajones, no incorporaban ninguna clase de caracteres extraños al alfabeto anglosajón, aunque sí se incluían algunos signos de puntuación, y caracteres con significados especiales, como @ (en) o # (número), ya en sistemas tan simples como el Baudot de 5 bits. Al estar codificado sólo con 5 bits, permitía tan sólo 2^5 = 32 caracteres diferentes.

Posteriormente, se desarolló el código ASCII, que primero con 7 bits, y luego con 8, permitían hasta 2^8 = 256 caracteres. Lamentablemente, tenía tres problemas:

  • Sólo los primeros 128 caracteres del ASCII estaban realmente estandarizados, de modo que la ñ tenía códigos diferentes en diferentes tipos de ordenadores
  • Además era imposible acomodar, a la vez, símbolos acentuados europeos, caracteres griegos, o caracteres cirílicos
  • Por último, era imposible acomodar en modo alguno lenguajes con enormes conjuntos de caracteres, como el chino, o el japonés

Finalmente, surge un estándar, Unicode, que admite hasta 65.535 caracteres a la vez por plano… con la posibilidad de considerar muchos más planos, hasta el punto de que actualmente hay codificados casi 100.000 caracteres, muchos de ellos correspondientes a idiomas que no se escriben hoy en día, pero son necesarios para labores académicas.

Unicode e Internet

Pero Unicode es un desarrollo concebido alrededor de 1991, mientras que los protocolos básicos de Internet comenzaron a desarrollarse en torno a 1972-73. Uno de los protocolos básicos de Internet, y el que está más relacionado con el problema de los nombres de dominio, es el de servicios DNS, o Domain Name Servers: Servidores de Nombre de Dominio. Este es el protocolo que permite convertir un nombre de dominio (como www.faq-mac.com, por ejemplo) en su dirección IP (como 216.92.101.51; prueba a acceder a http://216.92.101.51/bitacoras/memoria/ para comprobar que sí es equivalente)

Ahora bien, como hemos dicho antes, el protocolo DNS está basado en tecnología de los años 70… y no existía una forma estandarizada de representar nombres de dominio, por lo que simplemente no se podían registrar dominios con caracteres fuera de los caracteres alfabéticos a-z, los dígitos 0-9, guiones cortos (-) y guiones bajos. De paso, hay que decir que los nombres de dominio no son sensibles a mayúsculas o minúsculas: faq-mac.com es lo mismo que Faq-Mac.com o FAQ-Mac.Com.

Con la introducción de Unicode en 1991, y su adopción en 2001 por Mac OS X y Linux, así como por Windows 2000, tenía que ser cuestión de poco tiempo que los nombres de dominio pudieran crearse a partir de caracteres Unicode, y en 2003 la ICANN (Internet Corporation for Assigned Names and Numbers, organismo encargado de definir finalmente las equivalencias entre nombres y direcciones IP, de controlar la numeración de protocolos registrados, y tareas similares) comenzó a probar los primeros registros de nombres internacionales.

Sin embargo, la solución no es tan sencilla: existe muchísima infraestructura en Internet que sería muy caro cambiar, y que no puede manejar caracteres de más de 8 bits —incluyendo los navegadores Internet Explorer desde la versión inicial a la versión 6—, por lo que era necesario crear un sistema que permitiera obtener representaciones alternativas de las direcciones internacionalizadas, utilizando exclusivamente caracteres del ASCII tradicional de 7 bits.

Ese sistema se conoce como Punycode, y es bastante difícil de explicar en detalle, pero consiste en comenzar los nombres de dominio con caracteres internacionales por xn-, seguido del nombre de dominio eliminando los caracteres internacionales, más una codificación consecutiva de la posición de dónde se encuentra el caracter que se ha cambiado, más el código del caracter correspondiente. Así, un dominio como www.eñe.es se convierte en www.xn-ee-zja.es. xn por internacional, ee es eñe sin la ñ, y -zja representa el carácter ñ añadido entre el primer y el segundo carácter del nombre del dominio.

De este modo, lo que tienen que hacer los centros nacionales de asignación de nombres (NIC, Network Information Center) es proporcionar herramientas para registrar dominios Punycode válidos. Los navegadores son responsables de traducir los códigos Unicode al Punycode, para posteriormente realizar el mismo tipo de consulta DNS de siempre.

Medida tardía

La posibilidad de registrar dominios internacionalizados está totalmente resuelta técnicamente desde hace más de 4 años: la ICANN realizó un anuncio en Junio de 2003, comunicando el comienzo de registro de nombres internacionalizados (sin restricciones) en dominios .cn (China), .jp (Japón), .tw (Taiwan), y los genéricos .info y .org, sumándose posteriormente muchos más dominios. En esta lista de dominios que soportan IDNs se especifica también la fecha a partir de la cual los soportan, y si existen restricciones en los caracteres soportados, y se puede ver que los dominios .com soportan caracteres como la ñ desde 2004, los dominios .cat desde principios de 2006, y en países como Chile, desde Septiembre 2005. Allí podemos encontrar este sencillo sitio.

Otra razón para la tardanza es que en este país el navegador más utilizado sigue siendo Internet Explorer 6… que aún no dispone de soporte para nombres IDN. Podéis leer más acerca del soporte de IDN en Internet Explorer 7 en la entrada correspondiente del blog sobre Internet Explorer.

Medida, además, insuficiente

En 2005, Olga Viza en su programa de Radio Nacional de España, Las Mañanas de Radio 1, se quejaba de que su dirección de correo electrónico fuese lasmananas.rne@rtve.es, en lugar del más lógico lasmañanas.rne@rtve.es. Pues bien, esa dirección sigue siendo imposible de utilizar… o al menos, imposible de utilizar fuera de un entorno controlado: muchísimos servidores de reenvío de correo (las paradas de postas de Internet) son incapaces de lidiar con caracteres que se salgan del ya anciano ASCII de 7 bits. No es algo que se pueda resolver por medio de normativa, me temo, porque el correo electrónico, que es la aplicación más antigua de Internet, es también la aplicación más crítica, y nadie quiere correr el riesgo de “romper el sistema” cambiando los sistemas. Y basta con que haya una posta en la que no se entienda la dirección para que el mensaje no llegue…

Pero seguramente veamos alguna vez un esquema parecido al IDN para las direcciones de correo… pero tendremos que seguir esperando, al menos por ahora.

Y otra cosa de la que tampoco podemos presumir es del soporte: los dominos .es sólo podrán contener 13 caracteres, aparte de los tradicionales, mientras que con los dominios .com, por ejemplo, es posible acceder a direcciones como esta: http://www.☺.com/

Exceso en la celebración

Desde mi punto de vista, y ése es el auténtico origen de mi indignación, se le ha dado un bombo increíble a la aplicación en España de la solución tardía a un problema técnico que no afecta a la inmensa mayoría de usuarios de Internet, tanto creadores como consumidores de contenidos. Dijo José Luis Rodríguez Zapatero en su discurso sobre los dominios multilingües .es:

Siempre que exista algo que contar, que mostrar o que compartir tendrá cabida en el dominio .es

Como si los nombres de dominio fuesen el problema de la difusión de contenidos en nuestra lengua, cuando la verdad es que, posiblemente por la misma razón por la que en España leemos tan poco, generamos poquísimos contenidos en Español, y ése es el auténtico lastre de nuestra presencia y visibilidad en la red. O como si las historias se escribieran en los nombre de dominio. Y claro, tampoco soportan la sonrisa ☺.

Pero la perla más repetida es el final del discurso:

A partir de ahora las palabras “sueño”, “cariño”, “España”, “compañerismo” o “mañana” ya forman parte del cuerpo sólido de Internet y, con ellas, este territorio al que llamamos futuro.

Si algo forma parte del cuerpo de Internet, son sus contenidos. El sistema de nombres de dominio es, más bien, parte de su sistema nervioso: donde se almacena el movimiento reflejo de cambiar entre nombres de dominio y direcciones. Y

Post relacionados
Dejar un comentario?

2 Comentarios.

  1. Mi reino por un ejemplo :-P
    Por supuesto la informacion no esta disponible en nic.es

    http://www.nic.cl/faq/conf-idn.html

    en cuanto encuentre un ejemplo de como va el fichero dns lo pongo, en principio deberia de ir en codificacion ACE para las veces que aparece el dominio y lo demas como siempre.

  2. Hola, Achilles, tampoco había pensado en esto: que aparte de los servidores de los NIC nacionales, hay que configurar los DNS de aquellos dominios que también quieran tener subdominios internacionalizados… pero supongo que esa documentación debe ser independiente del NIC nacional, y que la FAQ del NIC de Chile debe servir aquí…

    Quiero decir que si tienes un dominio andalucía.es, el registro lo haces en en ES-NIC, y son ellos los que generan la entrada DNS. Tú sólo tienes que crear una entrada DNS propia para crear el subdominio málaga.andalucía.es, que cae dentro de tu ámbito de competencias… ¿o estoy equivocado?

Deja un comentario