Re: unicode xml

From: Gunnar Wolf <gwolf(at)gwolf(dot)org>
To: Alvaro Herrera <alvherre(at)alvh(dot)no-ip(dot)org>, ities(at)gwolf(dot)org;, print HTML: ;, Entities: ;, "&#x8A9E;n" <decode_entities'(at)gwolf(dot)org>
Cc: Guido Barosio <gbarosio(at)gmail(dot)com>, Cristian Carrasco <Cristian(dot)Carrasco(at)telematica(dot)net>, pgsql-es-ayuda <pgsql-es-ayuda(at)postgresql(dot)org>
Subject: Re: unicode xml
Date: 2008-11-25 19:56:45
Message-ID: 20081125195645.GA1566@cajita.gateway.2wire.net
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

Alvaro Herrera dijo [Tue, Nov 25, 2008 at 03:10:56PM -0300]:
> > > Valor
> > > 为到地和ñ
> > > (...)
> > > Aquí el valor desplegado es algo como esto: &#x8A9E;/g& bla bla bla
>
> Guido Barosio escribió:
> > Cristian,
> >
> > Huele a encoding del cliente, consideraste eso?
>
> El codigo XML hace sus propias conversiones de codificación :-( Me
> pregunto si se estará mareando por eso.
>
> Ahora, lo otro es que &#x8A9E; parece sospechosamente HTML, así que la
> otra posibilidad es que la contaminación venga de otra capa, externa a
> Postgres.

No tengo idea de si con "&#x8A9E;/g& bla bla bla" estás citando
literalmente lo que te da ante tu cadena, pero eso parece una
representación válida de un ideograma oriental. La notación
"&#x(hexa); indica que el transporte HTTP puede haber especificado una
codificación más baja que UTF, pero el contenido va representando los
codepoints Unicode indicados. Puedes hacer la prueba, por ejemplo, con
el módulo de Perl HTML::Entities:

$ perl -e 'use HTML::Entities; print HTML::Entities::decode_entities("&#x8A9E;\n")'
Wide character in print at -e line 1.

Claro, te está advirtiendo de que puede que a tu terminal no le guste
ese caracter (lo del "Wide character")... Pero funciona
correctamente. Si quieres ver varios caracteres de la familia
consecutivos:

$ perl -e 'use HTML::Entities; for my $num (0..15) { $chr .= sprintf("&#x8A9%x;", $num); } print HTML::Entities::decode_entities($chr) '
Wide character in print at -e line 1.
誐誑誒誓誔誕誖誗誘誙誚誛誜誝語誟

(Nota: Puede que _mi_ mensaje no se vea bien... No estoy seguro de que
este entorno se lleve con el Unicode que estoy escribiendo)

--
Gunnar Wolf - gwolf(at)gwolf(dot)org - (+52-55)5623-0154 / 1451-2244
PGP key 1024D/8BB527AF 2001-10-23
Fingerprint: 0C79 D2D1 2C4E 9CE4 5973 F800 D80E F35A 8BB5 27AF

In response to

Responses

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message Gustavo 2008-11-25 20:02:04 Oficialmente ya soy un miembro mas de arPUG
Previous Message Matias Parodi 2008-11-25 19:26:06 Re: Uruguay