Re: tsearch lexema: mujer y mujeres

From: Alvaro Herrera <alvherre(at)2ndquadrant(dot)com>
To: Felipe de Jesús Molina Bravo <fjmolinabravo(at)gmail(dot)com>
Cc: pgsql <pgsql-es-ayuda(at)postgresql(dot)org>
Subject: Re: tsearch lexema: mujer y mujeres
Date: 2013-06-07 15:23:12
Message-ID: 20130607152312.GD4407@eldon.alvh.no-ip.org
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

Felipe de Jesús Molina Bravo escribió:
> Que tal lista
>
> Tengo postgresql 9.1.3 y con la configuracion a español del tsearch.
>
> Al ejecutar:
>
> des=# select strip(to_tsvector('spanish', 'Mujer'));
> strip
> -------
> 'muj'
> (1 fila)

Esto a mí me parece un fallo en el stemmer. Me imagino que se elimina
el "er" porque es una de las terminaciones verbales (-ar, -er, -ir).
Ignoro hasta qué punto el stemmer toma en cuenta las posibles
excepciones, pero si lo hace, a mí me parece claro que ésta debería
considerarse.

Postgres se apoya en el lenguaje Snowball para estas tareas. El
algoritmo para español está descrito en
http://snowball.tartarus.org/algorithms/spanish/stemmer.html y me parece
claro que esto ocurre, erróneamente, en el paso 2b.

Si te sientes con energía podrías tratar de contactar la lista
snowball-discuss y discutir el asunto.

--
Álvaro Herrera http://www.2ndQuadrant.com/
PostgreSQL Development, 24x7 Support, Training & Services

-
Enviado a la lista de correo pgsql-es-ayuda (pgsql-es-ayuda(at)postgresql(dot)org)
Para cambiar tu suscripción:
http://www.postgresql.org/mailpref/pgsql-es-ayuda

In response to

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message Horacio Degiorgi 2013-06-09 01:05:30 64 o 32
Previous Message Gilberto Castillo 2013-06-07 13:45:10 Re: tsearch lexema: mujer y mujeres