Re: Diccionario de nombres

From: Miguel Angel de Blas Burdalo <migueldeblas(at)gmail(dot)com>
To: pgsql-es-ayuda(at)postgresql(dot)org
Subject: Re: Diccionario de nombres
Date: 2013-05-03 23:06:34
Message-ID: CACU_9h-tZ8rqGCUaypGhWWruNmB=FEXcnrd2kF3DpC2sQLREow@mail.gmail.com
Views: Raw Message | Whole Thread | Download mbox | Resend email
Thread:
Lists: pgsql-es-ayuda

Hola,

Yo una vez tuve que corregir una BBDD con datos de nombre.
No disponía de ningún diccionario con el que comparar, pero empecá a
aplicar reglas lógicas de corrección, como por ejemplo:
-Sustituir tabuladores por espacios.
-Quitar espacio al principio o al final del campo, hasta no encontrar
ninguno.
-Sustituir doble espacio por uno, hasta no encontrar ninguno.
-Poner todo en mayúsculas.
-Detectar los nombres con número o carácteres que no sean letras.
-Agrupar por campo, cogiendo los 10 grupos con menos repeticiones. Corregir
errores de acentuación u ortograficos, y volver a aplicar en bucle.
- También pueder marcar los registros que contengan valores que seguro son
correctos y buscas errores en los demás.

Al final el conjunto de nombres "normales" suele ser un gran porcenataje
del total.
Es una tarea larga pero al final se corrigió la mayoria.

Saludos

El 3 de mayo de 2013 22:11, Alvaro Herrera <alvherre(at)2ndquadrant(dot)com>escribió:

> Jose Moreira - Know How escribió:
> > Muchas gracias Jaime.
> >
> > Cierto, tenes razon., Pero pensaba que quizas hubiera un diccionario
> > tipo estandar con nombres en español clasicos (Jose, Pedro, Pablo,
> > etc) a los que se les pudiera ingresar nuevas entradas.
>
> Puedes encontrar diccionarios de ese tipo, pero lo primero que tendrás
> que hacer para poder usarlo como tú quieres es depurar el diccionario.
> Eso lo puedes hacer por ej. buscando caracteres que no sean letras ni
> espacios, y con eso eliminando entradas que no sean válidas, luego
> restringiendo a los nombres que contienen espacios y verificando que no
> hay otra suciedad, etc. Por ej. encontrarás nombres como "María de los
> Milagros", que puede ser válido, pero quizás "Mario Puentes" es en
> realidad una entrada errónea que debes eliminar.
>
> (El uso normal de esos diccionarios es buscar nombres para bebés,
> buscar el significado o el origen de ciertos nombres, etc).
>
> Ah, y no puede faltar:
> http://www.bebeslatinos.com/sociedad/el-mito-de-usnavy/
>
> Otro cuento es la "generación Y" en Cuba, que no son nombres "españoles
> clásicos", o nombres en los muchos lenguajes precolombinos que
> persisten, etc.
>
> > Veo que depurar y normalizar atributos como Nombe o Apellido no es
> > posible.
>
> Ciertamente no es una tarea sencilla.
>
> --
> Álvaro Herrera http://www.2ndQuadrant.com/
> PostgreSQL Development, 24x7 Support, Training & Services
>
> -
> Enviado a la lista de correo pgsql-es-ayuda (pgsql-es-ayuda(at)postgresql(dot)org
> )
> Para cambiar tu suscripción:
> http://www.postgresql.org/mailpref/pgsql-es-ayuda
>

In response to

Browse pgsql-es-ayuda by date

  From Date Subject
Next Message Rafael Valenzuela 2013-05-04 07:48:13 Re: Diccionario de nombres
Previous Message Alvaro Herrera 2013-05-03 20:11:10 Re: Diccionario de nombres