F.46. unaccent -- un dictionnaire de recherche plein texte qui supprime les accents

» » »

Précédent	Niveau supérieur	Suivant
F.45. tsm_system_time -- méthode d'échantillonnage `SYSTEM_TIME` pour `TABLESAMPLE`	Sommaire	F.47. uuid-ossp -- un générateur d'UUID

F.46. unaccent -- un dictionnaire de recherche plein texte qui supprime les accents #

F.46.1. Configuration
F.46.2. Utilisation
F.46.3. Fonctions

unaccent est un dictionnaire de recherche plein texte qui supprime les accents d'un lexème. C'est un dictionnaire de filtre, ce qui signifie que sa sortie est passée au prochain dictionnaire (s'il y en a un), contrairement au comportement normal des dictionnaires. Cela permet le traitement des accents pour la recherche plein texte.

L'implémentation actuelle d'unaccent ne peut pas être utilisée comme un dictionnaire de normalisation pour un dictionnaire thesaurus.

Ce module est considéré comme « trusted », ce qui signifie qu'il peut être installé par des utilisateurs simples (sans attribut SUPERUSER) et qui ont l'attribut CREATE sur la base de données courante.

F.46.1. Configuration #

Le dictionnaire unaccent accepte les options suivantes :

RULES est le nom de base du fichier contenant la liste des règles de traduction. Ce fichier doit être stocké dans le répertoire $SHAREDIR/tsearch_data/ ($SHAREDIR étant le répertoire des données partagées de PostgreSQL). Son nom doit se terminer avec l'extension .rules (qui ne doit pas être inclus dans le paramètre RULES).

Le fichier des règles a le format suivant :

Chaque ligne représente une règle de traduction, consistant en un caractère avec accent, suivi d'un caractère sans accent. Le premier est traduit avec le second. Par exemple :
```
À        A
Á        A
Â         A
Ã        A
Ä          A
Å         A
Æ         AE
```
Les deux caractères doivent être séparés par des espaces blancs, et tout espace blanc au début et à la fin d'une ligne est ignoré.
Sinon, si seulement un caractère est donné sur une ligne, les occurrences de ce caractère sont supprimées. Ceci est utile dans les langues où les accents sont représentés par des caractères séparés.
Actuellement, chaque caractère peut être une chaîne ne contenant pas d'espace blanc, pour que les dictionnaires unaccent puissent être utilisés pour d'autres types de substitutions de sous- chaînes au delà des suppressions de signes diacritiques.
Certains caractères, comme les symboles numériques, peuvent réclamer des espaces blancs dans leur règle de traduction. Il est possible d'utiliser des guillemets doubles autour des caractères traduits dans ce cas. Un guillemet double a besoin d'être échappé avec un deuxième guillemet double lorsqu'il faut en inclure un dans les caractères traduits. Par exemple :
```
¼      " 1/4"
½      " 1/2"
¾      " 3/4"
“       """"
”       """"
```
Comme avec d'autres fichiers de configuration de la recherche plein texte avec PostgreSQL, le fichier de règles doit être stocké dans l'encodage UTF-8. Les données sont automatiquement traduites dans l'encodage courant de la base de données lors du chargement. Toute ligne contenant des caractères non traduisibles est ignorée silencieusement, de façon à ce que les fichiers de règles puissent contenir des règles qui ne sont pas applicables dans l'encodage courant.

Un exemple plus complet, qui est directement utile pour les langages européens, se trouve dans unaccent.rules, qui est installé dans le répertoire $SHAREDIR/tsearch_data/ une fois le module unaccent installé. Ce fichier de règles traduit les caractères avec accent vers le même caractère sans accent. Il étend aussi les ligatures en une série équivalente de caractères simples (par exemple, Æ devient AE).

F.46.2. Utilisation #

Installer l'extension unaccent crée un modèle de recherche de texte appelé unaccent et un dictionnaire basé sur ce modèle, appelé lui-aussi unaccent. Le dictionnaire unaccent a le paramètre par défaut RULES='unaccent', qui le rend directement utilisable avec le fichier standard unaccent.rules. Si vous le souhaitez, vous pouvez modifier le paramètre. Par exemple :

ma_base=# ALTER TEXT SEARCH DICTIONARY unaccent (RULES='mes_regles');

Vous pouvez aussi créer de nouveaux dictionnaires basés sur le modèle.

Pour tester le dictionnaire, vous pouvez essayer la requête suivante :

ma_base=# select ts_lexize('unaccent','Hôtel');
 ts_lexize
-----------
 {Hotel}
(1 row)

Voici un exemple montrant comment installer le dictionnaire unaccent dans une configuration de recherche plein texte :

ma_base=# CREATE TEXT SEARCH CONFIGURATION fr ( COPY = french );
ma_base=# ALTER TEXT SEARCH CONFIGURATION fr
        ALTER MAPPING FOR hword, hword_part, word
        WITH unaccent, french_stem;
ma_base=# select to_tsvector('fr','Hôtels de la Mer');
    to_tsvector
-------------------
 'hotel':1 'mer':4
(1 row)

ma_base=# select to_tsvector('fr','Hôtel de la Mer') @@ to_tsquery('fr','Hotels');
 ?column?
----------
 t
(1 row)
ma_base=# select ts_headline('fr','Hôtel de la Mer',to_tsquery('fr','Hotels'));
      ts_headline
------------------------
  <b>Hôtel</b>de la Mer
(1 row)

F.46.3. Fonctions #

La fonction unaccent() supprime les accents d'une chaîne de caractères donnée. Elle utilise un dictionnaire de type unaccent mais elle peut être utilisé en dehors du contexte normal de la recherche plein texte.

unaccent([dictionary regdictionary, ] string text) returns text

Si l'argument dictionary est omis, le dictionnaire de recherche plein texte nommé unaccent et apparaissant dans le même schéma que la fonction unaccent() elle-même est utilisé

SELECT unaccent('unaccent','Hôtel');
SELECT unaccent('Hôtel');