B

Expressions régulières

Comme TEXworks est construit sur Qt4, les expressions régulières souvent appelées regexp disponibles sont un sous-ensemble de celles trouvées dans Qt4. Voir le site de Qt4. 1 pour plus d'information. Il est possible de trouver d'autres informations sur les expressions régulières sur le net 2 ou dans des livres. Mais faites attention que tous les systèmes (langages de programmation, éditeurs,...) n'utilisent pas le même ensemble d'instructions ; il n'y a malheureusement pas d'ensemble standard .

B.1 Introduction

Lorsqu'on recherche et remplace, on doit dénir le texte à trouver. Ce peut être le texte lui-même (ex. Abracadabra ), mais souvent il est nécessaire de dénir les chaînes d'une façon plus générale et puissante pour éviter de répéter la même opération plusieurs fois avec seulement de faibles changements d'une fois à l'autre ; si, par exemple, on veut remplacer des séquences de la lettre a par un o , mais pas toutes les séquences, seulement celles de 3 à 7 a ; ceci demanderait de répéter 5 fois l'opération de remplacement en l'ajustant légèrement. Un autre exemple : remplacer toutes les voyelles par , encore 5 remplacements. C'est ici qu'interviennent les expressions régulières !

Un simple caractère (a ou 9) représente lui-même. Mais on peut dénir un ensemble de caractères : [aeiou] correspondra à toute voyelle, [abcdef] aux lettres a b c d e f ; ce dernier ensemble peut être abrégé en [a-f] en utilisant - entre les deux extrémités de l'intervalle. On peut même combiner ceci : [a-zA-Z0-9] va correspondre à toutes les lettres et tous les chires.

Pour dénir un ensemble à exclure 3, on utilise ^  : le circonexe rend l'ensemble négatif s'il apparaît comme le premier caractère, c'est-à-dire juste après le crochet d'ouverture. [^abc] correspond à tout sauf a b c.

B.2 Codes pour certains ensembles spéciaux

Lorsqu'on utilise les expressions régulières, on doit très souvent créer des chaînes qui représentent d'autres chaînes de façon générale. Si, par exemple, vous cherchez une chaîne qui représente une adresse de courriel, les lettres et symboles vont varier ; cependant vous pourriez rechercher toute chaîne correspondant à une adresse de courriel (texte@texte.texte en général). Il y a des abréviations pour représenter les lettres, les chires, symboles,...

Ces codes remplacent et facilitent la dénition d'ensembles ; par exemple, pour représenter en toutes lettres les chires [0-9], on peut utiliser \d . Le tableau page suivante liste les codes de remplacement. 4


Élément

Signication

c

Tout caractère se représente lui-même, à moins qu'il n'aie une signication particulière dans les expressions régulières. Ainsi c correspond au caractère c.

\c

Un caractère qui suit une contre-oblique correspond au caractère lui-même à moins de mention ci-dessous. Par exemple, si vous voulez chercher un circonexe en début de chaîne vous devriez écrire \^ .

\n

Ceci correspond au caractère ASCII passage à la ligne (LF, à la ligne de Unix, utilisé dans TEXworks).

\r

Ceci correspond à l'ASCII retour à la ligne (CR).

\t

Ceci est la tabulation horizontale (ASCII : HT).

\v

La tabulation verticale (ASCII : VT).

\xhhhh

Correspond au caractère Unicode de représentation hexadécimale hhhh (entre 0x0000 et 0xFFFF). \0ooo (i.e., zero-ooo) correspond au caractère ASCII/Latin-1 correspondant au nombre octal ooo (entre 0 et 0377).

. (point)

Correspond à n'importe quel caractère (y compris passage à la ligne). Dès lors si vous voulez trouver le point, il faut lui ajouter un échappement \. .

\d

Correspond à un chire.

\D

Correspond à un non-chire.

\s

Correspond à une espace (espace blanc).

\S

Correspond à une non-espace.

\w

Correspond à un caractère d'un mot ou _ ).

\W

Correspond à un caractère non mot.

\n, . . .

La nème référence antérieure, ex. \1, \2, etc. ; utilisé dans les chaînes de remplacement avec des motifs de capture voir plus bas


Il est préférable d'utiliser les abréviations que de décrire les ensembles, car les abréviations restent valables dans diérents alphabets.

Faites attention à ce que le caractère n de ligne est souvent pris comme une espace. Sous TEXworks on fait spéciquement référence à la n de ligne par \n .

B.3 Répétition

On ne travaille pas uniquement avec de simples lettres, chires, symboles ; la plupart du temps ils sont répétés (ex. : un nombre est une répétition de chires et de symboles dans le bon ordre.)

Pour indiquer le nombre de répétitions, on utilise ce qu'on appelle des quanticateurs  : a{1,1} signie au moins un et seulement un a, a{3,7} entre 3 et 7 ; {1,1} est redondant, ainsi a{1,1} = a.

Ceci peut être combiné à la notation d'ensemble : [0-9]{1,2} correspondra à au moins un chire et au plus deux, soit les nombres entiers entre 0 et 99. Mais cela correspondra à tout groupe de 1 ou 2 chires dans une chaîne (il peut y avoir beaucoup de texte avant et après l'entier) ; si on désire que cela corresponde à l'entièreté de la chaîne avec qu'un ou deux chires (sans caractères qui les précèdent ou suivent) nous devrons écrire l'expression régulière comme ^[0-9]{1,2}$ ; ici ^ précise que la chaîne désirée doit être le premier caractère de la chaîne, le $ le dernier, de sorte qu'il n'y a qu'un ou deux chires dans la chaîne (^ et $ sont des assertions voir plus loin pour des compléments.)

Voici la table des quanticateurs. 5 E représente une expression (lettre, abréviation, ensemble.)

E{n,m}

Correspond à au moins n occurrences et au plus m occurrences de l'expression.

E{n}

Exactement n occurrences de l'expression. Équivalent à répéter l'expression n fois. C'est la même chose que E{n,n} ou de répéter l'expression n fois.

E{n,}

Correspond à au moins n occurrences de l'expression.

E{,m}

Correspond à au plus m occurrences de l'expression.

E?

Zéro ou une occurrence de E. Ce quanticateur signie l'expression précédente est optionnelle (elle peut être présente, mais ne doit pas nécessairement l'être). C'est la même chose que E{0,1}.

E+

Une ou plusieurs occurrences de E. C'est équivalent à E{1,}.

E*

Zéro ou plus d'occurrences de E. Équivalent à E{0,}. Attention le quanticateur * est souvent utilisé à tort pour le quanticateur +. Comme il correspond à zéro ou plus d'occurrences, il y aura correspondance même s'il n'y a aucune occurrence dans la chaîne.

B.4 Alternatives et assertions

Lorsqu'on cherche, il est souvent nécessaire de chercher des alternatives, par ex. : pomme, poire, cerise, mais pas pommeau. Pour séparer les alternatives on utilise le symbole | : pomme|poire|cerise. Mais ceci n'empêchera pas de trouver pommeau, nous devons donc spécier que pomme doit être un mot en soi, un mot entier (dénomination fréquente des boîtes de dialogues Chercher .)

Pour préciser qu'une chaîne doit être considérée comme un mot en soi, nous l'écrirons entourée d'un séparateur/d'un délimiteur de mot (début/n de phrase, espace) : \bpomme\b. Pour notre exemple d'alternatives nous les grouperons par des parenthèses et ajouteront les délimiteurs \b(pomme|poire|cerise)\b. En plus de \b nous avons déjà vu ^ et $ qui marquent les limites de toute ne chaîne.

Voici le tableau des assertions qui ne correspondent à aucun caractère et ne feront jamais partie du résultat d'une recherche. 6

^

Le circonexe représente le début de la chaîne. Si vous voulez trouver le caractère ^ vous devez utilisez un échappement en écrivant \^

$

Le dollar représente la n de chaîne. Pour trouver le symbole $ vous devez utilisez un échappement en écrivant \$

\b

Un séparateur mot.

\B

Un non-séparateur mot. Cette assertion est valable chaque fois que \b est faux.

(?=E)

Anticipation positive. L'assertion est vraie si l'expression E est correcte à ce point de l'expression régulière.

(?!E)

Anticipation négative. L'assertion est vraie si l'expression E n'est pas correcte à ce point dans l'expression régulière.

Remarquez les signications diérentes de ^ comme assertion et comme négation dans un ensemble !

B.5 Pour conclure

Utiliser les expressions régulières est très puissant, mais donc aussi très dangereux ; vous pourriez changer votre texte à des endroits non visibles et parfois le retour à la situation précédente n'est pas entièrement possible. Si vous remarquez immédiatement l'erreur, vous pourriez utiliser CtrlZ.

Montrer comment tirer prot de toute la puissance des expressions régulières exigerait beaucoup plus que cette introduction extrêmement sommaire ; en fait cela demanderait un manuel complet en soi.

Notez aussi qu'il y a certaines limites dans les implantations des expressions régulières dans TEXworks ; en particulier les assertions (^ et $) ne prennent en compte que tout le chier et il n'y a pas d'assertion à anticipation positive.

Enn, n'oubliez pas de cocher l'option Expression régulière lorsque vous en utilisez dans les boîtes de dialogue Rechercher et Remplacer et de la décocher lorsque vous n'utilisez pas d'expression régulière.