Source de cours/regexp.php

Voir la page cours/regexp.php

<?
 require ("../page.inc");
 require ("lessons.inc");

 $currentPage = new LessonPage("regexp");

$currentPage->setContent('');

 $currentPage->addChapter('general', 'Généralités', '

Une expression régulière (appelée aussi expression rationnelle) est une chaîne de caractères contenant un motif qui peut ensuite être utilisé pour une recherche par exemple. Nombre de logiciels Unix les utilisent, c\'est pour cela qu\'il est nécessaire de les connaître.

Pour la suite, on utilisera la notation du langage Perl (par simple convention). =~ indiquera qu\'une chaîne placée à gauche de ce signe correspond à une expression régulière placée à droite. A l\'inverse !~ sera utilisé lorsqu\'elle ne correspond pas (c\'est-à-dire qu\'elle ne contient pas l\'expression régulière). Les chaînes et expressions régulières seront placées entre doubles guillemets.

L\'expression régulière la plus simple est un mot. Toute phrase contenant ce mot correspondra à ce motif. Exemples :

<code>
"ceci est une phrase" =~ "est" 
"nord sud est ouest" =~ "est" 
"ceci était une phrase" !~ "est" 
</code>

On peut imposer que le motif soit en début ou en fin de chaîne avec respectivement ^ et $

<code>
"est nord sud ouest" =~ "^est" 
"nord sud ouest est" =~ "est$" 
"nord sud est ouest" !~ "est$" 
</code>

On peut rechercher sur plusieurs motifs en même temps en utilisant le symbole | pour les séparer. Il se lit comme un OU logique.

<code>
"est" =~ "est|nord" 
"nord" =~ "est|nord" 
"sud" !~ "est|nord" 
</code>

Doivent être présents soit la chaîne "est" soit la chaîne "nord".

');

 $currentPage->addChapter('quanti', 'Quantificateurs', '

On peut spécifier le nombre de fois qu\'un caractère doit apparaître à l\'aide des quantificateurs. Il en existe 3 et tous se rapportent au caractère le précédant. Le ? indique que celui-ci peut être répété 0 ou 1 fois. Le + au moins 1 fois. Et enfin le * 0 ou plusieurs fois. Exemples :

<code>
"et" =~ "es?t" 
"est" =~ "es?t" 
"esst" !~ "es?t" 
 
"et" !~ "es+t" 
"est" =~ "es+t" 
"esst" =~ "es+t" 
 
"et" =~ "es*t" 
"est" =~ "es*t" 
"esst" =~ "es*t" 
</code>

On peut aussi spécifier un nombre explicite de fois où un caractère doit être présent. Cela se fait à l\'aide des accolades { } entourant les nombres de répétitions maximal et minimal séparés par une virgule. Certains outils comme grep nécessitent que ces accolades soient précédées par un \ (anti-slash).

<code>
"est" =~ "es{0,2}t" 
"essst" !~ "es{0,2}t" 
</code>

Cette expression serait notée comme suit avec grep :

<code>
"es\{0,2\}t" 
</code>

Elle indique qu\'il doit y avoir entre 0 et 2 fois le caractère s (les bornes sont incluses). La borne supérieure peut être omise pour indiquer par exemple qu\'il doit y avoir au moins 3 fois le s :

<code>
"es{3,}t" 
</code>
');

 $currentPage->addChapter('classes', 'Classes de caractères', '

Il est possible de dire qu\'un caractère doit être dans un ensemble donné. Cela se fait à l\'aide des classes de caractères notées entre crochets [ ]. On trouve entre ceux-ci la liste des caractères de l\'ensemble. Un exemple permettra de mieux comprendre cela :

<code>
"ste" =~ "[aeiouy]$" 
"est" !~ "[aeiouy]$" 
</code>

Cette expression régulière correspond à une chaîne de caractères qui se terminerait par une voyelle (un des éléments de l\'ensemble a, e, i, o, u, y).


Le caractère . (point) peut être considéré comme une classe de caractères particulière. Il correspond à n\'importe quel caractère, hormis celui de fin de ligne.

<code>
"est" =~ "e.t" 
"e7t" =~ "e.t" 
"et" !~ "e.t" 
</code>

On peut entre les crochets indiquer une suite de caractères consécutifs (selon leur code <acronym xml:lang="en" lang="en" title="American Standard Code for Information Interchange">ASCII</acronym>). Cela se fait grâce au - (tiret) qui sépare les deux bornes de l\'intervalle. Par exemple l\'expression régulière suivante :

<code>
"[b-h]s"
</code>

Correspondra à toute chaîne contenant une lettre entre b et h suivie par un s. On peut mettre plusieurs suites de caractères et plusieurs caractères seuls entre une seule paire de crochets. Exemples :

<code>
ect =~ "e[a-hT-Z04]t" 
e4t =~ "e[a-hS-Z04]t" 
teSt =~ "e[a-hS-Z04]t" 
eit !~ "e[a-hS-Z04]t" 
</code>

La classe de caractères correspond à un caractère entre a et h, entre T et Z, égal à 0 ou égal à 4. Le troisième exemple rappelle qu\'en l\'absence d\'indication de positionnement avec ^ ou $ la chaîne recherchée peut se trouver n\'importe où.


On peut inverser le comportement de ces classes en utilisant le caractère ^ juste après le crochet ouvrant. Ce caractère spécial n\'a pas ici le même sens que précédemment donc. S\'il se trouve à l\'intérieur de la définition de la classe de caractères, cela indique que la chaîne doit contenir le caractère ^ tel quel.

<code>
"est" =~ "e[^a-h]t" 
"eft" !~ "e[^a-h]t" 
</code>

Ici, on ne doit pas avoir une lettre entre a et h placée après le e et avant le t (qui eux doivent être présents).


Une classe entre crochets peut être suivie d\'un des quantificateurs ou de la notation entre accolades vus précédemment.


Pour terminer ce paragraphe, il faut citer les classes pré-définies. Elles sont de la forme :

<code>
[:nom_de_la_classe:]
</code>

Les crochets indiqués ici sont utiles pour définir le nom de la classe elle-même. On aura en plus les crochets entourant l\'utilisation de ces classes prédéfinies.

Voici les classes existantes et les caractères englobés dans ces classes pré-définies :

<ul>
<li>alnum : Un caractère alphanumérique.</li>
<li>alpha : Un caractère alphabétique.</li>
<li>blank : Un caractère blanc (espace ou tabulation).</li>
<li>cntrl : Un caractère de contrôle.</li>
<li>digit : Un chiffre.</li>
<li>graph : Un caractère imprimable sauf l\'espace.</li>
<li>lower : Une lettre minuscule.</li>
<li>print : Un caractère imprimable y compris l\'espace.</li>
<li>punct : Un signe de ponctuation (tout caractère imprimable qui ne soit pas alphanumérique ou un espace).</li>
<li>space : Un caractère d\'espacement (espace, tabulation, saut de ligne ou de page).</li>
<li>upper : Une lettre majuscule.</li>
<li>xdigit : Un chiffre hexadécimal (0-9, a-f, A-F).</li>
</ul>

On peut utiliser ensemble plusieurs de celles-ci et les combiner avec les notations précédentes. Voici quelques exemples :

<code>
"est" =~ "e[[:alpha:]]t" 
"e4t" !~ "e[[:alpha:]]t" 
"e4t" =~ "e[[:alpha:][:digit]]t" 
"e4t" =~ "e[[:alpha:]0-4]t" 
"e8t" !~ "e[[:alpha:]0-4]t" 
</code>

L\'expression régulière du troisième exemple aurait pu être remplacée par "e[[:alnum:]]t".

');

 $currentPage->addChapter('sub', 'Sous-expressions', '

On peut délimiter dans une expression régulière une sous-expression. Cela se fait à l\'aide de parenthèses ( ) l\'entourant. Comme pour les accolades, il est utile de les précéder de \ avec grep.

L\'intérêt est que les sous-expressions ainsi délimitées sont sauvegardées dans des variables positionnelles notées \1, \2 et ainsi de suite dans l\'ordre où elles sont définies. On peut ensuite les réutiliser.

<code>
assa =~ "([[:alpha:]])ss\1" 
issi =~ "([[:alpha:]])ss\1" 
assi !~ "([[:alpha:]])ss\1" 
</code>

Cette expression régulière recherche une lettre quelconque suivie de deux fois la lettre s. Puis ensuite doit être présente la même lettre que celle rencontrée auparavant.

');

 $currentPage->display();
?>

Si avez des problèmes ou des questions concernant ce fichier source, vous pouvez utiliser le Forum Sources du site

Source de cours/regexp.php

Barre de navigation

Sources du site

Préférences

Marque-pages

Liste de diffusion

Source de cours/regexp.php

Barre de navigation

Publicité

Sources du site

Préférences

Marque-pages

Liste de diffusion