Regex : reutilisation des substitution group dans l’expression régulière

Exemple de problématique: récupérer des tags html valides.
C’est à dire qui commence par un tag (<a>, , ) et qui fini par le bon tag (</a>, , ).

La première solution

La solution la plus évidente donne la regex suivante :

<([a-z]+)[^>]*>(.*)<\/([a-z]+)>

Mais cela match des tags invalides:
<a>test</a> => test OK
<a>bla test bla</a> => bla test KO
<a>test => test KO

Deuxième solution: utiliser les substitution group dans la regex

On sait tous utiliser les substitutions group pour faire des remplacements de chaine.
Mais là où ça devient très interessant c’est qu’il est également possible de les utiliser dans la regex elle même !
Nous obtenons cette deuxième expression:

<([a-z]+)[^>]*>(.*)<\/\1>

Remarque: la magie opère avec \1 qui match le texte de la 1ere accolade.

<a>test</a> => test OK
<a>bla test bla</a> => bla test bla OK
<a>test => rien OK

Vous pouvez tester en live: http://www.regex101.com/r/zN4yS7

Cet article a été publié le Mercredi 9 octobre 2013 à 14 h 43 min et est classé dans PHP, java, regex. Vous pouvez en suivre les commentaires par le biais du flux RSS 2.0. Les commentaires et pings sont fermés.

Le commentaires sont fermés.