Re: Propriétés Unicode dans les regex Python

Liste des GroupesRevenir à fcl python 
Sujet : Re: Propriétés Unicode dans les regex Python
De : alain (at) *nospam* universite-de-strasbourg.fr.invalid (Alain Ketterlin)
Groupes : fr.comp.lang.python
Date : 09. Nov 2022, 20:42:14
Autres entêtes
Organisation : Université de Strasbourg
Message-ID : <87educ2cmx.fsf@universite-de-strasbourg.fr.invalid>
References : 1 2 3 4 5 6
User-Agent : Gnus/5.13 (Gnus v5.13) Emacs/25.2 (gnu/linux)
Olivier Miakinen <om+news@miakinen.net> writes:

Le 09/11/2022 à 14:13, Alain Ketterlin m'a répondu :
 
D'après https://www.compart.com/en/unicode/category/Lu il y a 1791
caractères Unicode dans la catégorie Lu. Donc si tu veux construire une
expression régulière re en remplaçant "\p{Lu}" par "[......]" dans une
expression régulière pcre, tu vas aboutir à une expression énorme...
[...]
Mais effectivement, si tu n'as pas vraiment besoin d'une expression
régulière et que le test de correspondance peut être fait "à la main",
c'est une solution.
>
Je posais la question pour un outil dans lequel tout se fait par
expressions régulières. Par conséquent le module unicodedata ne peut
pas me servir directement pour cela, mais il pourrait m'être utile
dans d'autres circonstances et je remercie encore Stefan de me l'avoir
fait découvrir.
>
Pour l'heure je vais me contenter des [A-Z] ou [a-z], quitte à y
ajouter des caractères accentués au cas par cas.

Absolument !

Ma "proposition" était ironique, en fait, j'aurais dû être plus clair.
La catégorie "Lu" inclut, par exemple, les majuscules grecques et
cyrilliques et cherokee et ..., des symboles d'unités (Kelvin, Ångström,
Ohm), les ensembles mathématiques classiques (N/Z/Q/R/... avec double
barre), etc.

(Au passage, je ne sais pas très bien pourquoi unicodedata ne donne pas
accès au script d'un caractère... ce qui pourrait aussi être utile ici
pour faire un peu le tri dans Lu.)

-- Alain.

Date Sujet#  Auteur
5 Nov 22 * Propriétés Unicode dans les regex Python16Olivier Miakinen
6 Nov 22 +* Re: Propriétés Unicode dans les regex Python2Alain Ketterlin
6 Nov 22 i`- Re: Propriétés Unicode dans les regex Python1Olivier Miakinen
6 Nov 22 `* Re: Propriétés Unicode dans les regex Python13ast
9 Nov 22  +* Re: Propriétés Unicode dans les regex Python2Dominique
9 Nov 22  i`- Re: Propriétés Unicode dans les regex Python1Dominique
9 Nov 22  `* Re: Propriétés Unicode dans les regex Python10Olivier Miakinen
9 Nov 22   `* Re: Propriétés Unicode dans les regex Python9Alain Ketterlin
9 Nov 22    +* Re: Propriétés Unicode dans les regex Python3Olivier Miakinen
9 Nov 22    i`* Re: Propriétés Unicode dans les regex Python2Alain Ketterlin
9 Nov 22    i `- Re: Propriétés Unicode dans les regex Python1Olivier Miakinen
9 Nov 22    `* Re: Propriétés Unicode dans les regex Python5Olivier Miakinen
9 Nov 22     +* Re: Propriétés Unicode dans les regex Python3Olivier Miakinen
9 Nov 22     i`* Re: Propriétés Unicode dans les regex Python2Alain Ketterlin
9 Nov 22     i `- Re: Propriétés Unicode dans les regex Python1Olivier Miakinen
10 Nov 22     `- Re: Propriétés Unicode dans les regex Python1ast

Haut de la page

Les messages affichés proviennent d'usenet.

NewsPortal