Sujet : Re: Propriétés Unicode dans les regex Python
De : om+news (at) *nospam* miakinen.net (Olivier Miakinen)
Groupes : fr.comp.lang.pythonDate : 09. Nov 2022, 15:12:34
Autres entêtes
Organisation : There's no cabale
Message-ID : <tkgcgh$j7u$1@cabale.usenet-fr.net>
References : 1 2 3 4 5
User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0 SeaMonkey/2.53.1
Le 09/11/2022 à 14:13, Alain Ketterlin m'a répondu :
D'après https://www.compart.com/en/unicode/category/Lu il y a 1791
caractères Unicode dans la catégorie Lu. Donc si tu veux construire une
expression régulière re en remplaçant "\p{Lu}" par "[.....]" dans une
expression régulière pcre, tu vas aboutir à une expression énorme...
Certes ! :-)
Sans compter que cette collection peut augmenter au fil des différentes
versions d'Unicode.
Mais effectivement, si tu n'as pas vraiment besoin d'une expression
régulière et que le test de correspondance peut être fait "à la main",
c'est une solution.
Je posais la question pour un outil dans lequel tout se fait par
expressions régulières. Par conséquent le module unicodedata ne peut
pas me servir directement pour cela, mais il pourrait m'être utile
dans d'autres circonstances et je remercie encore Stefan de me l'avoir
fait découvrir.
Pour l'heure je vais me contenter des [A-Z] ou [a-z], quitte à y
ajouter des caractères accentués au cas par cas.
Cordialement,
-- Olivier Miakinen