Petite statistique
Sujet : Petite statistique
De : ram (at) *nospam* zedat.fu-berlin.de (Stefan Ram)
Groupes : fr.lettres.langue.francaiseDate : 16. Jan 2024, 22:33:07
Autres entêtes
Organisation : Stefan Ram
Message-ID : <statistique-20240116203345@ram.dialup.fu-berlin.de>
Je viens d'écrire un petit programme de statistiques qui évalue la
fréquence des mots dans les messages de ce newsgroup au cours des
dernières années. (Afin d'exclure les messages spam en anglais, je
n'ai pris en compte pour l'instant que les posts de certains noms
d'expéditeurs réguliers).
La particularité de mon programme est qu'il prend également
en compte les signes de ponctuation, les combinaisons de
plusieurs mots (Par exemple : « 9492 'de la' », voir plus bas)
ainsi que les combinaisons de plusieurs signes de ponctuation
(Par exemple : « 5661 '".' », voir plus bas).
C'est utile pour l'apprentissage du français, car cela permet de
savoir quelles expressions sont particulièrement fréquentes et
valent donc la peine d'être apprises.
(Le programme distingue les majuscules et les minuscules, donc
« vous » et « Vous » sont considérés comme deux mots différents.
Si une combinaison comme "y a" est comptée, chacun des deux mots
"y" et "a" est en outre compté une fois de plus séparément).
Suivent les 212 lignes jusqu'à « il y a » :
161131 '.'
152426 ','
85454 'de'
51029 '"'
47981 'le'
45552 'la'
44576 '-'
39170 'que'
38964 'pas'
34865 'à'
32932 'et'
32248 'les'
27988 'un'
26818 'en'
24022 'est'
23948 'des'
23750 '?'
22891 'ne'
22145 'qui'
20337 'une'
19598 'vous'
19434 'ce'
18079 'pour'
17440 'a'
17239 'du'
16997 '»'
16946 'dans'
16901 '«'
16688 'je'
14289 'il'
13985 'cʼest'
12966 'plus'
11282 'Je'
11224 '!'
11140 'mais'
10717 'on'
10537 'ou'
10352 'au'
9980 'Cʼest'
9554 'par'
9507 'sur'
9492 'de la'
9257 'bien'
9072 'Il'
8752 'se'
8706 'même'
8433 'nʼest'
8333 'sont'
8105 'avec'
8006 ', mais'
7884 'comme'
7591 ', cʼest'
7401 'y'
7389 'fait'
7099 'Le'
6996 'ça'
6940 'tout'
6631 'peut'
6613 'si'
6450 'nʼest pas'
6433 'Et'
6368 'me'
6273 'français'
6115 'Mais'
6067 ', je'
5790 ', il'
5697 'être'
5680 "'"
5630 ', et'
5565 'quʼil'
5530 'aussi'
5525 'tu'
5289 '".'
5089 'dire'
5087 'non'
5077 'dit'
5006 'Vous'
4874 'La'
4803 '. Il'
4751 'On'
4710 'cette'
4685 'faire'
4680 '. Je'
4632 'langue'
4596 ';'
4515 'son'
4514 '. Cʼest'
4361 'Ce'
4308 'Les'
4297 'deux'
4252 '. Mais'
4218 'y a'
4193 'à la'
4184 'mot'
4173 'dʼun'
4111 'En'
4043 'sans'
3915 ', on'
3817 ', le'
3734 'nous'
3720 'sens'
3668 '",'
3634 'donc'
3519 'quand'
3510 'dʼune'
3449 'ce que'
3444 'Si'
3409 'aux'
3364 'quʼon'
3332 'dans le'
3288 'moins'
3222 '».'
3216 'que vous'
3207 'jʼai'
3125 'que je'
3103 'moi'
3075 '. Le'
3072 'cela'
3050 'elle'
3020 'votre'
3014 'très'
2992 'ont'
2966 '. Et'
2929 'encore'
2922 'peu'
2905 'ces'
2891 'que le'
2880 'alors'
2852 'suis'
2816 'là'
2805 'je ne'
2775 'cas'
2729 'rien'
2718 ', ce'
2707 'mots'
2700 'été'
2689 ', les'
2687 'pas de'
2671 'lui'
2669 'faut'
2628 'Oui'
2619 'mon'
2599 'Pour'
2594 'où'
2578 'leur'
2570 'sa'
2565 '»,'
2563 'tous'
2549 'soit'
2534 'que les'
2511 'Un'
2507 ', la'
2504 'toujours'
2486 '. On'
2473 '-vous'
2473 'entre'
2456 'nʼa'
2452 'question'
2443 '."'
2440 'Non'
2422 'chose'
2383 'dans la'
2383 'nʼy'
2368 ', vous'
2328 'était'
2323 'ce qui'
2316 'Dans'
2315 'ils'
2304 'Je ne'
2301 'exemple'
2296 'temps'
2291 '. Ce'
2248 '-ce'
2235 'il y'
2229 '-il'
2212 'autre'
2200 'serait'
2171 'ici'
2163 'parce'
2150 'la langue'
2142 '. La'
2119 'ses'
2100 'fois'
2094 ', qui'
2092 'déjà'
2082 ', en'
2072 'anglais'
2067 'Ça'
2054 '. Vous'
2034 'quoi'
2024 'À'
2019 'Oui,'
2018 'ce nʼest'
2017 'Jʼai'
2009 'France'
2005 'dans les'
1997 '-être'
1990 '. En'
1962 'avez'
1961 '. Les'
1953 'que la'
1929 'en français'
1928 'pas.'
1928 'jamais'
1924 'ma'
1885 'lʼon'
1882 '1'
1875 'avoir'
1867 'écrit'
1866 'phrase'
1864 'ni'
1835 'il y a'
Haut de la page
Les messages affichés proviennent d'usenet.
NewsPortal