Ответ 1
Подвести итоги и идеи:
- Том Кристиансен собрал такую статистику для PubMed Open Access Corpus (см. этот вопрос). Я спросил, может ли он поделиться этими статистическими данными, ожидая ответа.
- Как предложили @Boldewyn и @nwellnhof, я мог бы запустить анализ полного дампа Википедии или данные CommonCrawl. Я думаю, что это хорошие предложения, я, вероятно, поеду с CommonCrawl.
Так жаль, это не ответ, но хорошее направление исследований.
ОБНОВЛЕНИЕ: Я написал небольшое задание Hadoop и запустил его на одном из сегментов CommonCrawl. Я опубликовал свои результаты в электронной таблице здесь. Ниже приведены первые 50 символов:
0x000020 14627262
0x000065 7492745 e
0x000061 5144406 a
0x000069 4791953 i
0x00006f 4717551 o
0x000074 4566615 t
0x00006e 4296796 n
0x000072 4293069 r
0x000073 4025542 s
0x00000a 3140215
0x00006c 2841723 l
0x000064 2132449 d
0x000063 2026755 c
0x000075 1927266 u
0x000068 1793540 h
0x00006d 1628606 m
0x00fffd 1579150
0x000067 1279990 g
0x000070 1277983 p
0x000066 997775 f
0x000079 949434 y
0x000062 851830 b
0x00002e 844102 .
0x000030 822410 0
0x0000a0 797309
0x000053 718313 S
0x000076 691534 v
0x000077 682472 w
0x000031 648470 1
0x000041 624279 @
0x00006b 555419 k
0x000032 548220 2
0x00002c 513342 ,
0x00002d 510054 -
0x000043 498244 C
0x000054 495323 T
0x000045 455061 E
0x00004d 426545 M
0x000050 423790 P
0x000049 405276 I
0x000052 393218 R
0x000044 381975 D
0x00004c 365834 L
0x000042 353770 B
0x000033 334689 E
0x00004e 325299 N
0x000029 302497 /
0x000028 301057 (
0x000035 298087 5
0x000046 295148 F
Честно говоря, я понятия не имею, являются ли эти результаты репрезентативными. Как я уже сказал, я анализировал только один сегмент. Выглядит довольно правдоподобно для меня. Можно также легко заметить, что разметка уже отключена - поэтому дистрибутив не подходит для моего XML-парсера. Но он дает ценные подсказки, по которым сначала нужно проверить диапазоны символов.