| Konstantin Savenkov ( @ 2003-01-14 15:45:00 |
Словари
Немного повозился с plain-text словарями, ссылку на которые кидал
avva.
Хочу загнать их в базу и информацией о произношении и прочем. Из соображений эффективности поиска надо попробовать использовать "кирпичики" покрупнее отдельных букв ("слоги"). Однако словарь переносов использовать не хочу (слишком медленно), поэтому разбиение на "слоги" нужно делать автоматически. Вопрос в том, какой из алгоритмов разбиения будет эффективнее (например, будет давать меньшее число различных "слогов").
Для начала -- самый "тупой" вариант: слова имеют форму
Результаты:
Словарь Зализняка:
Словарь Лопатина
Литературный словарь
Впрочем, в последнем дофига опечаток, и 8-буквенноый слог -- на их совести.
to be continued...
Немного повозился с plain-text словарями, ссылку на которые кидал
Хочу загнать их в базу и информацией о произношении и прочем. Из соображений эффективности поиска надо попробовать использовать "кирпичики" покрупнее отдельных букв ("слоги"). Однако словарь переносов использовать не хочу (слишком медленно), поэтому разбиение на "слоги" нужно делать автоматически. Вопрос в том, какой из алгоритмов разбиения будет эффективнее (например, будет давать меньшее число различных "слогов").
Для начала -- самый "тупой" вариант: слова имеют форму
word ::= syllable* [ending]
syllable ::= consonant* vowel
ending ::= consonant+
Результаты:
Словарь Зализняка:
A total of 93392 words A total of 407659 parts (3993 are different): length 1: 31 (0.77%) different parts, a total of 68329 (16.761%) parts length 2: 307 (7.69%) different parts, a total of 217845 (53.44%) parts length 3: 1873 (46.91%) different parts, a total of 95544 (23.44%) parts length 4: 1448 (36.26%) different parts, a total of 23249 (5.70%) parts length 5: 301 (7.54%) different parts, a total of 2392 (0.59%) parts length 6: 32 (0.80%) different parts, a total of 299 (0.07%) parts length 7: 1 (0.02%) different parts, a total of 1 (0.0002%) parts
Словарь Лопатина
A total of 158136 words A total of 741371 parts (5599 are different): length 1: 31 (0.55%) different, a total of 131193 (17.70%) parts length 2: 364 (6.50%) different, a total of 384766 (51.90%) parts length 3: 2252 (40.22%) different, a total of 176935 (23.86%) parts length 4: 2238 (39.97%) different, a total of 43534 (5.87%) parts length 5: 610 (10.89%) different, a total of 4459 (0.60%) parts length 6: 97 (1.73%) different, a total of 473 (0.06%) parts length 7: 7 (0.12%) different, a total of 11 (0.001%) parts
Литературный словарь
A total of 162164 words A total of 638677 parts (4113 are different): length 1: 32 (0.78%) different, a total of 123703 (19.37%) parts length 2: 457 (11.11%) different, a total of 334438 (52.36%) parts length 3: 1968 (47.85%) different, a total of 153297 (24.00%) parts length 4: 1325 (32.21%) different, a total of 23776 (3.72%) parts length 5: 291 (7.07%) different, a total of 3098 (0.48%) parts length 6: 37 (0.90%) different, a total of 362 (0.06%) parts length 7: 2 (0.05%) different, a total of 2 (0.0003%) parts length 8: 1 (0.02%) different, a total of 1 (0.0001%) parts
Впрочем, в последнем дофига опечаток, и 8-буквенноый слог -- на их совести.
to be continued...