Konstantin Savenkov ([info]savenkov) wrote,
@ 2003-01-14 15:45:00
Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Словари
Немного повозился с plain-text словарями, ссылку на которые кидал [info]avva.
Хочу загнать их в базу и информацией о произношении и прочем. Из соображений эффективности поиска надо попробовать использовать "кирпичики" покрупнее отдельных букв ("слоги"). Однако словарь переносов использовать не хочу (слишком медленно), поэтому разбиение на "слоги" нужно делать автоматически. Вопрос в том, какой из алгоритмов разбиения будет эффективнее (например, будет давать меньшее число различных "слогов").


Для начала -- самый "тупой" вариант: слова имеют форму
	word ::= syllable* [ending]
        syllable ::= consonant* vowel
	ending ::= consonant+

Результаты:

Словарь Зализняка:
	A total of 93392 words
	A total of 407659 parts (3993 are different):

	length 1: 31 (0.77%) different parts, a total of 68329 (16.761%) parts
	length 2: 307 (7.69%) different parts, a total of 217845 (53.44%) parts
	length 3: 1873 (46.91%) different parts, a total of 95544 (23.44%) parts
	length 4: 1448 (36.26%) different parts, a total of 23249 (5.70%) parts
	length 5: 301 (7.54%) different parts, a total of 2392 (0.59%) parts
	length 6: 32 (0.80%) different parts, a total of 299 (0.07%) parts
	length 7: 1 (0.02%) different parts, a total of 1 (0.0002%) parts


Словарь Лопатина
	A total of 158136 words
	A total of 741371 parts (5599 are different):

 	length 1: 31 (0.55%) different, a total of 131193 (17.70%) parts
 	length 2: 364 (6.50%) different, a total of 384766 (51.90%) parts
 	length 3: 2252 (40.22%) different, a total of 176935 (23.86%) parts
 	length 4: 2238 (39.97%) different, a total of 43534 (5.87%) parts
 	length 5: 610 (10.89%) different, a total of 4459 (0.60%) parts
 	length 6: 97 (1.73%) different, a total of 473 (0.06%) parts
 	length 7: 7 (0.12%) different, a total of 11 (0.001%) parts


Литературный словарь
	A total of 162164 words
	A total of 638677 parts (4113 are different):

	length 1: 32 (0.78%) different, a total of 123703 (19.37%) parts
	length 2: 457 (11.11%) different, a total of 334438 (52.36%) parts
	length 3: 1968 (47.85%) different, a total of 153297 (24.00%) parts
	length 4: 1325 (32.21%) different, a total of 23776 (3.72%) parts
	length 5: 291 (7.07%) different, a total of 3098 (0.48%) parts
	length 6: 37 (0.90%) different, a total of 362 (0.06%) parts
	length 7: 2 (0.05%) different, a total of 2 (0.0003%) parts
	length 8: 1 (0.02%) different, a total of 1 (0.0001%) parts


Впрочем, в последнем дофига опечаток, и 8-буквенноый слог -- на их совести.

to be continued...



(Post a new comment)

Интересно...
[info]ladova
2003-01-14 07:58 am UTC (link)
...какой?

(Reply to this) (Thread)

(Deleted post)
Re: Интересно...
[info]ladova
2003-01-14 08:15 am UTC (link)
Я интересовалась, какой слог она нашла? 8-буквенный?

(Reply to this) (Parent)(Thread)

A
[info]savenkov
2003-01-14 08:20 am UTC (link)
Торможу.
Не помню, там просто вместо "е" было "с".
Однако в литературном словаре есть слово "попреблагорассмотрительствующемуся" :)

(Reply to this) (Parent)


(Anonymous)
2003-10-30 05:00 am UTC (link)
Поздравляю!
Я потрясён тем, что на моём дурацком материале кто-то смог сделать толковые исследования.

Арнольд

P.S. Немедленно сажаю ссылку на эту страничку с результатами сюда:
http://speakrus.narod.ru/dict/ruslit.htm

(Reply to this)

Да, о слоге в 8 букв
(Anonymous)
2003-10-30 05:20 am UTC (link)
Это было вот что:
винограду немного, душечка; для выздоравливающей это, говорят, хорошо, да и доктор рекомендует для утоления жажды, так только единствснно для жажды
http://lib.ru/LITRA/DOSTOEWSKIJ/people.txt
Федор Михайлович Достоевский. Бедные люди

Арнольд

(Reply to this) (Thread)

Re: Да, о слоге в 8 букв
[info]savenkov
2003-10-30 05:23 am UTC (link)
Я подумал, что распознавалка исходного ткста сочла 'е' за 'с'.

(Reply to this) (Parent)


Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…