18
4. Анализ текстов различной специфики
Проиллюстрируем предложенные понятия и формулы на примере
вычислений, осуществляемых над текстами различных стилей и объёмов( не
менее 1000 символов). Для этого проведём анализ текстов по частоте
встречаемости букв, так как для русского языка мало опубликованных
данных такого рода.
Поскольку исследуемые характеристики принадлежат не только языку
как таковому, но зависят ещё от многих факторов, то следует исследовать
различные виды источников.
Первый источник представляет собой файл, полученный слиянием
нескольких файлов, содержавших текст учебников по философии.
Специфика текстов позволяет получить самые разнообразные буквенные
сочетания и вероятность букв. Объём документа 3,703 Мб
Фрагмент текста и результаты обработки приведены в Приложении 1
Вывод по первому источнику: обработка текста показала, что пробел ,
буквы О, Е, И, Н, Т, А, С встречаются чаще других. Почти отсутствуют
буквы Э, Ш, Ф, Ъ, Ё. Практически одинаковую частоту встречаемости
имеют такие буквы, как Т и А (Т = 0.0574725, А = 0.0571118) В и Р (В =
0.0392501,Р =.0388134 ), Ь и Б ( Ь = 0.0128209, Б = 0.0120790), Э и Ш (Э =
0.0038804, Ш = 0.0037972)
Количество информации на одну букву в тексте
I= 4,3562652
Второй источник так же является файлом, созданным путём слияния
различных текстовых документов (рассматривается художественная
литература). Частота встречаемости букв характерна для наиболее часто
употребимых слов, выражений и т.д.
Объём документа 947 Кб.
Фрагмент текста и результаты обработки приведены в Приложении 2
Вывод по второму источнику: обработка текста показала, что пробел ,
буквы О, Е, А, Т, Н, И, С встречаются чаще других. Почти отсутствуют
буквы Щ, Э, Ф, Ъ, Ё. Практически одинаковую частоту встречаемости
имеют такие буквы, как Н и И ( Н = 0.0345210 И = 0.0332279) , Д и М (Д =
0.0183750,М = 0.0180478), Ы и Г (Ы = 0.0102668, Г = 0.0100300)
Количество информации на одну букву в тексте
I= 3,3902703
Третий источник составлен из сказок различных писателей. Характер
текстов позволяет проследить наиболее часто употребляемые буквы.
Объём документа 1,46 мб.
Фрагмент текста и результаты обработки приведены в Приложении 3
Вывод по третьему источнику : обработка текста показала, что пробел ,
буквы О, А, Е, И, Т, Н, Л встречаются чаще других. Почти отсутствуют
буквы Щ, Э, Ф, Ъ, Ё. Практически одинаковую частоту встречаемости
имеют такие буквы, как Н и Л (Н = 0,0438128261831048 Л =
0,0434731534719151), Р и В (Р = 0,0357901813356922, В =