189
Слово, как физическая форма выражение смысла, выраженная звуком или графикой
должно быть таким, что бы оно могло быть зафиксировано электронной программой
и иметь содержание, которое фиксируется исследователем.
112
При некотором
количестве слов как признака, можно говорить о сущности уже частотного
распределения: его значимости или не значимости.
Основная задача методики определения формализованных физических единиц
анализа текста заключается в следующем: 1. Формирование искусственных текстов
на основании четко фиксированных признаков, способных иметь форму
количественного выражения и содержания; 2. Осуществление поиска текстов,
содержащих необходимую информацию, так же на основании четко вырожденных
признаков в понятийном и количественных формах выражения.
В данном случае, т.е. применительно к тексту, речь может идти только о слове,
(словосочетании, без пробелов), как единственной «атомарной» физической форме
выражения смысла. Понято, что только в этом случае его легко можно представить в
количественном выражении, в физических единицах, в частотном варианте при
электронной обработке. Применительно к формализованной процедуре анализа
текста можно сказать: «В начале было слово…». В конце тоже.
Поэтому первое, что необходимо сделать - выработать некие основные конечные
физические формы выражения исследуемых понятий. Другими словами, дать
основным понятийным единицам точное определенное как физическим объектам,
которое бы полностью укладывалось в формализованную процедуру количественного
выражения частотного распределения фиксированного понятия.
Ниже приводится небольшой словарь таких терминов-понятий, которые можно легко
представить в формализованном виде. Например, мы говорим не просто о тексте, а
таком его понимании, которое выражается в фиксированном наборе слов,
естественно, безотносительно к его содержанию, объему, форме построения и пр.
Здесь присутствует только один признак – количество слов и все. И так:
1. Текст - фиксированный в количественном выражении набор слов и
словосочетаний, (если они пишутся слитно).
2. Блок – условная часть текста с установленными параметрами, например,
количеством слов, строк, знаков в тексте и пр. Устанавливается от конечной
условной
величины (например, слово) до максимально возможного – весь
текст – один блок.
3. Фраза, предложение – связный текст, ограниченный с одной стороны точкой
предыдущего предложения и заглавной буквой слова следующего
предложения. И с другой стороны точкой, заканчивающее данное предложение
и заглавной буквой слова следующего предложения.
4. Слово – условная величина, ограниченная с двух сторон пробелами
.
112
Для электронной программы смысл слова не играет роли, для нее важно только иметь признаки,
желательно несколько, для точности определения, что бы представить его как формализованный
признак. Но понятно, что представленное слово по этим признакам, может быть бессмысленным,
например, случайный набор букв, хотя программа может определить отсутствие смысла на основе
имеющейся
у нее словаря слов, содержащие возможный смысл. Однако, только автор и исследователь
текста вкладывает определенный смысл в слово как физическую форму выражения смысла. Но если
за словом как физическим объектом закреплен какой-то смысл, то эл. программы может оперировать
и смыслами, точнее словами как признаками смысла. Как и всегда: одно можно
познать только через
другое.