виконання інших необхідних дій. Наприклад,
іменники у множині приводять до однини
(цей прийом використано у структурі, зо-
браженій на рис. 56, оскільки процес
пошуку за ключовим словом «dog» приводить
до отримання документів, які містять не
тільки слово «dog», але й відповідний
варіант множини – «dogs»).
2. Відкидання слів-роздільників. Спо-
лучники, частки, артиклі, прийменники та
інші подібні слова, які часто використо-
вуються, і не несуть особливого змістового
навантаження і є присутніми практично у
будь-якому документі, зі зверненого індек-
су, зазвичай, вилучаються. Вилучення слів-
роздільників не впливає на якість резуль-
татів пошуку і дає змогу суттєво зменшити
розміри файла індексу і час, необхідний
для його перегляду.
Файл сегментів може містити:
1) покажчики на документи загалом;
2) покажчики, які посилаються на екземпляри ключового слова
всередині документа; у цьому випадку покажчик може
складатися з двох частин – адреси першого блока документа і
цілочислового номера слова у документі.
За використання другого варіанта, що передбачає застосування
покажчиків, які адресують окремі входження ключового слова в
тексті документа, модель файла сегментів може бути розширеною
за рахунок додаткової інформації про кожен екземпляр ключового
слова всередині документа. Тепер файл сегментів сам по собі стає
колекцією записів достатньо складної структури. Перші реалізації
подібної моделі давали змогу розрізняти зразки ключового слова,
присутні у назві, анотації і тілі документа. З розвитком технологій
опису Web-документів засобами HTML, XML та інших мов
розмітки стало можливим задавати і різні ознаки формування
ключових слів, які необхідно відшукати. Тепер система здатна
зовсім незалежно розрізняти слова, які присутні в назвах,
заголовках, таблицях, фрагментах «звичайного» тексту або рядках
150