5.2. Моделирование информационных потоков
125
Отметим, что построенная зависимость удовлетворяет принципу
Парето: приблизительно 20 % наиболее производительных источни-
ков публикуют 80 % документов.
Специальное место в исследовании занимало изучение содержа-
тельного дублирования информации. При этом следует отметить, что
процент документов, которые дублируются по смыслу, в системе мо-
ниторинга InfoStream значительно меньше, чем во всем новостном
веб-пространстве. Это объясняется подбором источников для скани-
рования, в число которых не входят много новостных интеграторов.
Как уже отмечалось, одной из главных особенностей новостной
информации является наличие большого количества сообщений, дуб-
лирующих друг друга. Кроме того, о событии мирового значения на-
пишут все средства массовой информации (СМИ), причем, скорее все-
го, на одной из первых страниц. Потребитель (за исключением неко-
торых специфических направлений аналитических исследований ин-
формационного пространства), однако, желает получать по каждому
событию одно сообщение.
Поэтому исследование характера и свойств дублирования ин-
формации приобретает в современных технологиях исключительно
важное значение. В частности, актуальным становится задание отбора
наиболее оригинальных источников, которые позволяют (по крайней
мере статистически) исключить не только формальное, но и содержа-
тельное дублирование информации. Дублирование сообщений на веб-
сайтах зависит от разных причин, поэтому проведенные измерения
для ранжированного по количества публикаций списка источников
показывают разный уровень, причем информация не носит наглядный
характер. Вместе с тем, исследование авторов свидетельствует об ус-
тойчивой тенденции: чем более производительный источник инфор-
мации, тем больше он содержит заимствований из других источников.
5.2. Моделирование информационных потоков
Живучесть информационных систем как тематических инфор-
мационных потоков определяется их составом, структурой и содержа-
нием (контентом). Анализ динамики тематических информационных
потоков, которые генерируются в веб-пространстве, является сегодня
одним из наиболее информативных методов исследования актуально-
сти тех или иных тематических направлений [69]. Эта динамика обу-
словлена факторами, большая часть которых не поддаются точному