
ИТНОП-2010
191
Перечисленные алгоритмы успешно справляются и с обменом ссылками. Существуют
также специализированные алгоритмы, позволяющие обнаруживать ссылочный спам в
блогах и комментариях [6, 11]. Некоторые работы посвящены обнаружению спама в
социальных сетях, например, [8].
Вопросам обнаружения ферм ссылок также посвящено множество работ. Например, в
работе [10] производится анализ входящих и исходящих ссылок сайтов. В случае
обнаружения пересечения входящих и исходящих ссылок больше определенного порога,
страницам назначается штраф. Эта операция выполняется для всех страниц.
В работе [3] проводится статистический анализ для выявления автоматически
сгенерированных страниц и сайтов. О спаме может свидетельствовать: отклонение от
нормального распределения различных свойств страниц, включая имена и IP-адреса,
входящие и исходящие ссылки, содержание страницы и норму изменения.
В [9] рассматриваются различные свойства страниц сайтов, свидетельствующие о
наличии ссылочного спама. За основу берутся деревья решений C4.5, входящие в пакет Weka
3.4.4. Рассматриваются две группы свойств – связанные с содержанием и со ссылочной
структурой. К первой группе относятся: число слов на странице, средняя длина слов на
странице, процент слов из списка популярных слов, процент видимого содержания
страницы, число слов в заголовке страницы и т.д. Ко второй группе относятся: процент
страниц на наиболее популярном уровне, число входящих ссылок на страницу, число
исходящих ссылок на страницу, отношение числа входящих и исходящих ссылок, число
ссылок с главных страниц, процент входящих ссылок на наиболее популярные страницы,
процент исходящих ссылок на наиболее популярные страницы, перекрестные ссылки на
страницу, средний уровень страниц на сайте и т.д.
Для обнаружения ферм ссылок также могут применяться TrustRank и Anti-TrustRank.
Борьба со ссылками, размещаемыми ссылочными брокерами, освещена слабо. Из-за
большого распространения этого вида спама, его можно увидеть даже на самых известных и
авторитетных сайтах – сайтах коммерческих и государственных организаций, учебных
заведений, крупных web-порталах, сайтах политиков и литераторах.
Подавляющее большинство существующих решений не позволяет отделять спам
через ссылочных брокеров от основного содержания страниц, так как дают только ответ на
вопрос: содержит ли страница ссылочный спам или нет. По этой причине применение
существующих алгоритмов и решений является нецелесообразным, так как не позволяет
обнаруживать ссылочный спам на известных сайтах, либо, наоборот, влечет ошибочное
зачисление всего содержания страницы к разряду ссылочного спама. Следовательно,
возникает необходимость применения новых подходов обнаружения спама, размещаемого с
помощью ссылочных брокеров [13].
ОБНАРУЖЕНИЕ СПАМА, РАЗМЕЩАЕМОГО ССЫЛОЧНЫМИ БРОКЕРАМИ
Для решения задачи нахождения спама, размещаемого с использованием ссылочных
брокеров, нами был разработан алгоритм [14].
Для обнаружения ссылочного спамы были применены методы машинного обучения.
Анализ показал, что наиболее популярными и эффективными методами для обнаружения
спама являются методы классификации с использованием деревьев решений и метода
опорных векторов. За основы мы выбрали метод опорных векторов в реализации SVM-Light.
Мы использовали линейное ядро с параметрами по умолчанию.
Работа метода опорных векторов включает в себя два основных этапа – обучение на
тестовой коллекции и непосредственно классификация. Для осуществления обучения и
классификации ссылок был выявлен ряд признаков, которые можно разделить на две
большие группы.
Группа 1. Свойства ссылки.
1.1. Тематическая близость ссылки и страницы.