Секция распознавания изображений и обработки текста 93
Третий метод — это применение к исходному изображению морфо-
логических трансформаций [2], в частности, последовательное приме-
нение операторов дилатации и эрозии, и поиск контуров на бинари-
зованном изображении.
В работе проводится сравнительный анализ алгоритмов, предна-
значенных для извлечения графических фрагментов отсканирован-
ных изображений. Каждый из алгоритмов был реализован в виде
программы в среде программирования Delphi. Наилучшие результа-
ты были показаны при помощи третьего метода.
Литература
1. Bradsky G., Kaebler A. Learning OpenCV Computer Vision with
the OpenCV Library. — O’Reilly Media, Inc., 2008.
2. Serra J. Image Analysis and Mathematical Morphology. —
Academic Press, Inc., 1982.
УДК 81’322.4, 004.891.2
Е.В. Захожая
1,2
,В.И.Протасов
3,2
elena.zakhozhaya@gmail.com, protonus@yandex.ru
1
Московский физико-технический институт
(государственный университет)
2
Институт физико-технической информатики
3
Московский государственный горный университет
Применение генетических алгоритмов
для получения связного машинного перевода
текста
В докладе исследуется принципиальная возможность построения
гибридной системы машинного перевода на основе генетических ал-
горитмов [1]. Метод генетического консилиума [2] позволяет объеди-
нить различные подходы к машинному переводу [3] и вовлечь в про-
цесс перевода пользователя, и тем самым использовать неформали-
зованные знания человека для значительного улучшения точности и
связности перевода [4]. Существенным достоинством предложенного
метода является то, что пользователю достаточно знать лишь один
язык из двух, участвующих в переводе. К минусам метода можно
94 53-я научная конференция МФТИ ФИВТ
отнести его трудоемкость. В результате была показана принципиаль-
ная работоспособность метода, разработан детальный алгоритм и на
основе экспериментов выявлены общие закономерности.
В ходе работы текст переводится несколькими различными элек-
тронными переводчиками в необходимом направлении, затем после
некоторой обработки и фильтровки каждый из полученных резуль-
татов переводится в обратном направлении. Процесс повторяется; ко-
личество итераций, через которое достигается результат, зависит от
сложности текста и направления перевода, а также желаемой точно-
сти. Контроль и фильтровка производятся двумя способами. Первый
доступен для обоих направлений перевода: на итерации, когда мы
имеем в наличии текст на знакомом пользователю языке, у пользо-
вателя есть возможность проследить, как выглядят тексты, получен-
ные разными электронными переводчиками. Пользователь выбирает
тот вариант перевода, который, по его мнению, наиболее удачен на
данной итерации, либо составляет их комбинацию. (Наиболее удач-
ным считается наиболее близкий по смыслу к исходному текст при
переводе с известного на незнакомый либо наиболее связный при
переводе с незнакомого.) Второй способ отсеивания слабых вариан-
тов проводится на этапе, на котором мы имеем варианты на незна-
комом пользователю языке. Отсеивание производится машиной на
основании сравнения варианта с исходным текстом, поэтому такое
отсеивание используется только для перевода с незнакомого языка.
Сравнение является пословным, особый вес в оценку варианта дает
правильное использование временных форм глагола. Как показали
эксперименты, такая оценка действительно позволяет отбросить наи-
менее точные и оставить в рассмотрении наиболее точные варианты
перевода.
Конец определяется пользователем: когда варианты, предостав-
ляемые ему для оценки, становятся принципиально неразличимыми,
результат считается достигнутым. Таким образом, пользователь кон-
тролирует точность перевода.
Гибридная система объединяет работу различных электронных
агентов, независимо от алгоритмов их работы, что позволяет учиты-
вать все возможные результаты, и в итоге получать их наилучшую
возможную комбинацию. Вовлечение человека дает возможность оце-
нивать комбинации с той точки зрения, с которой их видит конечный
потребитель перевода, а использование метода генетического конси-
лиума в основе системы обеспечивает тот факт, что полученная ком-
бинация является наилучшей.