GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.1 (7)

След. > >>

Поиск:

Автор

Тема: распознавание кптчи Яндекса

гость
94.25.183.*

распознавание кптчи Яндекса

Добавлено: 12 май 09 12:33

Итак, есть реальная коммерческая задача: распознать каптчу Яндекса с вероятностью 98%

Поскольку я не программист и не имею возможности детализировать ТЗ до степени его понимания кодером, а лишь могу построить методику решения данной задачи, то прошу не требовать от меня выполнения НЕ моей работы.

Методика в общем виде такова:

1) скан попиксельно области распознавания
2) выделение гипотетических объектов
3) сравнение объектов с шаблонами.

с первым этапом все ясно, я надеюсь.

2.1

Окончательное выделение объекта по времени совпадает с его полным распознаванием.
Прошу воспринимать сие утверждение как часть методики, определяющую вектор общего алгоритма и ограничивающую ветви решения.
По мере выполнения алгоритма распознавания, вероятность правильного определения границ объектОВ увеличивается. Эта вероятность используется в качестве аргумента функции подбора шаблонов для распознавания каждого из объектОВ, а результат сравнения шаблонов с этими объектами (вероятность правильно распознанного каждого объектА), является аргументом функции для выборки шаблонов для определения границ объектОВ.

2.2
Максимальное количество объектов, могущих находиться в матрице, задается изначально условием задачи по распознаванию, вместе с классом точности распознавания.
В случае с каптчей Яндекса, задача упрощается, поскольку число объектов известно.

В общем случае задачи распознавания образов, когда количество объектов в матрице не известно (но ограничено условиями задачи, вместе с предельными размерами объектов), количество потенциальных объектов в начале выполнения алгоритма=мах.
Прошу воспринимать сие утверждение как часть методики, определяющую вектор общего алгоритма и ограничивающую ветви решения.

По мере распознавания, число потенциальных объектов корректируется исходя из сходимости 2-х вероятностей:
вероятность правильного определения границ объектОВ
вероятность правильного определения самих объектов.

Прошу воспринимать сие утверждение как часть методики, определяющую вектор общего алгоритма и ограничивающую ветви решения.

Функция распознавания конкретного объекта-это функция выборки наиболее подходящего шаблона, и по мере увеличения вероятности определения правильной границы объекта, настраивается фильтр выборки шаблонов, увеличивая тем самым скорость обработки.

Функция разделения границ объекта-это функция сужения областей вероятного перекрытия объектов, после каждой итерации сравнения с шаблонами.
Функция определения границ объекта-это функция удаления из объекта пикселов, с минимальным количеством совпадений, обнаруженных в сравнении с шаблонами после каждой итерации.

После каждой итерации, количество задействованных шаблонов для обработки снижается.

3.1

Шаблоны для попиксельного сравнения делятся на статические и динамические.
Статические-это те, которые хранятся в БД (в данном случае шрифты).
Динамические шаблоны, это масштабируемые и измененные по наклону до 45 град в обе стороны. Эти шаблоны, с требуемыми характеристиками, формируются по запросу алгоритма подстановки шаблонов.
Статические шаблоны (для каптчи) структурированы в БД по признакам:
шрифт, жирность, наклон, Буквы, цифры.

3.2

Алгоритм формирования динамических шаблонов основан на результатах границ объектов и их количестве, полученных после использования статических шаблонов.

По мере выделения параметров границ объектов, объекты разбиваются на мах кол-во кластеров (мах задается условием качества распознавания) и к этим кластерам применяются соответствующие кластеры шаблонов (либо статические, либо динамические).

Подобно алгоритму определения кол-ва объектов, по сходимости (для каждого объекта в отдельности) определяется уровень кластеризации, тем самым, отсекается значительная часть шаблонов, годных к применению. Т.е. устанавливаются фильтры для генерации динамических шаблонов по заданным параметрам.

зы.

Распознавание каптчи Яндекса с точ6ностью 98% может требовать обработки до миллиона сгенерированных шаблонов.

Форум: Проблемы искусственного интеллекта