GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.16 (22)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Распознавание рукописного текста
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 23 сен 10 20:00
Соображения по поводу автоматизации действий и распознавания.

Любая автоматизированная последовательность мышечных сокращений (например роспись, письмо, ходьба, речь, игра на музыкальных инструментах, чистка картошки etc) выполняется без жёсткого управления сознания, но под постоянным контролем сознания - производится проверка (ожидание, предсказание), соответствует ли эта последовательность действий тому, как она должна ощущаться (выглядеть, звучать, осязаться etc).
Любую последовательность действий можно разбить на ряд более мелких и более элементарных мышечных действий. При выполнении этой цепочки каждое следующее элементарное действие наступает в определённый момент времени после предыдущего - они выстроены в некую связную "партитуру". С учётом того, что такие партитуры совершенно беспроблемно человеком масштабируются во времени (могут выполняться быстрее или медленнее) возникает следующая идея.
А что если автоматизация действий, связывание между собой элементарных составляющих, происходит не по какому-то предметно-условному, а по временнОму признаку. Т.е. условием запуска следующего кусочка действия есть время, прошедшее с момента окончания (или запуска, или какого-то другого момента) предыдущего действия. Таким образом, автоматизированное действие оказывается "слепым" к любым другим условиям.
Такой подход явно экономит используемую память и главное - универсализирует "язык" для выполнения разнообразных последовательностей действий!
Эта идея объясняет почему человек может:
- совершать совершенно естественно грубейшие ошибки "на автомате", которые не могли быть совершёнными если бы контроль осуществлялся не по времени, а по каким-то более предметным условиям (например, произносить слова не в контексте, использовать не тот ключ для замка, искать выключатель на привычном месте и т.д.);
- ловко масштабировать выполнение своих действий во времени и пространстве(!).
Косвенно эта идея подтверждается тем, что:
- физиология человеческого организма привязана к ярковыраженным ритмам;
- человек может совершать действия по временнОму признаку без часов (просыпаться в одно и то же время, вспомнить о важной встрече и т.п.);
- человек может планировать выполнение некоторого действия - оценивать сколько времени необходимо для выполнения некоторого действия.
Причём, что занимательно, восприятие и сравнение любых пространственных пропорций, судя по всему, тоже осуществляется по временнОй шкале! Например, чтобы при ходьбе оценить количество шагов от меня до бровки (чтобы понять, какой ногой я на неё стану) я (похоже!) расстояние воспринимаю как время, и делю его на время одного шага.

А теперь самое интересное. Поскольку координация мышечных действий, осуществляемая сознанием, всё-таки ориентируется на зрительные, аудиальные и другие инвариантные образы, имеет смысл предположить, что эти образы распознаются и сравниваются между собой тоже по некоторым временнЫм, а не пространственным признакам! Что пространство - это только некий инвариант времени и что время для психических процессов - первично!
Грубый пример навскидку. Отличить букву А от буквы М можно оценив, сколько времени понадобиться на написание этих букв. Отсюда, например, буква Ш скорее похожа на букву М, чем на букву А. Обращаю внимание на чисто временнОе слово "скорее", которое использовалось (и адекватно понималось!) в предыдущем предложении для характеристики меры сходства визуальных образов!
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Распознавание рукописного текста
Добавлено: 24 сен 10 14:02
Кто-то из наших великих медиков говорил, что синдром это - согласный бег симптомов
[Ответ][Цитата]
shuklin
Сообщений: 2053
На: Распознавание рукописного текста
Добавлено: 24 сен 10 14:36
Цитата:
Автор: Андрей

Соображения по поводу автоматизации действий и распознавания.

Любая автоматизированная последовательность мышечных сокращений (например роспись, письмо, ходьба, речь, игра на музыкальных инструментах, чистка картошки etc) выполняется без жёсткого управления сознания, но под постоянным контролем сознания - производится проверка (ожидание, предсказание), соответствует ли эта последовательность действий тому, как она должна ощущаться (выглядеть, звучать, осязаться etc).

можно сказать, что вообще любое сознательное действие, даже единичное "неавтоматизированное" мышечное сокращение выполняется точно также и представляет собой автоматизированное и выполняемое под контролем сознания. сознательность заключается в выборе автоматизма который следует выполнить + контур обратной связи.
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Распознавание рукописного текста
Добавлено: 24 сен 10 15:00
Ровно это использовал Шеля Губерман сначала в Параграфе, а потом в Ньютоне в Эппле. Правда, идею предложил его дипломник, впоследствии, не упоминавшийся
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 24 сен 10 17:23
Цитата:
Автор: shuklin
любое сознательное действие, даже единичное "неавтоматизированное" мышечное сокращение выполняется точно также и представляет собой автоматизированное и выполняемое под контролем сознания.
Тут не должно быть никакой многозначности. Сознательное действие выполняется неавтоматически в том смысле, что оно собирается всегда в новой ситуации, на которую нет готового автоматического ответа в деталях. Сознание прорабатывает детали, стараясь раз и навсегда автоматизировать жизнь туловища. Но это ему никогда не удаётся до конца, ибо ситуации в жизни не идут строго периодически, поэтому мышление вынуждено реагировать на внезапно возникающие ситуации.
То, что удаётся автоматизировать, уходит вглубь и становится базисом для следующих новых сознательных сборок. В этом "автоматизированном подспорье" мы обгоняем животных на порядки.

Цитата:
Автор: shuklin
сознательность заключается в выборе автоматизма который следует выполнить + контур обратной связи.
Если не уходить в метафизику, то сознание тоже автоматично. Но оно иначе автоматично.
1. Автоматизм сознания состоит в том, что оно автоматически соотносит "то что есть" с тем, "что должно быть" (с тем "как бывает обычно") и автоматически ставит в соответствие цепочку корректирующих действий именно сейчас, в данный момент времени.
2. При автоматизме же действия (которое используется сознанием) сознательной слежки за тем "как должно быть" не производится. В этом вся фишка идеи - автоматизм полностью "слеп" и единственным условием срабатывания его последовательных элементов является время, прошедшее с некоторого момента.
А эта мысль сразу даёт возможность иначе взглянуть на работу сознания, которое и собирало этот автоматизм - сознание следит за тем "как должно быть" по принципу "в какой момент времени должно быть"(!). Т.е. сознание работает над тем, чтобы дождаться нужного момента и связать между собой суб-лежащие автоматизмы в новый над-автоматизм по условию времени и только времени. Чтобы по условию времени они и срабатывали.

Простой пример. Допустим, нам надо набрать полстакана воды (это "как должно быть"). Мы берём пустой стакан, подносим его под струю воды и глазами следим за тем, чтобы уровень воды дошёл до нужного уровня - это сознательное действие, которое в качестве критерия того "как должно быть" имеет некое предметное условие (уровень воды). После нескольких повторов сознательного действия это действие автоматизируется и в следующий раз мы уже не будем сознательно следить за уровнем воды, мышление автоматически отщёлкает нужное время от момента подношения стакана под струю и убёрёт стакан из-под струи через некое запомненное эталонное время. Уровень воды (критерий качества) приравнивается времени. Отсюда суть памяти сводится к запоминанию паттерна временнЫх пропорций. Что какбэ намекает на:
- возможность интерпретации психического пространства как психического времени
- возможность интерпретации зрительных, аудиальных и всех других образов, как временнЫх, а не пространственных паттернов...
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 24 апр 11 13:23
Провёл простой эксперимент. На чёрный экран на несколько миллисекунд выводится большая белая буква (программа здесь, время экспозиции выводится в левом углу).
Даже несмотря на то, что изображение не скользит по сетчатке, а только возникает - на моём компьютере, в среднем, на 9 мс - буква всё-равно замечательно распознаётся.

И ещё скопирую сюда сообщение Egg'а, над которым следует тщательно помедитировать:

Цитата:
Prosolver:
Нарисованное или загруженное изображение подвергается рекурсивной процедуре разбиения на квадраты.

Egg:
вот это важно, здесь можно остановиться никого не убивая об стену...

Prosolver:
Для каждой пары квадратов моделируется связь.

Egg:
а вот здесь возникает хаос, ибо выбор пары - это важно,
если это делает случайно или по добрососедскому признаку - это тоже внесение искажений...
надо:
1) отказываться от пар связей и переходить к тройкам-четверках...-эн-еркам
2) и делать это на основании разбиения
3) и убирать имитационную динамику...
4) 1-3 делать правильно...
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Распознавание рукописного текста
Добавлено: 24 апр 11 16:28
Цитата:
Автор: Андрей
Даже несмотря на то, что изображение не скользит по сетчатке, а только возникает - на моём компьютере, в среднем, на 9 мс - буква всё-равно замечательно распознаётся.

Лень смотреть исходники (если они выложены вместе с прогой) - поэтому вопрос: каким способом реализована именно миллисекундность?
Винда квантует параллельные потоки через ~55 миллисекунд, т.е. порог в 9мс уже превышен намного, да и не является винда реалтаймовой осью. Поэтому если перерисовка изображения идёт через "оконное" сообщение - то, скорее всего, результат неправилен (сообщение проходит через системный поток, обрабатывающий системную очередь событий, и в нём перенаправляется в очередь событий окна проги) - перерисовку надо делать явным вызовом функции, быстро уходящей на уровень аппаратуры (что-нибудь типа SetDIBitsToDevice()).

Цитата:
Автор: Андрей
следует тщательно помедитировать
...
Нарисованное или загруженное изображение подвергается рекурсивной процедуре разбиения на квадраты.
Для каждой пары квадратов моделируется связь.
...
надо:
отказываться от пар связей и переходить к тройкам-четверках...-эн-еркам

Ну, получается похоже на алгоритм Виолы-Джонса. А также на частотный (фурье, вейвлеты) способ декомпозиции изображения плюс алгоритм распознавания в полученном спектральном пространстве.
Переход к тройкам-четверкам - см. Виолу-Джонса (хотя, там разбитый на несколько частей квадрат продолжал раскрашиваться двумя "цветами", т.е. связь моделируется между двумя сущностями, просто сущность может быть нелокальной).
В общем, я не понял - над чем тут медитировать? Над "Отче наш" компутерной графики и анализа-распознавания изображений?
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Распознавание рукописного текста
Добавлено: 24 апр 11 16:58
Секрет во времени релаксации нейронов сетчатки. Хоть 9мс, хоть 9нс, один хрен, изображение вмораживается в сетчатку настолько долго, что сознание его фиксирует.
[Ответ][Цитата]
Анатоль
Сообщений: 1964
На: Распознавание рукописного текста
Добавлено: 24 апр 11 20:53
На старом компутере с кинескопом изображения букв появляются нормально.
На старом ноутбуке появляются иногда части букв, иногда ничего.
На новом мощном ноутбуке вообще ничего не появляется.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 24 апр 11 21:59
Цитата:
Автор: Victor G. Tsaregorodtsev
каким способом реализована именно миллисекундность?
Фокус в том, что нет никакого фокуса Потому что время экспозиции я не задаю вообще. Всё зависит от быстродействия компутера и частоты обновления экрана, а время замеряется post factum:

queryperformancecounter(t1); //фиксируем момент начала экспозиции
bitblt(dc,0,0,b.Width,b.Height,b.Canvas.Handle,0,0,srccopy); //рисуем
PatBlt(dc,0,0,b.Width,b.Height,BLACKNESS); //и сразу же вытираем
queryperformancecounter(t2);//фиксируем момент конца экспозиции

Цитата:
Автор: Victor G. Tsaregorodtsev
похоже на алгоритм Виолы-Джонса
над чем тут медитировать?
Виолу-Джонса я сам лично не программировал, но если верить описанию, то они жульничают:
1) заведомо выбирая самые удачные примитивы Хаара для распознавания того, что им нужно (лиц);
2) тренируя каскадированный классификатор на... уже отклассифицированных вручную (вглазную) изображениях. Велика заслуга! Человеку при обучении никто не подсказывает "вот это лицо", а "вот это не лицо"...

С точки зрения практического результата, конечно, алгоритм Виолы-Джонса наверняка один из лучших. Только в погоне за сиюминутным результатом нельзя забывать о философской чистоте методологии.

В отличие от шаромыжников я предлагаю медитировать над тем, как выудить достаточные признаки для классификации всего, в человеческой манере, непосредственно из динамики яркости точек (вообще, любых рецепторов), без всяких априорных эталонов.

И с этой точки зрения слова Egg'а можно понимать в смысле, близком к тому, что я ищу. А именно: для человека как исполнительного устройства важно выделять вокруг себя иерархии подчинения. Отношения между частями всего воспринимаемого должны быть подчинены какой-то идее, а не просто соотношению квадратиков в эталонном примитиве.
Я думаю, что эту идею можно выразить через иерархическую структуру предприятия: вот сверху директор, у него 5 замов, у каждого зама по 3 управления, в каждом - по два отдела и ещё одна столовая, бухгалтерия и завхоз. Взяв две любые точки на изображении мы должны их разместить на подобной иерархии - каждая точка подчиняется какой-то другой.

Цитата:
Автор: dr2chek
изображение вмораживается в сетчатку настолько долго, что сознание его фиксирует
Именно это я и проверил.

Цитата:
Автор: Анатоль
На старом ноутбуке появляются иногда части букв, иногда ничего
Частота кадров оказывается в противофазе с миганием картинки. Выход - искусственно вставить задержку sleep(x), что, впрочем, несколько ухудшит всю затею. Ведь смысл был в том, чтобы показать, что глаз воспринимает очень короткие экспозиции и для распознавания не обязательно скольжение по сетчатке, достаточно просто "появления" картинки. Поэтому, если есть возможность, лучше увеличить частоту видеоадаптера.
Либо, взирая на то, что ноутбук мощный, может всё-таки есть предел времени экспозиции для глаза?
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Распознавание рукописного текста
Добавлено: 25 апр 11 9:35
Кстати, если уж занимаетесь этими исследованиями, то не забудьте про саккады, во время которых человек слепнет.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 25 апр 11 13:14
Цитата:
Автор: dr2chek
не забудьте про саккады, во время которых человек слепнет
Вы, батенька, слышали звон, да не знали откудова он... Не вносите смуту.
Человек, при отсутствии саккад, "слепнет" по отношению к статическим предметам, т.е. к таким предметам, изображение которых непрерывно проецируется на сетчатку. Но в случае, с прерывистым миганием, никакой статики нет - появление картинки из темноты можно засчитать за честную саккаду.

По мотивам соседнего топика нашёл http://www.machinelearning.ru/wiki/index.php?title=Моделирование_мышления_(школа_Бонгарда) -> статью М.Н.Вайнцвайга с интересными мыслями, зацитирую:

"Стало понятно, что метод проб и ошибок при обучении распознаванию не панацея, поскольку универсальное обучение всегда требует полного показа множества примеров, а потому реально неосуществимо и неинтересно. В своей книге Мика [Бонгард М.М.] потом писал: "Мы видим, что система способная обучаться на разумном числе примеров, обязательно должна обладать достаточно высокой начальной организацией. Эта организация не может быть достигнута в ходе предварительного обучения. Она должна быть привнесена извне конструктором системы."

"...алгоритмы обучения должны быть строго согласованы со способом описания объектов мира и опираться на некоторые априорные знания об устройстве мира, что основная трудность решения задач распознавания лежит не в невозможности реализовать очень большой перебор решающих правил и их проверку на материале обучения, а в выборе того естественного языка, в терминах понятий которого должны описываться объекты."

"...стало окончательно ясно, что невозможно построить хорошую систему распознавания без использования развитого рекурсивного обучения, которое должно включать в себя не только процесс последовательного решения задач, но и процесс их постановки, обусловленный какими-то метацелями."

"...исследование механизма распознавания - задача не многим более простая, чем исследование механизма мышления и организации поведения."
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Распознавание рукописного текста
Добавлено: 25 апр 11 16:39
Цитата:
Автор: Андрей
они жульничают:
1) заведомо выбирая самые удачные примитивы Хаара для распознавания того, что им нужно (лиц);

А зачем пользоваться неинформативными признаками? Да и при тренировке классификатора избыточный набор неинформативных признаков (вкупе с набором информативных) может давать недоопреленную задачу (тут можно будет воспользоваться регуляризацией решения - но регуляризация ведь занулит коэффициенты при неинформативных признаках, т.е. отсев неинформативности всё равно произойдет).

Цитата:
Автор: Андрей
я предлагаю медитировать над тем, как выудить достаточные признаки для классификации всего

Unreal. No free lunch theorem пока еще не опровергнута.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Распознавание рукописного текста
Добавлено: 25 апр 11 17:02
Цитата:
Автор: Андрей

Вы, батенька, слышали звон, да не знали откудова он...


Вот уж воистину говорят: "не в коня корм". Вы даже не поняли, что я вам написал. Разжевывать вам не буду, не хотите - не надо, ваше дело.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 25 апр 11 17:14
Цитата:
Автор: Victor G. Tsaregorodtsev
А зачем пользоваться неинформативными признаками?
Правильно, незачем. Только вот беда, как только Виолу-Джонса мы заставим распознавать не лица, а кашель бомжа в шуме осенней листвы, им придётся ручками выискивать новый набор удачных признаков. И я более чем уверен, они их успешно найдут! Доказав тем самым ещё раз - что ни они, ни кто-либо другой, ни на шаг не приблизились к тому алгоритму, который работает в их собственной голове. И который можно переложить в машину, отправив Виолу-Джонса на заслуженную пенсию.

Признак должен быть информативен настолько, чтобы классифицировать любые объекты без всякой предварительной сортировки ("оно - не оно") и в итоге получать картину-дерево мира, подобную человеческой. При этом, конечно, не верно думать, что человеческая классификация универсальна в самом универсальном смысле. Но если ИИ будет видеть человека как кисель, это будет тоже не совсем интересно.

Цитата:
Автор: Victor G. Tsaregorodtsev
Unreal. No free lunch theorem пока еще не опровергнута.
Под "всем" я понимал всё то, что (и как) классифицирует человек. А это, по-моему, не так уж и много. Типичный словарь содержит, примерно, миллион слов. Это значит, что человек (максимальный гений!) всё потенциальное многообразие мира сводит всего к миллиону сущностей.
[Ответ][Цитата]
 Стр.16 (22)1  ...  12  13  14  15  [16]  17  18  19  20  ...  22<< < Пред. | След. > >>