GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.17 (22)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Распознавание рукописного текста
vchc
Сообщений: 194
На: Распознавание рукописного текста
Добавлено: 25 апр 11 22:31
Цитата:
Автор: Андрей

Правильно, незачем. Только вот беда, как только Виолу-Джонса мы заставим распознавать не лица, а кашель бомжа в шуме осенней листвы, им придётся ручками выискивать новый набор удачных признаков. И я более чем уверен, они их успешно найдут! Доказав тем самым ещё раз - что ни они, ни кто-либо другой, ни на шаг не приблизились к тому алгоритму, который работает в их собственной голове. И который можно переложить в машину, отправив Виолу-Джонса на заслуженную пенсию.

Признак должен быть информативен настолько, чтобы классифицировать любые объекты без всякой предварительной сортировки ("оно - не оно") и в итоге получать картину-дерево мира, подобную человеческой. При этом, конечно, не верно думать, что человеческая классификация универсальна в самом универсальном смысле. Но если ИИ будет видеть человека как кисель, это будет тоже не совсем интересно.


Если уж говорить про признаки правду, то надо отметить что и у человека есть генетически заданный набор признаков. Обычно это несколько уровней первичных признаков в анализаторах. Благодаря им все люди имеют некий базис, который позволяет дальше строить дерево понятий и синхронизировать эти понятия с другими людьми. Вопрос о том, где кончаются генетически обусловленные признаки и начинаются признаки, сформированные в процессе онтогенеза остаётся довольно тёмным. Хотя тут надо просматривать последние исследования.
[Ответ][Цитата]
гость
188.123.241.*
На: Распознавание рукописного текста
Добавлено: 25 апр 11 23:20
вообще-то, еще и живут люди в более-менее однородном мире, где действуют более-менее одни и те же законы. Все взаимосвязано, но это, наверно, все же первично
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 26 апр 11 20:19
Цитата:
Автор: vchc
у человека есть генетически заданный набор признаков
Слишком категоричное заявление, требующее доказательства.
Пока точнее будет сказать, что у человека есть генетически заданный набор модальностей для признаков. Модальность - это то, чем отличается красный цвет от ноты "ля", что задаёт субъективное ощущение квалиа.
Но если копнуть нейрофизиологию то окажется, что чувствительные нейроны разных рецепторов устроены принципиально одинаково и внешние сигналы кодируют одинаково - чем интенсивнее возбудитель, тем больше частота спайков, при одинаковой их амплитуде. Т.е. первичный признак (в очень грубом приближении) всего 1 для всех рецепторов - частота (интенсивность) спайков. А дальше уже можно воротить что угодно - выискивать закономерности во взаимной динамике этих признаков.
Мозг, судя по всему, отличает звуки от картинок только по тому, в какой именно участок коры ведут свои аксоны нейроны рецепторов. Грубо говоря, если перекоммутировать сигналы от глаз и ушей, то человек будет слышать картинки и видеть звуки.

"Всё познаётся в сравнении" лучше перефразировать: "всё познаётся через изменение".

Цитата:
Автор: гость 188.123.241.*
Все взаимосвязано, но это, наверно, все же первично
Взаимозависимо, взаимоуправляемо, взаимоподчинено - вот где-то здесь бум искать ответ.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 09 май 11 16:03
Предлагаю поразмыслить над самыми сложными вещами - элементарными.
Как написать программу, отличающую сплошной белый фон от сплошного чёрного фона? Но отличающую методологически корректно, в стиле человека. Чтобы определить "стиль человека" предлагаю руководствоваться, в основном, собственной рефлексией и размышлениями.

Примем, что белый и чёрный являются врождёнными неизменяемыми классами ощущений, квалиа.

Оптический анализатор человека состоит из отдельных дискретных элементов. Таким образом, собственно задача анализа перед "анализатором" не стоит - картинка дробится (дискретизируется) естественным образом.

Каждый рецептор может быть возбуждён отдельно от других. Поэтому даже единичная точка является полноценным объектом, наравне с целыми пейзажами.


Кроме того, каждый рецептор занимает своё, чётко определённое место на анализаторе, что позволяет абсолютно позиционировать каждую точку. Всё это значит, что если человек видит сплошной белый фон - то каждый рецептор в отдельности "видит" белый цвет. Каждый рецептор должен обладать потенциальной возможностью соотнестись с каким-то классом цветности. И если на каждый рецептор попадёт свой цвет - каждый должен соотнестись с уникальным классом:


Нейрофизиологи говорят, что на самом деле, глаз упрощает картинку путём незначительных искажений, и сигнал рецептора усиливается рядом стоящими рецепторами, если те получают одинаковый с первым раздражитель и наоборот - рецепторы подавляют соседей, сигналы которых отличаются от "толпы" (на этой хитрости устроено jpeg сжатие). Эта иллюзия, судя по всему, только улучшает контрастность изображения но главного не меняет - каждый рецептор потенциально может быть соотнесён с индивидуальным классом цветности. И если на каждый рецептор попадает свет одного и того же цвета и интенсивности, следует ожидать, что соответствующий "экземпляр класса" цветности будет продублирован для каждого рецептора.

Далее. Рецептор всегда соотносится с каким-то, как минимум одним, классом. В его состояниях не бывает "мёртвых зон". Либо чёрное, либо белое. Либо что-то ещё.

Несмотря на то, что люди распознают перекрывающиеся предметы, непосредственно закрытая часть предметов не видна. Т.е. в поле зрения нет разрывов и наложений, каждый рецептор обязательно соотносится с каким-то классом. Например, выделенная точка:

относится одновременно и к классу "чёрный цвет" и к классу "полоска" и "рукав", "рубашка", "одежда", "объект" и т.п.

Отсюда следует важный вывод - сцена распознана тогда, когда каждый рецептор соотнесен с максимально возможным количеством классов. Практика показывает что распознавание происходит очень быстро и имеет предел по глубине. Т.е. один рецептор не может относится сразу к 100 классам. Максимальное количество следует ещё уточнить. Но есть основания полагать, что их не более 6-7.

Возвращаясь к исходной задаче. При предъявлении белого квадрата программа должна соотнести с каждой точкой класс цветности. Тут технических сложностей нет, но мы получаем избыточный результат - количество экземпляров классов равно количеству рецепторов и каждый класс позиционирован абсолютно. Для редукции этих классов человеческое восприятие использет всяческие уловки:
1. стремится объединять одновременно тождественное в множество, например:
песок


толпа народу


лист в клеточку


белый квадрат


Хоть для каждого рецептора и оказывается совершенно точное соотнесение с классом (песчинка, голова в толпе, линия, белая точка) в сознание попадает только укрупнённый множественный образ: песчинки, толпа, клеточки, белизна. Получается, что наряду с "вертикальным" процессом соотнесения каждой точки с каким-то классом, параллельно идёт "горизонтальный" процесс объединения одинаковостей, объединения повторов на разных уровнях абстракции.

2. Стереоскопическое видение позволяет объединять две картинки от разных глаз в один класс, соответствующий глубине - 3-й координате позиционирования.

3. Движение - этот класс позволяет избежать постоянной реклассификации и репозиционирования движущегося объекта.

Можно сделать вывод, что при восприятии происходят два взаимоисключающих процесса:
1. Горизонтальный - присвоение каждой точке принадлежности к максимальному количеству классов.
2. Вертикальный - объединение тождественных экземпляров класса в один.
В содействии этих процессов, видимо, и возникает оптимальное количество классов.

Усложним задачу:


Из приведённых выше соображений данная картинка должна быть отклассифицирована как два класса "чёрный" и "белый". Но совершенно очевидно, что этого недостаточно. Такими же классами будет интерпретирована любая чёрно-белая картинка. Здесь вступает в силу фактор позиционирования - самое интересное.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 25 июл 11 12:10
Окончательным смыслом распознавания является позиционирование. Распознать что-то, значит опредЕлить месторасположение. Объекты (их признаки) только для того выделяются и различаются, чтобы занимать своё место.
В синтетических математических теориях месторасположение чего-либо часто определяется какой-то одной условной точкой (например, "верхний левый угол" или "центр масс") в некоторой абсолютной системе координат. Но в "бытовом" каждодневном опыте интеллектуального позиционирования всего, имеют значение все точки каждого предмета. Интеллект не выделяет условные точки объекта, он позиционирует весь объект, во всём множестве своих признаков (каждый из которых, тоже конечно позиционируется и является классом-объектом), вплоть до отдельных точек.

Окончательным смыслом этого позиционирования является координация тела, поэтому позиционирование должно производиться относительно своего тела. Изменения системы координат вызванные саккадами глаз, поворотами головы, поворотами туловища, перемещением туловища - будучи заведомо известны, судя по всему, добавляются к абсолютным координатам распознанных объектов.

Немного полезной информации.
Сетчатка человека содержит около 100 млн отдельных фоторецепторов, при этом зрительный нерв содержит около 1 млн аксонов. Отсюда может сложится ложное предположение о том, что в сетчатке происходит ужатие информации в 100 раз. Более детальное изучение этого вопроса прояснило, что примерно 50% аксонов зрительного нерва состоят из аксонов ганглиозных клеток, выходящих из зоны фовеа.

Зона фовеа имеет диаметр около 1 мм, что составляет примерно 1% площади всей сетчатки, при этом сигналы от зоны фовеа обрабатываются 50% зрительной коры. Зона фовеа состоит исключительно из колбочек (рецепторов яркого цветного света), плотно упакованных. Каждая колбочка в зоне фовеа соединена с единичной биполярной клеткой, которая в свою очередь, соединена с единственной ганглиозной клеткой, а каждая ганглиозная клетка имеет один аксон, который уходит напрямую в латеральное коленчатое тело через зрительный нерв. Из этого я делаю вывод, что никакого существенного преобразования информации в сАмом информативном участке сетчатки не происходит в принципе.

Зона фовеа расположена в непосредственной близости от зрительного нерва (слепого пятна), что позволяет ей с максимальной скоростью и разрешением выдавать оптическую информацию на латеральное коленчатое тело. Амакриновые и горизонтальные клетки (отсутствующие в зоне фовеа), судя по всему, никакой особо важной задачи в сетчатке не выполняют, помимо того, что усредняют (размывают, упрощают) изображение в периферической зоне сетчатки и делают картинку периферии более контрастной. Т.е. их функция, как я понял, состоит не в том, чтобы делать какую-то обработку, а в том, чтобы тупо ухудшать, размывать (blur) картинку, с целью не перегружать мозг периферической информацией.

Отсюда следует, что когда мы говорим о сетчатке, имеет смысл говорить только о зоне фовеа. Самое важное в сетчатке оказалось самым неинтересным - зона фовеа, если я правильно всё понял, транслирует (ухудшенную на периферии) картинку в ЛКТ без каких-либо принципиальных преобразований, с максимальной разрешающей способностью для максимально точного позиционирования и координации.
[Ответ][Цитата]
Павел Фоменко
Сообщений: 1081
На: Распознавание рукописного текста
Добавлено: 25 июл 11 22:53
Где-то ты Андрей потерял важную вещь о разнице, градиенте.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 25 июл 11 23:39
Я его не потерял, а не нашёл
Мы тут пытаемся рассуждать с чистого листа, максимально непредвзято, в детальках. И пока что никакого градиента, как ты видишь, нет. Может он и появится дальше, но даже предпосылок для этого не видно.
Пока просматриваются равенство и одновременность, как те факторы, которые объединяют.
[Ответ][Цитата]
Павел Фоменко
Сообщений: 1081
На: Распознавание рукописного текста
Добавлено: 26 июл 11 1:04
Цитата:
Автор: Андрей
Я его не потерял, а не нашёл


Как же не нашел? Уже в первых строчках:
Цитата:
Автор: Андрей
Каждый рецептор может быть возбуждён отдельно от других.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Распознавание рукописного текста
Добавлено: 26 июл 11 4:42
Цитата:
Автор: Андрей


так выглядит хорошо пожатый архив
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 26 июл 11 10:42
2 Павел Фоменко

Цитата:
Автор: Андрей
Каждый рецептор может быть возбуждён отдельно от других.
Это означает, что квалиа (врождённый класс ощущений) может быть продублирован для каждого рецептора. Если мы видим сплошной зелёный фон, то каждый рецептор "видит" зелёное квалиа. И где здесь градиент?
Чем дальше в лес, тем меньше я нахожу отличий между квалиа и тем, что мы называем "образ". Например, белый шарик от пинг-понга. Если белый - это квалиа, то почему "шарик" и "от пинг-понга" нельзя мыслить как квалиа. Только не врождённое, а приобретённое. А дальше расширяем это понимание на пространство. Каждая различаемая точка пространства - это тоже квалиа. Таким образом, каждый предмет оказывается просто вектором квалиа для каждого рецептора.
[Ответ][Цитата]
Павел Фоменко
Сообщений: 1081
На: Распознавание рукописного текста
Добавлено: 26 июл 11 13:00
Цитата:
Автор: Андрей
Это означает, что квалиа (врождённый класс ощущений)...

Ты так весело оперируешь этим термином. А я считаю что он совершенно бесполезен и ничего не объясняет. Только лишь называет какое-то состояние чувственного восприятия.
И если, кроме всего, введением термина "квалиа" ты хочешь выделить чувства во что-то отделенное от человека, то это уже вообще глупость - попытка "объектизировать" субъективные ощущения.
Я так понимаю, что "квалиа" как раз и ввели для возможности объяснения как же люди "одинаково" понимают вещи субъективно по разному их чувствуя и определяя.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 26 июл 11 13:35
А как можно объяснить квалиа? Через что его объяснять? Его, имхо, можно только назвать.
Не с целью объективизировать его, а с целью оперировать этим элементарным базовым понятием вербально. Что, конечно, не означает, что квалиа у людей тождественны. Может то, что Вы видите как "зелёное", я вижу как "глубокое".
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 31 июл 11 19:21
Нашёл простую но эффектную иллюзию. Нужно смотреть на точку в центре изображения.
После появления картинки кажется, что она цветная.

[Ответ][Цитата]
Роджер Веселый
Сообщений: 225
На: Распознавание рукописного текста
Добавлено: 01 авг 11 2:47
Цитата:
Автор: Андрей

Предлагаю поразмыслить над самыми сложными вещами - элементарными.
Как написать программу, отличающую сплошной белый фон от сплошного чёрного фона? Но отличающую методологически корректно, в стиле человека. Чтобы определить "стиль человека" предлагаю руководствоваться, в основном, собственной рефлексией и размышлениями.


Предполагаю, что для построения механической системы способной "видеть" "не хуже", чем человек, достаточно 4-х ступенчатой структуры алгоритмического управления.
Но это настолько не хилая задачка, что бы ее серьезно рассматривать нужно на десяток лет в нее погрузиться.

Цитата:

Каждый рецептор может быть возбуждён отдельно от других. Поэтому даже единичная точка является полноценным объектом, наравне с целыми пейзажами.



Данную, точку (белую на черном), мы видим под действием возбуждения двух рецепторов. В черно-белых изображениях мы воспринимаем границы(резкие градиенты), когда на двух соседних палочках проявляется различная за пороговая интенсивность света.
Одним рецептором мы ничего не увидим.
Говоря "о пейзаже", то тут уже множество вариантов зафиксировать взгляд.

Цитата:

Кроме того, каждый рецептор занимает своё, чётко определённое место на анализаторе.


Неверно.
Например, возьмите газету, даже с мелким шрифтом. И почитайте ее, перевернутой на 180град. - вы будете легко читать текст. Единственный дискомфорт вы получите, потому что вы привыкли читать слева-направо.
Другое дело, читать зеркально-отраженный (лево-право) текст, это для не привыкшего человека, сложная задача.

В принципе, в очень слабой модели "анализатор" есть некий круглый ротор, который вращается вокруг своей оси во время микросекундной саккады глазного яблока.

И вообще что вы имели ввиду под понятием "анализатор"?

Цитата:




Здесь, картинка слишком зашумлена для палочек, возбуждаются все палочки, следствием неспособны выработать информационную картину контуров, и не подают на сознание никакую информацию, что и вызывает чувство "легкого раздражения".
Колбочки в отличие от палочек - одиножки, распознают в независимости от соседей, но так как их скопления в центре глазного яблока (слишком острый оптический угол), видят только цветовые ощущения (естественным образом разлагают на спектр световую волну).
Потому и мы отчетливо распознаем цвета многих точек, но никак из этих точек не можем собрать какой-нить контур: типа, поискать синие линии.

Не будет ошибкой сказать, что у нас два зрения.

Цитата:

Нейрофизиологи говорят, что на самом деле, глаз упрощает картинку путём незначительных искажений, и сигнал рецептора усиливается рядом стоящими рецепторами, если те получают одинаковый с первым раздражитель и наоборот - рецепторы подавляют соседей, сигналы которых отличаются от "толпы" (на этой хитрости устроено jpeg сжатие).


Здесь фразы "упращает картинку", "усиливается рядом стоящими рецепторами" - несколько не точнехонько звучат.
Образ то глаз принимает любой на какой дадут посмотреть конечно:-)
Перерабатывает предварительно. Но уже дальнейшая обработка: расфасовка фигурок (зрительных образов) по формочкам (запомненные зрительные образы), пытаясь найти наиболее подходящий, далее БД сдецл переписать, и инфу пустить по конвейеру дальше в сознание.
И так же следует, упомянуть такую вещь как обратная связь: когда мы что-то мельком увидели, возникает желание пересмотреть объект, или "присмотреться". Ладно если сознательная обратная связь, но и бессознательных куча...
По какому принципу идет поиск более приемлемого образа на реакцию "увиденного" - есть самая сложная проблемма текущей темы.
Тут разве, что начать с вопроса: "Как инфу на этот "анализатор" подавать?"

Только без всяких там джпегов. Сжать картинку, и спроектировать модельку хорошо отображающую человеческое зрение, это тож самое как изучать поведение слона, по деревянным кубикам с нарисованными слониками.
Ведь цель темы - дать хорошую модель, а не подогнать кривую узкую модель распознавания, под наилегчайший способ эту ботву запрогать. Но как говорил выше, это титанический труд аналитика, очень уж сложный объект "человеческое зрение" с точки зрения детально-алгоритмического осознания.
А альтернативных моделей море...

------

Далее по тексту, Андрей, вы много "фигни" говорите...
Ознакомитесь:
- с оптикой: физика и физиология глаза - это не разгадывание пикселей на экране.
- и анатомией глазного яблока.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Распознавание рукописного текста
Добавлено: 01 авг 11 11:32
Цитата:
Автор: Роджер Веселый
достаточно 4-х ступенчатой структуры алгоритмического управления
Нельзя ли поподробнее?

Цитата:
Автор: Роджер Веселый
Одним рецептором мы ничего не увидим.
А из анатомии и субъективных ощущений следует, что увидим. И я что-то не понял, как можно "увидеть" чёрный цвет?
Разговоры о градиентах - это дань традиции. Что действительно имеет значение, так это изменение во времени, вышеприведённая иллюзия как раз это демонстрирует. Если сигнал на рецепторе с течением времени меняется - мы его почувствуем. Если сигнал не меняется - не почувствуем, точнее перестанем чувствовать, он исчезнет, как слепое пятно. Тот факт что рецепторы организованы в массив, позволяет мозгу проводить временнЫе сравнения более чем для одного рецептора. Но наличие массива не является необходимым условием для функционирования отдельного рецептора.

Цитата:
Автор: Роджер Веселый
В принципе, в очень слабой модели "анализатор" есть некий круглый ротор, который вращается вокруг своей оси во время микросекундной саккады глазного яблока.
Ничего не понял. Нельзя ли поподробнее?

Цитата:
Автор: Роджер Веселый
И вообще что вы имели ввиду под понятием "анализатор"?
Типичный рецептор. На входе - градиент интенсивности раздражителя, на выходе - единообразный код этой интенсивности.

Цитата:
Автор: Роджер Веселый
следствием неспособны выработать информационную картину контуров
Вот беда, контуров нет, а картинку я, тем не менее, вижу... Значит контура - это один из классов следующего слоя. На первом слое - просто точки.

Цитата:
Автор: Роджер Веселый
цель темы - дать хорошую модель
Цель данной темы - разобраться на более-менее простом и не затасканном примере, как работает человеческий интеллект. Техническое задание - здесь. Важно не поизгалятся в том, кто лучше программирует или кто хитроумнее придумает алгоритм. Важно отобразить в программе методологию работы человеческого интеллекта, смоделировать манеру человеческого интеллекта. Вот в чём задача. Начать можно с ещё более простого задания, например, отличение вертикальных палочек от горизонтальных.

Цитата:
Автор: Роджер Веселый
Далее по тексту, Андрей, вы много "фигни" говорите
Обвинять в "фигне" - дело не хитрое. Моя фигня основана на ссылках. Давайте свои ссылки и соображения по поводу "не фигни" - а там видно будет.
[Ответ][Цитата]
 Стр.17 (22)1  ...  13  14  15  16  [17]  18  19  20  21  22<< < Пред. | След. > >>