GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.12 (78)

<< < Пред. | След. > >>

Поиск:

Автор

Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.

covax
Сообщений: 1609

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 20 май 13 11:18

Цитата:

Автор: Kek
А вы уверены, что это один и тот же человек?

Думаю, что это один и тот же человек, т.к все его выпады беспочвенны. Другой бы постарался объяснить свою позицию

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 4:51

Цитата:

Я открою вам страшную тайну: ничего толкового на спектре вы не увидите, увы. Глаз здесь слишком грубый инструмент - он не чувствует нюансов спектра.

Откуда такие сведения. Я не смог найти на просторах интернета ни одной программы (даже скриншота), которая показывает голос так как мне хочется. Наоборот насколько я помню, ухо человека устроено так, что оно разлагает звук на частоты физически перед тем как передать результат в нейронную сеть. Т.е. мозг получает непрерывную "ленту" частотной матрицы, которую как-то преобразует, обрабатывает и ищет на ней "сходство" с ранее услышаным. А про "точность" глаза - у меня глаза это САМЫЙ точный инструмент. Как (помню из физиологии) и у большинства людей. Может не хватить скорости (24 кадра), может не хватить инструментария (биения глазами не увидишь без фильтров), но лучше пока природа не придумала.

Цитата:

Мои скромные изыскания говорят за то, что кадр в 40 мс - слишком малая порция.

Не зацикливайтесь на кадрах. Кадры работают только в связке. К тому-же когда-то изучая теории фурье, понял что для точности разных частот нужно брать "кадры" разной длины. Правда не понял как это положить на алгоритмы. Еще учтите что фонемы могут накладываться "АОна_сделала_ошибку". А плавно переходит в О и получаем салат с характеристиками обеих фонем.

Не находил(не копал еще) А сколько частот выделяет/различает в среднем человек? Может и матрицу частот надо делать равносильную?

А вообще кто знает, по какому базовому механизму рабоет распознавалка у Гугла и Эпл? Разложение частот или "танцы с бубном" вокруг колебаний? А почему сорвалось распознавание у Майкрософта - лет 5 обещали сделать в "следующей версии Windows"?

Слежу за разработками в этой области (распознание голоса) уже лет 15. Мечтал набирать свои рефераты/курсовые. Успехи пока лучшие лишь у гугл и эпл. Английскую речь програмно успешно распознали лет 10 назад и на 5 лет опередили рускую (что не удивительно, учитывая кол-во разработчиков). Часто в кино показывают медицинские учреждения где (нейро)хирург голосом поворачивает 3Д схему мозга. Вроде встроено в вертолет Апачи. Но часто слышу юмор вокруг не удачного распознания при наборе смс. Особенно при наличии акцента. Перепробовал десятки платных, беслатных и демо программ - фигня. Часто слышу что руская речь успешно понимается программами в частных проектах (реклама Сколково), даже есть видео-ролики, но лично не стыкался. Мечтаю с детства чтобы мой комп успешно распознавал хотя-бы 5-10 МОИХ слов/команд. Раньше все валили на слабые машины и плохие микрофоны. Но ведь пора бы уже...

[Ответ][Цитата]

Vpolevoj
Сообщений: 1408

Совместить с генетическими алгоритмами

Добавлено: 21 май 13 5:53

А что если процессы распознавания совместить с генетическими алгоритмами?

Вот пример "Слепой часовщик".

Если правильно задана целевая функция (в данном случае нас интересует правильность распознавания речи), то генетические алгоритмы рано или поздно выходят на решение поставленной задачи. И если с помощью генетических алгоритмов решение будет найдено, то нам потом можно будет подсмотреть и за процессом решения, и даже стащить у них это готовое решение, если сами его к тому времени не придумаем.

Кроме того, генетические алгоритмы в итоге получают все время разные (чем-то, но отличающиеся друг от друга) решения, анализируя которые мы можем и сами многое понять в процессах распознавания.

А то, я так чувствую, все наши изыскания на этом поприще начинают очень сильно напоминать "блуждание в трех соснах", когда новых идей больше нет, а все идеи предложенные ранее уже давно себя исчерпали, но за неимением новых, вновь и вновь по кругу прогоняют старые.

[Ответ][Цитата]

Андрей
Сообщений: 3944

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 6:14

Цитата:

Автор: Vpolevoj
новых идей больше нет

По Вашему сообщению, Валера, это становится, к сожалению, особенно заметно...

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Совместить с генетическими алгоритмами

Добавлено: 21 май 13 6:28

Цитата:

Автор: Vpolevoj
А что если процессы распознавания совместить с генетическими алгоритмами?

Интересно, что Вы понимаете под генетическими алгоритмами?
Ведь в вашем примере сеть не только наследование.

[Ответ][Цитата]

Vpolevoj
Сообщений: 1408

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 6:45

Цитата:

Автор: VPolevoj
новых идей больше нет

Цитата:

Автор: Андрей
По Вашему сообщению, Валера, это становится, к сожалению, особенно заметно...

Пусть так. Я не в обиде.

Следует ли в таком случае понимать ваше, Андрей, сообщение, как согласие?
Что новых идей действительно нет?
А я всего лишь еще раз подтвердил для вас этот очевидный факт...

Если дело заключается в недостатке идей, то их есть у меня - могу подбросить.

Моё предложение использовать генетические алгоритмы, касается конкретной проблемы - распознавания речи, и не более того. Число вариантов (перебора) параметров ограничено (хотя и довольно большое), кроме того, человек пока мало понимает какие именно параметры нужно применять, а заниматься подбором методом тыка - а именно так мы пока и делаем - дело сугубо неблагодарное... вот я и предложил позвать на помощь давно отработанные методы - генетические алгоритмы - пусть они поработают.

Если с помощью этих методов решение будет найдено, то украсть их - уже в готовом виде - дело пары минут.

[Ответ][Цитата]

Vpolevoj
Сообщений: 1408

На: Совместить с генетическими алгоритмами

Добавлено: 21 май 13 6:56

Цитата:

Автор: rrr3
Интересно, что Вы понимаете под генетическими алгоритмами?
Ведь в вашем примере есть не только наследование.

Понимаю в классическом виде: есть целевая функция, отбор (выбывание худших), наследование (сохранение лучших вариантов), у потомков допускается случайный перебор вариантов (мутации). И далее по циклу.

Рано или поздно при таком раскладе популяция выходит на решение поставленной задачи. Причем довольно оптимальное и эффективное решение, что подчас получить другими методами бывает довольно сложно.

Посему, рекомендуется применять по назначению врача. Только в самых запущенных случаях. А тут, на мой взгляд, такой случай и есть.

[Ответ][Цитата]

Андрей
Сообщений: 3944

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 7:01

Цитата:

Автор: Vpolevoj
Если дело заключается в недостатке идей, то их есть у меня - могу подбросить.

С этого и надо было начинать, а не уводить участников в сторону протухших концепций.

Цитата:

Автор: Vpolevoj
Моё предложение использовать генетические алгоритмы, касается конкретной проблемы - распознавания речи

Так называемые "генетические" алгоритмы работают только потому, что это в сущности другое название переборных алгоритмов. Перебирать в задаче распознавания голоса нечего, т.к. нет заранее заданного эталона, которому что-то нужно подобрать в соответствие.

Перебирать нужно идеи. В голове и на практике. Чудес не будет.

[Ответ][Цитата]

гость
176.241.230.*

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 11:57

Цитата:

Автор: covax
У вас есть альтернатива? Так предложите! Иначе вы напоминаете обезьяну пуляющую в посетителей зоопарка какашками через клетку. Ваши беспочвенные выпады начинают утомлять.

Тест на наличие интеллекта.
Вводная.
Некто указывает на принципиальную ошибку в подходе к распознаванию.
Задание.
Выбрать из ниже представленных ответов один верный.
Ответы.
1. Некто желает повыпендриваться и поиздеваться над автором подхода участниками обсуждения.
2. Некто умышленно пытается опорочить подход к распознаванию в своекорыстных целях.
3. Некто зная, что подход к распознаванию принципиально ошибочен, пытается удержать автора подхода от напрасной траты времени.
4. Некто туп как дерево однако корчит из себя всезнайку, но у него получается пародия на обезьяну пуляющую в посетителей зоопарка какашками через клетку.

Дополнительный вопрос.
Когда человек видит принципиальную ошибку в подходе к решению какой либо проблеме?

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 13:19

У меня вопрос, а на сколько частот Вы раскладываете голос?
Задался вопросом сколько частот слышит человек, нашел фото клавиатуры органа и

ФОТО
ИЛИ

Не мало... Я насчитал 180 клавиш. И если я правильно понимаю большинство клавиш являются ЧАСТОТАМИ, а не КООМБИНАЦИЯМИ (википедия ОРГАН). Похоже на некоторых великих органах 461 клавиша(ноты+отклоняющие). И человек их слышит по разному. Не говоря уж про педали, которые СЛЕГКА смещают частоту. Тогда почему при анализе речи Вам хватает (около) 30 частот?

[Ответ][Цитата]

ipr
Сообщений: 76

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 21:06

решил тоже прокоментировать что нибудь чтоб не отставать от других.ну-что я могу сказать по этому поводу.
насколько я знаю когда говорят слова идут последовательно частоты.каждое слово это определенный набор частот следующих одна за другой.
я не профи в этом вопросе но чтобы программа их различала надо чтоб они были заложены в нее,во вторых чтобы она могла определить с чем из того что в ней записано данный набор сигналов с микрофона наиболее совпадает.
но для того чтобы программа распознавала слова нормально,без дураков как нынешние телефонные распознаватели-эта программа должна обладать интеллектом.просто математическими формулами и памятью описать все ситуации довольно трудно (хоть и возможно).

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Совместить с генетическими алгоритмами

Добавлено: 21 май 13 21:46

Цитата:

Автор: Vpolevoj
Понимаю в классическом виде: есть целевая функция, отбор (выбывание худших), наследование (сохранение лучших вариантов), у потомков допускается случайный перебор вариантов (мутации). И далее по циклу.
....
Посему, рекомендуется применять по назначению врача. Только в самых запущенных случаях. А тут, на мой взгляд, такой случай и есть.

На мой не просвещенный взгляд, есть какая-то путаница понятий целевой функции и отбора. В данном случае целевая функция - это критерий отбора (и не важно по какой-то исполняемой системой функции или по, допустим, утрированно - цвету). Т.е. есть критерий отбора (внешняя среда и Чувствительность к ней), отбор (выбывание худших или "Смертность"), наследование (не сохранение лучших, а ВСЕХ остальных, которые не худшие), у потомков допускается Случайный Перебор вариантов (мутации и "скрещивание").
Можно добавить еще параметры - Количество "бактерий" и достаточное Разнообразие "генов"-"шестеренок".

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 22:00

Цитата:

Автор: Андрей
С этого и надо было начинать, а не уводить участников в сторону протухших концепций.
Так называемые "генетические" алгоритмы работают только потому, что это в сущности другое название переборных алгоритмов. Перебирать в задаче распознавания голоса нечего, т.к. нет заранее заданного эталона, которому что-то нужно подобрать в соответствие...

"Эталон" - ЕСТЬ!
Упростим задачу до написания Одного слова на мониторе (в файле и т.п.) в ответ на поступающие звуковые сигналы этого слова из разных источников (в разных распознаваемых человеком вариациях). И ВСЕ!
"Эталон" в данном случае - это критерий отбора ("распознанное" выбранное Вами одно слово). Удалять можно те "бактерии", которые чаще всего допускают ошибочное написание в ответ на звучание исследуемого слова или на звучание иных слов пишут исследуемое. Таких популяций "бактерий" может быть множество для разных слов...(да и скрещивать их можно). Для большего упрощения слово можно заменить на какой либо знак, чтобы не учить еще и написанию, а только распознаванию по звуковому ряду.

Такой упрощенный вариант не подойдет?

[Ответ][Цитата]

Vpolevoj
Сообщений: 1408

На: Совместить с генетическими алгоритмами

Добавлено: 21 май 13 23:22

Цитата:

Автор: VPolevoj
Понимаю в классическом виде: есть целевая функция, отбор (выбывание худших), наследование (сохранение лучших вариантов), у потомков допускается случайный перебор вариантов (мутации). И далее по циклу.

Цитата:

Автор: rrr3
есть критерий отбора (внешняя среда и Чувствительность к ней), отбор (выбывание худших или "Смертность"), наследование (не сохранение лучших, а ВСЕХ остальных, которые не худшие), у потомков допускается Случайный Перебор вариантов (мутации и "скрещивание"). Можно добавить еще параметры - Количество "бактерий" и достаточное Разнообразие "генов"-"шестеренок".

Согласен с вами, rrr3.
Условия можно (и нужно) уточнять.
Но вся изюминка генетических алгоритмов заключается в точном подборе целевой функции - "эталоне". Чем правильнее и точнее мы зададим "эталон", тем быстрее и точнее будет найдена правильная интересующая нас комбинация.

Цитата:

Автор: rrr3
На мой не просвещенный взгляд, есть какая-то путаница понятий целевой функции и отбора. В данном случае целевая функция - это критерий отбора (и не важно по какой-то исполняемой системой функции или по, допустим, утрированно - цвету).

Путаницы никакой нет.
Это оно и есть: целевая функция - это и есть критерий отбора.

Те особи, которые ближе к целевой функции - те "выживают", те особи, которые дальше (хуже) - те "вымирают".

Цитата:

Автор: rrr3
"Эталон" - ЕСТЬ!
Упростим задачу до написания Одного слова на мониторе (в файле и т.п.) в ответ на поступающие звуковые сигналы этого слова из разных источников (в разных распознаваемых человеком вариациях). И ВСЕ!
"Эталон" в данном случае - это критерий отбора ("распознанное" выбранное Вами одно слово). Удалять можно те "бактерии", которые чаще всего допускают ошибочное написание в ответ на звучание исследуемого слова или на звучание иных слов пишут исследуемое. Таких популяций "бактерий" может быть множество для разных слов...(да и скрещивать их можно). Для большего упрощения слово можно заменить на какой либо знак, чтобы не учить еще и написанию, а только распознаванию по звуковому ряду.

Такой упрощенный вариант не подойдет?

Именно так я себе этот процесс и представлял, когда предложил воспользоваться генетическими алгоритмами.

Для начала достаточно обучить "бактерии" распознавать одно любое слово (допустим, "ма-ма"). Затем можно задачу усложнить, заставив их распознавать два слова, затем - три, и т.д.

Но нам важно даже не это.
При нахождении решения с помощью генетических алгоритмов, мы можем подсмотреть как за процессом поиска, так и воспользоваться уже найденным "бактериями" решением - конкретным подбором параметров, которыми они пользуются для распознавания в итоге!

Посмотреть на готовый набор параметров для одного слова, для другого, для двух слов, для трех и т.д.

И может быть, может быть... тогда мы и сами что-то поймём. Как же все-таки происходит распознавание. Какие именно параметры и в каком порядке наиболее значимы при распознавании. Сами мы, я так понимаю, будем перебирать эти параметры до бесконечности, причем, всегда с одним и тем же результатом.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Инструментарий. Эксперимент.

Добавлено: 21 май 13 23:37

Цитата:

Автор: Tester64
У меня вопрос, а на сколько частот Вы раскладываете голос?
Тогда почему при анализе речи Вам хватает (около) 30 частот?

Если вопрос ко мне , то отвечаю.
С одной стороны надо сократить базу и уменьшить количество частот. Это требование компактности. С другой надо что-то различать с уменьшеной базой.
Именно для этого буфер, который содержит кадры по 40 мс и частоты по 64 шт. выводится в динамики.
Оценку качества воспроизведения делает человек.

Уменишите пожалуйста картинку, а то она распахнула странице очень широко.

[Ответ][Цитата]

Стр.12 (78): 1 ... 8 9 10 11 [12] 13 14 15 16 ... 78

<< < Пред. | След. > >>

Форум: Проблемы искусственного интеллекта