GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.35 (78)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 22 июл 13 10:03
Цитата:
Автор: Анатоль
Да, это огибающая спектра. (Она уже довольно инвариантна).
Дальше из неё получают кепстральные коэффициены. (Еще увеличивается инвариантность и уменьшается размер представления).
А потом это представление звука сравнивают с модельными каким-то способом (динамическое программирование, скрытые марковские модели, нейросети...).
А потом "фильтрация" словарём, частотой последовательностей слов, грамматикой...
И в конце "фильтрация" смыслом и контекстом. Вот именно этот этап распознавания имеет отношение к интеллекту.
Ух. Ну все правильно, но как просто :-) Аж смешно.
Но с другой стороны если добавить отслеживание ЧОТ (изменение ее частоты и амплитуды), т.е. ударные гласные, длительность гласных и интонация - то наверно да, -будет работать.
А куда согласные дели? с ними как? также но аккуратней?
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 22 июл 13 11:17
Цитата:
Автор: Артем
Ух. Ну все правильно, но как просто :-) Аж смешно.
Но с другой стороны если добавить отслеживание ЧОТ (изменение ее частоты и амплитуды), т.е. ударные гласные, длительность гласных и интонация - то наверно да, -будет работать.
А куда согласные дели? с ними как? также но аккуратней?
Почитайте Цемеля - ведь не зря же я вам его рекомендовал
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 22 июл 13 11:59
Цитата:
Автор: Анатоль
А потом это представление звука сравнивают с модельными каким-то способом (динамическое программирование, скрытые марковские модели, нейросети...).
Всем привет. Анатоль выделил в отдельное предложение самое главное и не понятное. Именно на этом сейчас стоит сосредоточить свое внимание. Кепстры, Мелы и прочие ухищрения нужны только для уменьшения бызы. С одной стороны надо ее уменьшить - с другой не выплеснуть ребенка. Я полагаю, что ухищраться в уменьшении базы можно всю оставшуюся жизнь, так и не прступив к главному. А главное, повторяю, в построении универсального алгоритма, который бы не гнушаясь объемом памяти, искал бы закономерности в абстрактных множествах, коими и являются - огибающая, спектр, кепстральные коэфы и усеченная временная реализация. Все это вместе.
[
Ответ
][
Цитата
]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 22 июл 13 12:25
Цитата:
Автор: Артем
А куда согласные дели? с ними как?
В этих методах нет (не нужна) сегментации на гласные-согласные.
Если бы иметь предварительную (автоматическую) сегментацию, то методы сравнения были бы намного проще.
[
Ответ
][
Цитата
]
Анатоль
Сообщений: 1964
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 22 июл 13 12:32
Цитата:
Автор: Kek
Кепстры, Мелы и прочие ухищрения нужны только для уменьшения бызы.
Нет. Спектры, логарифмы, мелы, (кепстры?)... - это требование психоакустики, - привести физический сигнал к виду, учитывающему особенности восприятия звука человеком.
[
Ответ
][
Цитата
]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 1:23
Цитата:
Автор: Kek
...С одной стороны надо ее уменьшить - с другой не выплеснуть ребенка. Я полагаю, что ухищраться в уменьшении базы можно всю оставшуюся жизнь, так и не прступив к главному. А главное, повторяю, в построении универсального алгоритма, который бы не гнушаясь объемом памяти, искал бы закономерности в абстрактных множествах, коими и являются - огибающая, спектр, кепстральные коэфы и усеченная временная реализация. Все это вместе.
За много лет работы программистм, понял что не стоит стремится в программировании "запредельного" уровня. Зачем сжимать базу? Вам процессора для обработки не хватает? Не хватает памяти или места на винчестере для хранения базы?
Вы УЖЕ готовитесь переписать программу на асемблер для прошивки ограниченого чипа? Для начала "поймайте результат за хвост". Пусть хоть примерно получится! Совершенствовать будете позднее. Возможно стоит сделать многоуровневое сравнение. Аудио-поток разлагается на составляющие несколькими разными способами. Один дает один коеффициент при сравнении с образцом. Второй другой. Возможно Вам нужен сумарный коефициент для выявления совпадения.
Если честно, ДАВНО ожидал увидеть у Вас хоть какой-нибудь положительный результат. Что-нибудь вроде успешного опознания фонемы "а-а-а" или "ма-а-а" с записи или с микрофона. Хотя-бы одним голосом (автора или обучаемым). Хотя-бы с вероятностью меньше 30%. Я на свою программу за почти 3 года потратил всего 29 дней (счетчик архивов), а Вы похоже НАМНОГО больше...
По своему воспринимаю Вашу разработку программы как некое соревнование с моей программой (иначе бы давно забросил форум). Ваша быстрая разработка на малоизученных и сомнительных технологиях против моей медленной, но надежной, основаных а 100%нтно проверенных методиках...
[
Ответ
][
Цитата
]
victorst
Сообщений: 821
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 2:52
2Tester64: а вы не слишком самоуверены? Меряетесь чем-то. 100% проверенные методики. От всяких-разных математических и физических обработок до понимания смысла услышанного - огромная почти непреодолимая пропасть. А непреодолимая (пока) она уже около 60 лет. И чего только не делали ученые, как только они не колдовали. И тем более чисто инженерно-программистским наскоком эту пропасть не перепрыгнуть. Нужны новые или нехорошо забытые старые идеи. Если есть идеи, их и нужно проверять. А сейчас это все напоминает броуновское движение.
Большинство достигнутых результатов было построено на каких- то специфических особенностях сигнала и заложенных нами в программный код знаниях об узкой специализированной области. Например, распознавание одной фонемы одного и того эе голоса в определенных условиях. Но как только выходим за рамки этого круга, так все перестает работать. Вот в чем проблема.
На заре ИИ шли разработки универсального решателя задач. Он в желаемом виде не был разработан и был весьма ограничен. И все кинулись решать узкоспециализированные задачи. Кое-какие задачи решили. Но главные - нет. Наплодили разношерстные плохо стыкуемые друг с другом алгоритмы. Однако это не повод вернуться к универсальному механизму решения интеллектуальных задач, но в предельно широком смысле понимания этих задач.
Ув. Tester64. У вас есть идеи по данной теме? Если есть и вы способны поделиться ими, то озвучтье их хотя бы кратко здесь. Иначе вашей крутизны многие здесь не оценят.
Я с 1983 года работал в большом вычислительном центре и собственными ручками щупал, ремонтировал, программировал почти всю историю вычислительной техники начиная с ламповых аналоговых и цифровых машин. И что? Тут все с 17 летними ребятами - равны потому что все это ортогонально решению задачи данной темы форума.
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 3:27
Цитата:
Автор: Tester64
За много лет работы программистм, понял что не стоит стремится в программировании "запредельного" уровня. Зачем сжимать базу? Вам процессора для обработки не хватает? Не хватает памяти или места на винчестере для хранения базы?
Я как раз солидарен с вами. Не нужно бороться за уменьшение базы - это путь для академических бездельников. Я за "посмотреть на все" с высоты псевдоконечной цели, которая шире чем просто распознавагие каких-то фонем. В своей программе распознавание отдельных слов у меня происходит с оценкой 80%. Это корреляционный анализ сравнения с паттерном. Но мне этого мало, мое устремление шире и поэтому я не стал тратить время на отработку. Сейчас я намерен продемонстрировать, прежде всего себе, метод разбиения фразы на гласные и на согласные участки. Это как раз обсуждалось выше. Как получится что-то, или не получится обязательно напишу. Это все не просто...
Все открытые классические методы свертки и предобработки речевого сигнала мне известны, я их пощупал. Убежден, что только совокупность всех методов может дать результат, о чем вы и говорите.
P.S. И тут вопрос, а как объединить совокупность результатов отдельных методов?
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 3:39
Цитата:
Автор: victorst
И что? Тут все с 17 летними ребятами - равны потому что все это ортогонально решению задачи данной темы форума.
Хорошо подмечено! Именно это меня и привлекает. Но "в бой идут одни старики", потому что у них мотивация покрепче будет...
[
Ответ
][
Цитата
]
Tester64
Сообщений: 1910
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 4:17
Цитата:
2Tester64: а вы не слишком самоуверены? Меряетесь чем-то.
Не меряюсь! А спользую как дополнительный стимул. Хочется иногда "прикрикнуть" на телевизор вместо поисков пульта или "приказать" компьютеру. Но этого мало что-бы уже целых 30 дней заниматья таким проектом.
Цитата:
100% проверенные методики. От всяких-разных математических и физических обработок до понимания смысла услышанного - огромная почти непреодолимая пропасть. А непреодолимая (пока) она уже около 60 лет. И чего только не делали ученые, как только они не колдовали. И тем более чисто инженерно-программистским наскоком эту пропасть не перепрыгнуть. Нужны новые или нехорошо забытые старые идеи. Если есть идеи, их и нужно проверять. А сейчас это все напоминает броуновское движение.
Большинство достигнутых результатов было построено на каких- то специфических особенностях сигнала и заложенных нами в программный код знаниях об узкой специализированной области. Например, распознавание одной фонемы одного и того эе голоса в определенных условиях. Но как только выходим за рамки этого круга, так все перестает работать.
Но ведь гугл и эппл эту задачу решили! Наша задача лишь повторить их опыт обладая лишь одним компом и одной парой рук.
Цитата:
Ув. Tester64. У вас есть идеи по данной теме? Если есть и вы способны поделиться ими, то озвучтье их хотя бы кратко здесь. Иначе вашей крутизны многие здесь не оценят.
Мой подход больше напоминает "административный". Медленными МА-А-АЛЕНЬКИМИ шажками сделать УТИЛИТУ, которая ВСЕГДА будет висеть в памяти и снимать сигнал. Причем без зависаний. С записью в файл. С чтением из файла... В наилучшем качестве. Натравить их на все доступные аудио-потоки, а не только на свой микрофон(и надиктовывание пока не надоест). Потом заставить программу нарисовать сотни разных графиков этого звука(в разных проекциях, преобразованиях, искажениях). Внимательно их изучить и найти закономерности. Каждый вид графика требует отдельных ДОЛГИХ тестов, а не обрадовано прыгать на следующую ступень производную от прошлой найдя минимальное совпадение. Изучить наложеные графики от разных авторов в разных фонемах. Возможно даже распечатать их на бумагу и карандашом кружочками обвести совпадения (как в свое время изучали ДНК). Создать ИДЕАЛЬНЫЙ и УПРОЩЕННЫЙ образец искомой фонемы сразу в совпадающих ВИДАХ графиков. Потом подобрать ИЗ ИЗВЕСТНЫХ алгоритм быстрого сравнения графиков с образцом. Сильно подозреваю что подойдет индексированая база поиска по отпечаткам пальцев или сравнение лиц по ключевым точкам, но дорастем увидим. Потом прослушивать эфир в поисках этой фонемы сотни часов. Делать это до тех пор пока ВЕСЬ эфир не будет распознан. Поэтому моя программа ИЗНАЧАЛЬНО прослушивает не только микрофон. И учитывая специфику не должна быть назойливой, должна экономить ресурсы компа в режиме сна (а не выключения), обладает приятным дизайном, прозрачностью и минимальным интерфейсом. Короче работы явно не на один месяц...
Цитата:
Тут все с 17 летними ребятами
Расмешили! Если Вы из старого поколения, которое училось компьютеру УБИВАЯ Windows десятками разных способов, ставили программы без разбора, заражались и лечились от вирусов, берегли каждый килобайт на дискете, переустнавливали СВОЙ виндовз по 2-3 раза на день, изучали другие языки вычитывая тонны литературы, а не пользовались настраиваемыми программами-конструкторами... Как можно сравнивать ЭТОТ опыт со школьником, который прочитал по теме пару абзацев, заразился идеей и уверяет что теперь он ЗНАЕТ как перевернуть мир? Откройте интернет, хабр - там часто над такими смеются... Помню один написал антивирус в BAT-файле и придумал сжатие фильма до строки в 100 символов. Лишь с годами понимаешь что ОПЫТ - незаменимая часть ЛЮБОГО проекта! И ИИ не исключение! И даже создать новую/свежую ИДЕЮ не обладая опытом и знанием большинства других подобных проектов не выйдет!
Цитата:
В своей программе распознавание отдельных слов у меня происходит с оценкой 80%. Это корреляционный анализ сравнения с паттерном. Но мне этого мало, мое устремление шире и поэтому я не стал тратить время на отработку. Сейчас я намерен продемонстрировать, прежде всего себе, метод разбиения фразы на гласные и на согласные участки. Это как раз обсуждалось выше. Как получится что-то, или не получится обязательно напишу. Это все не просто...
Не понял! Так у Вас УЖЕ работает распознавалка? Или только деление на слова? 80% это не мало. Она уже умеет распознавать ОДНО ИЗВЕСТНОЕ слово из потока???
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 5:14
Изменено: 28 окт 13 6:52, автор изменений:
Kek
del
[
Ответ
][
Цитата
]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 5:33
Цитата:
Автор: Kek
И тут вопрос, а как объединить совокупность результатов отдельных методов?
Если ошибки разных методов не скоррелированы между собой, то объединять можно голосованием/усреднением.
В общем, если 5 методов за "ма", один за "ва" и один за "уа", то в качестве ответа принимается наиболее часто встречающийся ответ. Главное, повторю, чтобы все методы врали не в унисон.
[
Ответ
][
Цитата
]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 6:28
Цитата:
Автор: Tester64
Не понял! Так у Вас УЖЕ работает распознавалка? Или только деление на слова? 80% это не мало. Она уже умеет распознавать ОДНО ИЗВЕСТНОЕ слово из потока???
Все проще. Говоришь слово, определяешь его как паттерн. Это слово и распознается с коэффициентом корреляции не хуже 0.8. Слова, которых нет среди паттернов имеют 0.3. Похожие по звучанию слова имеют так же ложные срабатывания. Это все на уровне распознавания комманд. В программе, которая представлена в статье в начале топика это все есть.
Этот метод плохо работает, когда определяется все слово. Интересно другое. Коэф. корреляции определяется по каждому кадру из 40 мс. Если слово состоит из 20 кадров, то мы имеем 20 коэффициентов корреляции. Их среднее значение определяет коэф всего слова. Есть реализации, когда отдельные кадры имеют коэф > 0.8, но в среднем дают плохое распознавание всего слова. Дальше я не исследовал, хотя как метод сравнения кадров это вполне работоспособно.
[
Ответ
][
Цитата
]
Slava
Сообщений: 3070
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 7:12
Цитата:
Автор: Kek
Все проще. Говоришь слово, определяешь его как паттерн. Это слово и распознается с коэффициентом корреляции не хуже 0.8. Слова, которых нет среди паттернов имеют 0.3. Похожие по звучанию слова имеют так же ложные срабатывания. Это все на уровне распознавания комманд. В программе, которая представлена в статье в начале топика это все есть.
Этот метод плохо работает, когда определяется все слово. Интересно другое. Коэф. корреляции определяется по каждому кадру из 40 мс. Если слово состоит из 20 кадров, то мы имеем 20 коэффициентов корреляции. Их среднее значение определяет коэф всего слова. Есть реализации, когда отдельные кадры имеют коэф > 0.8, но в среднем дают плохое распознавание всего слова. Дальше я не исследовал, хотя как метод сравнения кадров это вполне работоспособно.
Скажите, плз, а эти цифры по надежности на каком словаре были получены?
И еще - как осуществляется синхронизация паттернов и распознаваемого?
[
Ответ
][
Цитата
]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 23 июл 13 7:53
Цитата:
Автор: Slava
Скажите, плз
Слава, передаю бразды правления в ваши руки, я что-то устал от этих бойцов. Желаю вам терпения
[
Ответ
][
Цитата
]
Стр.35 (78)
:
1
...
31
32
33
34
[35]
36
37
38
39
...
78
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net