GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.45 (78)

<< < Пред. | След. > >>

Поиск:

Автор

Тема: На: Проект Sound-Agent. Зри в корень!

Slava
Сообщений: 3070

На: Проект Sound-Agent. Зри в корень!

Добавлено: 07 авг 13 13:52

Цитата:

Автор: Артем

сегодня у меня отличный день.

мои поздравления!

Цитата:

p.s. и почему мне кажется что моя палатка и мое распознавание речи имеют что-то общее?

Да, похоже
Наверно - характер такой
Приятно

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 5:00

Цитата:

>>>Одну короткую фонему ухо почти не распознает

Вот тут вы правы и неправы.
Что такое одна короткая фонема? Я подразумеваю взрывные.
Полагаю что именно взрывные звуки эволюция научилась слышать в первую очередь
Это удар. Палкой о палку например.

Что же касается МО МУ и МА - то тут действительно нет особой разницы.
Имеет значение только изменение параметров спектра во времени.
Но даже в этом случае в слитной речи я не часто слышу отличие
кОрова от кАрова.
Единственно где можно четко услышать гласную - это ударная гласная.
Ударная гласная характеризуется максимально мощностью и максимальным значением частоты основного тона. Ну например на других гласных 100гц, а на ударной - 150.

Когда я говорил о том что слух отдельные фонемы не распознает, я имел в виду тот факт что значение фонемы не доходит до разума. Это как угадать мелодию по 3 нотам - смысла нет - но на 10 точое угадывание. Так и здесь. Нейроны вполне уверено распозают фонему, но смысл у слова появляется только при нескольких фонемах.

Поэтому БЕСПОЛЕЗНО рисовать ОДНУ фонему и говорить что получатся довольно правильное МА, только сказанное роботом при длине звука в несколько милисекунд. Хотя ВОЗМОЖНО при циклическом запуске фонемы МА-МА-МА-МА-МА-МА-МА можно будет что-нибудь распознать - надо проверить.

Цитата:

Если вы вырезаете кусочек 20 мс из фонемы МА,
вы не можете услышать что там было А или О.
Просто потому что в 20 мс на частоте 400 гц поместится всего 8 периодов.
А 600гц - 12 периодов.
А в более длинный кусочек, например 80мс поместится уже
32 периодов для 400 гц и
48 периода для 600 гц.
Разница становится более выразительной. Не меняется пропорция (в 1.5 раза), но меняется доверительная оценка для этого соотношения (ну точно в 1.5 раза!).

Это также как и преобразование фурье, чем больше точек фурье - тем лучше разрешающая способность по частоте.

Безусловно мысль о том что надо анализировать какие-то магические 40 мс или 20 или другие магические N мс - не очень верная.

Конечно лучше выделить фонему на протяжении всей своей длительности и анализировать ее спектральный отклик по всей длительности.

У фонемы нет длительности. Она может нагло накладываться на следующую фонему или плавно в нее перетекать (А-О-У). Я тоже считаю что при получении разных частот надо брать разные длины блоков из одного и того-ж потока.

Цитата:

ВЫВОД: Нужен алгоритм - способный, не разбираясь в том, какая ИМЕННО звучит фонема провести разметку (фрагментацию) во времени, на предмет появления новых фонем.

Не пытайтесь разделять фонемы! Просто ищите характеристики известной. Причем сильно подозреваю что прийдется писать ВЕРОЯТНОСТНУЮ модель - многие фонемы очень похожи и у разных носителях могут сильно искажаться. Например столичное "мАсква" - гласная О почти не используется и часто звучит как А. Хотя возможно есть и различия, но их крайне тяжело отловить.

[Ответ][Цитата]

Victor G. Tsaregorodtsev
Сообщений: 3187

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 7:08

Цитата:

Автор: Slava
А что такое - отжигать?

"Глаголом жги сердца людей" (С) Пушкин

С него метафора пошла. Т.е. молодёжный слэнг - это, в данном случае, вторично.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 8:02

Цитата:

Автор: Артем
http://www.rusphysics.ru/files/Pirogov.Osnovy%20fon.teorii.pdf

Отличная статья!!! То что доктор прописал! Это начало прорыва. Все интегралы надо реализовать программно, понятно, что статья писалась когда компы были слабенькие.
Артем, надо рыть!

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 14:04

Цитата:

Автор: Kek
Отличная статья!!! То что доктор прописал! Это начало прорыва. Все интегралы надо реализовать программно, понятно, что статья писалась когда компы были слабенькие.
Артем, надо рыть!

Вот как раз в фонетической функции Пирогова нет требований к скорости компов. Это просто вычесть из текущего спектра предыдущий спектр (точнее за tau миллисекунд).
Или поделить текущий спектр на предыдущий.
(там есть логарифм - непонятно к чему он относится)
Далее идет интеграл, опять же с логарифмом.
Но смысл в том, что через какое-то время (экспоненциально затухающее) мы опять готовы слышать усиление спектра на некой частоте.

Т.е. взрыв - это значит что появилась мощность в спектре по сравнению с предыдущим моментом (каким должно быть tau - обсуждается в статье).
Затем после взрыва мы глохнем на какое-то время для восприятия в это частоте.
Это время - суть экспоненциально затухающая мощность взрыва.
Затем мы готовы к восприятию нового взрыва.

Т.е. стационарные процессы (ноты, или гласные) воспринимаются нами как серия взрывов. Первый -сильный - остальные слабые.

Я так понял ...

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 14:10

В статье также обсуждается необходимость двух каналов применения функции Пирогова с разными tau.
Для гласных - tau побольше, для согласных - поменьше.
Соответственно и скорость экспоненциального затухания в разных каналах разная.
Очевидно что tau в разных каналах подогнано так чтобы в среднем успевать слышать гласную или согласную, но не слышать ее дважды.

Есть в статье намек что именно так и слышит человек. Вероятно да. Вопрос в магическом подборе tau.
И насколько я помню физиологи делят ухо не на 2 части а на 3.
http://ru.wikipedia.org/wiki/%D0%A3%D1%85%D0%BE

[Ответ][Цитата]

victorst
Сообщений: 821

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 21:13

Фонетическая теория речи Пирогова - это хорошая работа. Эта теория предназначена в первую очередь для вокодерной телефонии. Но она, как и многие другие теории о разуме человека, подходит к разуму с точки зрения черного ящика, который можно исследовать самонаблюдением и самоанализом.
Однако многократно уже доказано, что только самоанализом понять, смоделировать разум невозможно. Поэтому довольно давно не помню кем были предложены теории целостного восприятия в т.ч. и речи. Вся поступающая информация в мозг человека и животных лишь немного преобразуется в более компактный и инвариантный вид. Затем она сразу преобразуется в первичные сенсорные знания, которые ничем не отличаются от более абстрактных. И над ними уже и осуществляются универсальные обработки знаний независимо от их источника. И утонченные фильтрации и обобщения и т.д. и т.п.
Дети, как известно, запоминают слово (или даже целую фразу) таким как его произнес один человек, например, мама. Значительно позже распознают речь других людей и слова с изменениями, например, окончания. И никаких фонем, и правил произношения и правописания они и в помине не знают.
Более того, слово и речь - это тоже не есть нечто законченное и самодостаточное. Она, эта речь есть часть бытия разумного существа. И когда человек - ребенок постигает значение первых слов, он в первую очередь, к примеру, сопоставляет зрительные образы мамы и слово, которое она произносит - "мама". И только после этого разум ребенка устанавливает рефлекторную связь (по Павлову) между звуком слова и зрительным образом. Вот тогда и создается комплексное знание, символ реального объекта - мамы в мозгу ребенка, частью которого является речевой образ.
Этот речевой образ запоминается именно таким, каким он был произнесен. В целости и сохранности. И лишь затем к этому первому образу слова или фразы добавляются вариации в зависимости от интонации, условий прослушивания, различных людей, произносящих это же слово. В этом процессе творения инвариантности активно участвует мозг человека. И при каждом таком акте усвоения вариаций происходит множество процессов среди которых есть и обобщение, анализ и т.д. В т.ч. это происходит во время сна. Происходит "утряска" новой информации, полученной за день - согласование с теми знаниями, которые уже хранились в мозгу.

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 21:53

Цитата:

Автор: victorst
... Однако многократно уже доказано, что только самоанализом понять, смоделировать разум невозможно. Поэтому довольно давно не помню кем были предложены теории целостного восприятия в т.ч. и речи. Вся поступающая информация в мозг человека и животных лишь немного преобразуется в более компактный и инвариантный вид. Затем она сразу преобразуется в первичные сенсорные знания, которые ничем не отличаются от более абстрактных. И над ними уже и осуществляются универсальные обработки знаний независимо от их источника. И утонченные фильтрации и обобщения и т.д. и т.п.
Дети, как известно, запоминают слово (или даже целую фразу) таким как его произнес один человек, например, мама. Значительно позже распознают речь других людей и слова с изменениями, например, окончания. И никаких фонем, и правил произношения и правописания они и в помине не знают....

Я пытался это объяснить у же не раз, но в результате мои посты в этой ветке стали не желательны.
Имейте это ввиду...

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Зри в корень!

Добавлено: 08 авг 13 23:36

(2 victorst) & (2 rr3)
Виктор, правильные мысли. Надо не забывать в пылу мелких продвижек о главном. Но, согласитесь продвижки тактические нужны.
2 rr3, никто Вас не лишает здесь высказываться.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 4:52

Я понимаю стремление victorist и rr3 перейти к некому универсальному алгоритму.
Но, во первых, те в кавычках "универсальные алгоритмы" которые я знаю работают с бинаризированными данными (онтологии) и не являются на самом деле универсальными (экспертные системы).

Книга Потапова "Искуственный интеллект и универсальное мышление" вправило мне мозги, в том смысле что универсальные алгоритмы как правило не очень-то и универсальны.
Т.е. они конечно универсальны в пределе, в бесконечности, но время достижения этой бесконечности - тоже бесконечность.
Более того, большинство "универсальных" алгоритмов не являются таковыми даже в пределе, и на бесконечности проигрывают генетическим алгоритмам.

Но я не об этом хотел сказать...

Наши "тактические" успехи вовсе не тактические - а очень даже стратегические!
Построив "ручками" адекватную модель универсально распознавания звуков/речи мы можем вернуться обратно и понять как бы эта модель могла быть построенна с помощью "универсального" алгоритма. Возможно такой очередной "почти универсальный" алгоритм придется изобретать.

Что мы имеем:
1. АЦП. (интересно как наше ухо смогло придумать АЦП ? какой универсальный алгоритм придумал АЦП? Да еще и сразу 16 разрядный? Может вернемся к вопросу о клиппировании?)
2. Сеточка фильтров. (Лично мне Мел сообщил как лучше организовать сеточку фильтров, а как универсальный алгоритм до этого догадался?)
3. Фонетическая функция Пирогова. (вообще-то это тоже сеточка фильтров, но не таких как в п2. Хорошо бы чтобы мы могли развернуть дело таким образом чтобы фильтры в п2 и п3 имели какое-то однообразие. Опять клиппирование чтоли?)
4. Бинаризированная визуализация с очень небольшим количеством признаков достаточная для понимания. (это я еще так и не сделал, сорри, но я предполагаю. Это гипотеза)

Каким принципам отвечает наша схема:
1. Уменьшение количества признаков на выходе, бинаризация.
2. Бинаризированный выход мы можем развернуть и обратно получить звук, таким образом убедившись что мы ничего не потеряли.
п1 и п2 - вместе отвечают принципу МДО (минимально-достаточного описания)

Всякие мысли:

Все эти мысли пришли мне в голову пока я ехал в метро, и мне захотелось вдруг придумать/сформулировать фильтр который бы мог работать и на п1 и на п2 и на п3.
(АЦП + частотный + дифференцирующий)
Тогда получается 3 слоя из одинаковых фильтров.
Как-будто на каждый слой насыпали 1000-и похожих фильтров, и объединили в 3 слоя.

Теперь остается неясным как в слое 1 они организовываются таким образом чтобы слышать диапазон от 50гц до 20000г, как в слое 2 они организовываются в шкалы Мела, а как в слое 3 они организовываются таким образом чтобы выявить магическое tau.
Возможно это результат эволюции и генетическая обусловленность (похлопаем генетическим алгоритмам), но возможно тут есть естественная природная целевая функция, которая определяет эту самоорганизацию.

Предположительно, целевая функция определяется по следующим принципам:
1. Энергоэффективность
2. Свято-место пусто не бывает (см п1.энергоэффективность)

Приведу пример как п1.энергоэффективность и п2. который тоже энергоэффективность работает для самоорганизации в экономике:
Молодой человек хочет зарабатывать деньги, он ищет работу или придумывает свой бизнес. Вобщем со временем он или начал зарабатывать деньги, либо умер с голоду, ну или хотя-бы умер как экономически активная личность.
Допустим он открыл магазин по продаже сантехники в нашем микрорайоне.
Теперь второй молодой человек хочет зарабатывать деньги. К сожалению магазин по продаже сантехники в нашем микрорайоне уже есть. Так что ему придется либо придумать что-то другое, либо умереть.
Второй молодой человек выжил. Он устроился работать на шиномонтаж.
Но у первого дела идут лучше чем у второго. Он зарабатывает больше. Он играет большее значение в экономике. Он начинает развивать свой бизнес и открывает что-то еще. Необязательно еще один магазин сантехники, главное что он использует свой навык который, как он думает, позволил ему добится успеха.
Его новый бизнес либо пойдет либо не пойдет.
И так далее...
Есть пример энергоэффективности?

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 5:09

Кстати.
Является ли человеческий мозг универсальным алгоритмом?
Или же алгоритм который построил человеческий мозг является универсальным?
Или же алгоритм который построил алгоритм построения человека является универсальным?

Должен ли универсальный алгоритм работать как человеческий мозг?
Должен ли универсальный алгоритм построить алгоритм который будет работать как человеческий мозг?
тролль детектед

Ну если по проще:
Должны ли мы требовать от нашего универсального алгоритма распознавания речи чтобы он сразу после включения работал не хуже чем человеческое ухо? Или же мы должны от него требовать чтобы он прошел все стадии эволюции и изобрел человеческое ухо?

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 5:14

Цитата:

Автор: Артем
Я понимаю стремление victorist и rr3 перейти к некому универсальному алгоритму.
Но, во первых, те в кавычках "универсальные алгоритмы" которые я знаю работают с бинаризированными данными (онтологии) и не являются на самом деле универсальными (экспертные системы)...

В моей ветке Солянка, возможно есть ответы для Вас. Я понимаю, что лень читать, а тем более вникать, но тем не менее
http://www.gotai.net/forum/default.aspx?postid=73078#73078
. По крайней мере это ближе (на мой не просвещенный взгляд) к тому о чем говорит тема форума и то к чему якобы стремится и автор самой данной ветки (но когда-то в отдаленном будущем, беда только в том, что это самообман, это будущее само не придет).
(Хочу уточнить, я рекламирую, но не себя, а идеи!!!)

Истин не глаголю, только свое мнение!!!

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 5:20

Цитата:

Автор: Артем
Ну если по проще:
Должны ли мы требовать от нашего универсального алгоритма распознавания речи чтобы он сразу после включения работал не хуже чем человеческое ухо? Или же мы должны от него требовать чтобы он прошел все стадии эволюции и изобрел человеческое ухо?

И не то и не другое, а третье. Вновь рожденный мозг младенца не проходит стадии "изобретения" уха. А преобразование звуков в текст на компе гораздо (не сравнимо) проще чем то, что с ним происходит, когда он учится говорить (понимать). Применение термина "универсальный алгоритм" допустимо только в очень, очень, очень широком смысле. "Философского камня" нет, все гораздо проще (хотя проявления в процессе функционирования могут быть и очень сложными)!

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 5:25

Цитата:

Автор: rrr3
И не то и не другое, а третье. Вновь рожденный мозг младенца не проходит стадии "изобретения" уха.

Это говорит о том что для построения человеческого уха мы все-таки можем себе позволить импользовать небольшое число магических констант. Или хотя-бы жестко заданную структуру вроде задания количества и свойств нескольких слоев.

[Ответ][Цитата]

rrr3
Сообщений: 11857

На: Проект Sound-Agent. Зри в корень!

Добавлено: 09 авг 13 5:34

Цитата:

Автор: Артем
Это говорит о том что для построения человеческого уха мы все-таки можем себе позволить импользовать небольшое число магических констант. Или хотя-бы жестко заданную структуру вроде задания количества и свойств нескольких слоев.

Не понимаю откуда такие выводы. Они могли быть не сложнее, но в другом плане. Не знаю Магических констант и тем более Жестко заданную структуру и тем более в виде Строгих "слоев" (без образующейся иерархии в процессе).

[Ответ][Цитата]

Стр.45 (78): 1 ... 41 42 43 44 [45] 46 47 48 49 ... 78

<< < Пред. | След. > >>

Форум: Проблемы искусственного интеллекта