GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.29 (78)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Проект Sound-Agent. Инструментарий. Эксперимент.
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:32
Артём, тогда вникни в слова - нейросеть ето средство статистической обработки информации. Подчеркну слово статистической. Может пригодиться. В простейшем смыле статистика даёт возможность выделить общее среди кучи разного. Также и со звуком можно поступить как для синтеза так и для распознавания. Я не силён в терминологии типо "паттерны","октавы","сэмплы", читал о них поверхностно, но, выделить нужно отличительные черты сигнала в пределах некоторого пакета байт (кадра), такие как частота, амплитуда, последовательность ну и всё остальное что может охарактеризовать сигнал(кадр) в единицу времени, например 25мс(или мсек?). Далее сверить каждый кадр с запомненным и получить совпадения с тем или иным сигналом теми или иными статистическими методами(просто процентное сходство тоже подойдёт), с тем или иным кадром, с той или иной последовательностью указывающей например на ту или иную букву, в итоге наверняка наибольшее количество совпадений кадров будет давать в каждый момент времени результат указывающий на наиболее вероятную в данный момент времени последовательность кадров в памяти. Которую можно же разобрать на буквы на пример.
Это только моё мнение как сделал бы я, займись я сейчас подобным проектом. Но на практике не реализовывал и не испытывал подобный метод, по тому не могу утверждать что я прав или пишу правдивые строки, которые могут помочь.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:45
Цитата:
Автор: Артем

ЧОТ падает когда напряжение мышц голосовых связок уменьшается.
ЧОТ растет когда напряжение мышц увеличивается.


Спасибо, капитан Очевидность!
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:50
Цитата:
Автор: гость
Но на практике не реализовывал и не испытывал подобный метод, по тому не могу утверждать что я прав или пишу правдивые строки, которые могут помочь.

Правильно мыслите. На данный момент есть кадр - это множество частот спектра за 40 мс.
Способ получения этого множества - какой-то, его можно критиковать, что и делает Артем.
Есть еще набор этих кадров в слове.
Есть алгоритм сравнения кадров и запоминание в некую общую память уникальной реализации кадра.
Есть анализ числа повторений одинаковых кадров.
Есть сортировка кадров по повторяемости.
Если говорить о распознавании кадра - то задача решена.
Распознавание кадра это доставание его из уникального хранилища.
Но кадр - это слишком малая часть речевого потока. Необходимо искать закономерности в чередующихся кадрах. И на основе этих закономерностей формировать еще какое-то хранилище этих фактов. Этого нет пока. Почему? Потому что качество сравнения двух кадров - плохое. Его надо адаптировать опять же на основе закономерностей отдельных частей кадра. Что мы и пытаемся делать.
Части кадра - описывают как-то гласную, согласную, ЧОТ и т.д.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 6:55
Изменено: 28 окт 13 6:38, автор изменений: Kek
Именно на нейросетях я и делал 15 лет назад.
Но проблема в том что нейросети надо обучать.
И вторая проблема в том что они могут переобучиться.

Для изучения сигнала как явления хорошо подходят докомпьютерные термины. Типа форманты и гармоники. Это для наведения порядка в собственной голове.

Ладно. Попытаюсь сформулировать свое видение.
Я сторонник random-based алгоритмов.
В мозгу что происходит? сумасшедшее количество каких-попало фильтров, выходы которых являются входами других и т.д.
Их просто миллионы. Это только для слуха.
Организация этих фильтров - это рандом + генетическая обусловленность.
Т.е. в большом числе фильтров есть какие-то общие генетически обусловленные доминанты.

Вот идея насыпать фильтров (но мы то не дураки! мы же знаем какие фильтры важнее!)
И выходы фильтров должны быть бинаризованы да/нет.
Критика нейросетей часто основана на том что энергетически невозможно подобное устройство в мозгу (перегреется).

пример фильтров с бинаризованным выходом.
ЧОТ растет? (да/нет)
Амплитуда растет? (да/нет)
ФильтрA дает на выходе амплитуду больше чем ФильтрБ (доминирует) ? (да/нет)

таким образом строим десятки или сотни бинаризованных выходов.

Далее интересней.
Часть из этих фильтров имеют коррелированый выход.
Т.е. если А и Б то вероятно С.
Такие коррелированные связи можно найти автоматически. Без учителя.

Следующий слой объединяет коррелированные входы и разъединяет некоррелированные выходы.

Много слов. Но как-то я идею изложил.
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 7:12
и все-таки продолжку.
Итак мы заметили коррелрованность A B и C.
Они часто срабатывают одновременно.
Обзовем их A1 A2 и A3
следующий слой имеет B1 = A1&A2&A3.
Т.е. B1 дает на выходе (да) при условии одновременного срабатывания A1 A2 и A3.

а дальше читаем алгоритм Random Forest
http://habrahabr.ru/post/166567/
http://ru.wikipedia.org/wiki/Random_forest
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 8:11
КЕК
* уникальной реализации кадра*
Меня смутила уникальность кадра. если использовать слишком уникальные кадры можно не добиться совпадения никогда, если частота дискретизации или как её там хотяб 4000 бит в секунду. 4000 бит ето же число длинной в 4000 символов, а комбинаций таких чисел больше чем звёзд во вселенной.
*Есть еще набор этих кадров в слове. Есть анализ числа повторений одинаковых кадров.* то что я предложил не предполагает наличия слов, даже абстрактных, так как слово получается из непостоянного числа байт. Просто ето не объяснить.. одномерный массив представиш надеюсь - поиск входящего сигнала как поиск каждого отдельного кадра среди последовательностией кадров в одномерном массиве. Входящий кадр можно сравнить с каждым кадром в памяти и неважно сколько их там и в каком порядке, можно уникальными их сделать. при сравнении кадр даст максимальное совпадение с некоторыми кадрами в памяти, и так каждый следующий кадр и в определённый момент времени комбинация совпадений допустим как "чисто для примера (номер кадра в памяти/%сходства) - 1/37% 2/20% 3/90% 21/40% 40/56%" + совпадение процентное последовательности с какой либо из запомненных будет являться какбы кодом результата указывающим на него.
*Что мы и пытаемся делать* Не вариант совсем кадр воспринимать просто как последовательность байт без задних мыслей о свойствах звука и прочих ЧОТ образующих букву? Свойства звука от этого не изменятся, а вот количество идей и способов обработки информации может увеличиться.
Какбы складывается впечатление что вы хотите букву со всей её хаотичностью запихнуть в жёсткие рамки звуковой последовательности с точным сравнением без отклонений, но это по моему неправильное направление мысли.
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 8:21
*нейросети надо обучать.* необязательно если это не совсем нейросеть или необучаемая нейросеть или просто иной вид статистического анализатора, работающий похоже, по резултату но иначе по внутреннему устройству.
*Их просто миллионы. Это только для слуха.* это ошибочное мнение, фильтр един - слишком интенсивное воздействие притупляет чувствительность. Всё.
*Вот идея насыпать фильтров (но мы то не дураки! мы же знаем какие фильтры важнее!)
И выходы фильтров должны быть бинаризованы да/нет.* Те самые фильтры которые ты хочеш реализовать дают результат внешнего проявления деятельности мозга? тогда ты можеш ошибиться, по тому как таких фильтров в голове нет, это побочный эффект взаимодействия всех составляющих мозга, а не только действия слухового центра.
Бинарные выходы тоже по моему чтото неочень перспективно выглядят, сложно и некрасиво.

то что я предложил, можно не обучать в прямом смысле слова, а дать нейкий эталонный набор звуков состовляющий речь, который потом корректировать. останутся только связи с последовательностями, и основное на мой взгляд что нужно ето последовательности размазать, чтобы небыл для программы острым(болезненным) переход от одного звука к другому.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 8:40
Цитата:
Автор: гость

КЕК
* уникальной реализации кадра*
Меня смутила уникальность кадра. если использовать слишком уникальные кадры можно не добиться совпадения никогда,

Сравнение одномерных массивов может быть разным. Это предмет исследования. Совпадение абсолютное - редкое, но обозримое явление - я этот проверял. Критерий совпадения одномерных массивов может быть с ошибкой, например массивы совпадают, если не совпадает 10% элементов. В этом случае уникальность - условная и количество совпадений резко возрастает - я это проверял.
А теперь я говорю о том, что это критерий совпадения с ошибкой в 10% тоже не хорош. Почему? Да потому что он не учитывает где находятся несовпадающие элементы в массиве. А расположение элементов-характеристическая штука - это частоты...
[Ответ][Цитата]
Артем
Сообщений: 174
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 8:56
Цитата:
Бинарные выходы тоже по моему чтото неочень перспективно выглядят, сложно и некрасиво.


Есть мнение что разные части мозга устроены по разному.
Разный размер нейронов, разное устройство и разные характеристики функциональности нейронов, разная организация слоев и т.д..
Вот это и есть генетическая обусловленность.

Ближе к уху нейроны оргнизованны как фильтры. И они возбуждаются (получают энергию) непосредственно от звука (преобразуется механическая энергия в электро-химическую )
А вот в высшей нервной деятельности - там побольшей части бинарные нейроны. Так как срабатывают они реже и получают энергию от других сработавших нейронов.

Скажите "Гость", а вы не хотите поучаствовать в проэкте? Попрограммировать? Показать эффективность какой-то своей нейросети?
Лично я сознательно говорю нейросетям "нет". Пока "нет".
Хотя проводить аналогии с нейросетями никто не мешает.

Что касается паттернов. Да, если мы НЕПРАВИЛЬНО говорим о паттернах то скоро начнем говорить о всяких "переходных" процессах, сглаживаниях и усреднениях.
Этого надо бы избежать. Поэтому я и хочу бинаризировать.
И я не хочу анализировать слепок в момент T0.
Я бы хотел построить алгоритм, в ДНК которого вшито понятие время (или изменение во времени).

Какая связь между распознаванием и синтезом?
Принцип минимальной длины описания МДО.
Хорошая теория описывает процесс лучше и короче.

Пример1:
Кинем камень в воздухе. Куда он полетит? Это можно описать короткой формулой, зависящей от начальной скорости камня, ускорения гравитации, направления и силы ветра и т.д.
Т.е. если измерить несколько параметров в начальный момент полета камня - дальше все понятно.
Со звуками тоже так можно и нужно.

Пример 2:
Кинем камень в воду. Пойдут волны, они отразятся от берегов, потом еще раз и т.д.
Быстро возникнет хаос. Но сначала-то волны расходятся кругами! И если мы имеем модель, то мы понимаем что все эти волны можно описать одним-единственным камнем.
[Ответ][Цитата]
Kek
Сообщений: 1133
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 10:10
Коллеги, нужны озвученные русские слова в формате WAV или MP3
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 10:47
Цитата:
Автор: Kek

Коллеги, нужны озвученные русские слова в формате WAV или MP3

Единым массивом наверное и не найти. А если поодиночке - я пользуюсь ресурсом forvo - очень полезно в изучении инязыков на слух, там и русский есть.
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 10:48
Примерно что я имел в виду http://rusfolder.com/37275288 тут подробно раскоментированный исходник.
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 10:58
* а вы не хотите поучаствовать в проэкте*
нет.
*Показать эффективность какой-то своей нейросети?*
нет.
*Хотя проводить аналогии с нейросетями никто не мешает.*
Только аналогия.
*вшито понятие время*
задаётся частотой обработки информации. Чем быстрее обработка тем медленнее время и наоборот.
*Пример 1, Пример 2*
Попытка векторизации звуков?
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 11:00
средний разговорный словарик около 10 000 слов. Тебе сколько надо?
[Ответ][Цитата]
гость
31.181.64.*
На: Проект Sound-Agent. Инструментарий. Эксперимент.
Добавлено: 17 июл 13 11:09
*массивы совпадают, если не совпадает 10% элементов*
нет, если есть разница значит они не совпадают и иначе быть не может, нужно значит найти наиболее похожий, а не урезать точность сравнения.
*А расположение элементов-характеристическая штука - это частоты* совпадения элементов можно замерять маленькими порциями, чем меньше массив тем менее важен порядок его элементов. В идеале замер сопадений нужен по одному байту.
Эм.. Если каждому байту соответствует набор, допустим символов, то по степени сходства байтов символы можно урезать, а не накапливать пока не останется один на который указал бы каждый новый байт.
И тогда программа сможет описать любой звук. Не именно речь, а вообще любой звук.
[Ответ][Цитата]
 Стр.29 (78)1  ...  25  26  27  28  [29]  30  31  32  33  ...  78<< < Пред. | След. > >>