Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.40 (78) << < Пред. | След. > >> Поиск:

Автор Тема: На: Проект Sound-Agent. Зри в корень!

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 12:02

Цитата:
Автор: Tester64

Аудиокниг хорошего качество много... многие без музыки... многие всего с одним голосом...
Но что вы хотите в них найти??? Ститистику по частотам? Повторяющиеся блоки? Конкретные блоки/фонемы - по образцам?

Я выбрал книгу без музыки. С одним голосом. беда в том что аудиокниги без музыки всегда с одним мужским голосом.

Ну допустим !!!

Накручу программу которая хавает все файлы из папки. и собирает статистику X по всем файлам и по каждому в отдельности.

Для начала я хочу уйти от фурье. И делать гребенку фильтров с разной частотой и полосой пропускания.
Тут можно собрать статистику по самим фильтрам, по фильтрам победителям, по взамосвязи победителей во времени (много чего...)

Предлагайте какую статистику собрать?

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 12:12

Цитата:
Автор: Артем

Предлагайте какую статистику собрать?

Предлагаю сначала определиться с задачей

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 13:51

Цитата:
Автор: Slava
Предлагаю сначала определиться с задачей

Есть предложения?

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 13:52

Распознавание речи. Вот задача.

[Ответ][Цитата]

Tester64
Сообщений: 1910

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 14:23

Цитата:
Для начала я хочу уйти от фурье. И делать гребенку фильтров с разной частотой и полосой пропускания.

А к кому хотите уйти? Фурье - математический метод (считается достаточно надежным) для простого разложения звука на набор частот. Возможно (вроде на матане учили) есть другие методы, но насколько я понимаю - это война скорости и приближенности/точности, а не качества и принципиального отличия результатов. Возможно еще и скорости получения результата (прцессорная нагрузка). Получите гребенку частот, значение амплитуды на каждой частоте в текущем "кадре" (если по методике КеКа)... и? Запишете в файл каждый кадр? Дальше что?

Цитата:
Тут можно собрать статистику по самим фильтрам, по фильтрам победителям, по взамосвязи победителей во времени (много чего...)

Предлагайте какую статистику собрать?
Да никакую! Нужна Вам статистика использования разных частот конкретно этого голоса надиктованого конкретно в этот микрофон в нейтрально-надиктовывающем настроении? Или средняя длина слов судя по понижению амплитуды во времени? Сначала поймайте что-нибудь на малом отрезке голоса...

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 14:36

От Фурье к полосовым фильтрам хочу уйти. Конечно Фурье - метод хороший.
Но если мы берем например Фурье с кадром 40 мс и окном хэмминга при частоте дискретизации 12 кгц, то мы накладываем на результат математическое виденье.
Разрешение по частотам 25 гц - это слишком часто и РАВНОМЕРНО.
А вот полосовые фильтры можно настроить неравномерно. С разной полосой пропускания.
Конечно,конечно, можно это получить путем усреднения и из фурье, но!
Фурье - то блочное! почему 40 мс? почему не 5? и т.д. и т.п.
Шкала Мел говорит о том что разбор на разных частотах должен быть в разных диапазонах.
Гласная буква длится 40 мс. Допустим. Но согласная взрывная - 5 мс.
Как быть?

А по поводу одного диктора - ну чтож, в будущем можно и других дикторов добавить, а пока и на одном дикторе сойдет.

[Ответ][Цитата]

ЭСГТР
Сообщений: 8461

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 22:31

Цитата:
Автор: Артем

От Фурье к полосовым фильтрам хочу уйти. Конечно Фурье - метод хороший.
Но если мы берем например Фурье с кадром 40 мс и окном хэмминга при частоте дискретизации 12 кгц, то мы накладываем на результат математическое виденье.
Разрешение по частотам 25 гц - это слишком часто и РАВНОМЕРНО.
А вот полосовые фильтры можно настроить неравномерно. С разной полосой пропускания.
Конечно,конечно, можно это получить путем усреднения и из фурье, но!
Фурье - то блочное! почему 40 мс? почему не 5? и т.д. и т.п.
Шкала Мел говорит о том что разбор на разных частотах должен быть в разных диапазонах.
Гласная буква длится 40 мс. Допустим. Но согласная взрывная - 5 мс.
Как быть?

А по поводу одного диктора - ну чтож, в будущем можно и других дикторов добавить, а пока и на одном дикторе сойдет.
Как глаз не распознаёт 25 кадр, так и ухо не распознаёт короткий звук... Нужно просто определиться с длительностью. Принцип один.

[Ответ][Цитата]

гость
78.25.123.*

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 23:53

дружно читаем про прайминг-эффекты.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Зри в корень!
Добавлено: 03 авг 13 23:58

Отлично, обсуждение вошло в конструктивное русло! Тролли – пока под мостом.
(2Артем & 2Слава). Давайте сформулируем тезис, который высказал кажется Tester64: «хорошая визуализация никому не повредит». Визуализацию можно понять и шире – статистика, то что делает Артем. Все это для выявления закономерностей речевого потока. Все это инструментарий, который полезен сам по себе, даже вне сверхзадачи.
Теперь про сверхзадачу. Мое виденье, я говорил об этом не раз.

Поток --> Элементарный кластер --> Новизна --> Память --> Ограничения

Критерий заполнения памяти --> структурирование элементарного кластера --> новая память

Рекурсия…

Дальше пока не буду рисовать. Вот схема. Вот это я хочу проверить – поведение системы, рост структуры памяти.
Какие здесь уже выявились проблемы?
1. Выбор элементарного кластера. В моем проекте – это кадр. Важно то, что этот выбор производится не системой, а разработчиком. Вот поэтому кадр подвергается критике Артемом и это вполне конструктивно.
2. Заметьте – в этой схеме нет никакой предобработки, фильтрации и т.д. Можно говорить о том, что и временной сигнал можно запихивать в систему. Но выбор элементарного кластера все равно останется.
3. Зачем все -таки нужна предобработка? А помехи… Помехи поставляют в систему много новизны. Слишком детализированная кластеризация тому причина. Поэтому идет поиск метода, который бы представил поток в его оптимальном для поиска новизны виде. Что такое оптимальность? Компактность и информативность – взаимоисключающие требования. Критерий компактности – чем меньше тем лучше. Критерий информативности – обращаемость. Именно поэтому я сделал обратный вывод буфера в динамик. Этот критерий можно и нужно критиковать. Он на прямую зависти от правильно поставленной сверхзадачи. Почему? Да потому что, если подзадача – распознавание, то обращаемость потока вроде бы как и не нужна. Кепстральные коэффициенты никак не обращаются, а задачу как-то решают.
Как проверить работоспособность данной схемы, что бы хотелось увидеть?
Идет непрерывный речевой поток. Система в реальном масштабе времени индицирует кластеры. Понятно, что индицировать элементарный кластер не интересно. Предположим, что память системы структурирована под сложный кластер, который есть агрегирование 8-10 элементарных кластеров. Это фонема. Заметьте! Речь не идет о сопоставлении фонема – текст. Речь пока идет о выявлении в непрерывном потоке фонем так, как они представлены в памяти системы.
Мой эксперимент с кадрами показал, что в том виде, в каком сейчас представлен поток сочетание даже двух кадров – редкое событие. Много детализации. Но при этом обращаемость хорошая.
Вот в этих рамках и идет поиск предобработки потока.

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 5:24

Цитата:
Автор: гость
дружно читаем про прайминг-эффекты.

Я не знаю что такое прайминг-эффект, но термин понравился :-) Нельзя ли поподробней?

Кстати Кек, кэпстральные коэффициенты обращаются.
Если кэпстр - это преобразование фурье от логарифма преобразования фурье, и берем первые N коэффициентов но в комплексном виде (т.е. с фазой) - то вполне обращаются.
И фраза про "хорошую визуализацию" - моя. А точнее одного моего учителя.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 7:20

Цитата:
Автор: Kek
Давайте сформулируем тезис, который высказал кажется Tester64: «хорошая визуализация никому не повредит».... Все это для выявления закономерностей речевого потока. Все это инструментарий, который полезен сам по себе, даже вне сверхзадачи.

- отличный тезис, только ведь инструментарий не вообще, а под задачу - иначе сразу возникают микроскопы и гвозди...
Кому-то может показаться, что я занудствую, но, господа, я искренне не понимаю, почему мои многократные призывы сформулировать задачи, которыми хотелось бы заниматься, остаются безответными.
Не хочется думать, что вы этого не умеете

Цитата:
Теперь про сверхзадачу. Мое виденье, я говорил об этом не раз.
Поток --> Элементарный кластер --> Новизна --> Память --> Ограничения
Критерий заполнения памяти --> структурирование элементарного кластера --> новая память
Рекурсия…

Прекрасно, задачи нет, но сверхзадача уже появилась
Я, наверно, снова ничего не понимаю, но на мой взгляд это - не задача, а структура (блок-схема) некого инструмента, который должен делать нечто для чего-то
И здесь - сплошные вопросы теперь уже не только по задаче, но и по функциям -
что такое элементарный кластер?
что такое новизна?
в чем особые функции памяти, если она выделена в отдельный элемент?
что за ограничения?
и т.д. и т.п.
И, не потратив время и силы на ответы, надежд продвинуться нет.

Цитата:
Дальше пока не буду рисовать. Вот схема. Вот это я хочу проверить – поведение системы, рост структуры памяти.

Возьмите семечко, бросьте в землю и поливайте - тут вылезут интересующие вас проблемы
Но почему - не это, а что-то другое? - ответ лишь в том, что задача в подсознании, а надо ее вытянуть в сознание
Этому не учат, но если есть желание - стоит начать

Цитата:
Какие здесь уже выявились проблемы?
1. Выбор элементарного кластера. В моем проекте – это кадр. Важно то, что этот выбор производится не системой, а разработчиком. Вот поэтому кадр подвергается критике Артемом и это вполне конструктивно.

Человек - замечательно, но почему кластер? что он должен представлять? как описываться? и т.д. и т.п. - без привязки к задаче все это не более чем благие пожелания
Более того эти усилия не приближают вас и к постановке той задачи, которой вы хоте ли бы заниматься - созерцание так сказать

Цитата:
2. Заметьте – в этой схеме нет никакой предобработки, фильтрации и т.д. Можно говорить о том, что и временной сигнал можно запихивать в систему. Но выбор элементарного кластера все равно останется.

Допустим - и что из того? тут много чего еще нет, что выяснится лишь тогда, когда станет ясно, что надо иметь в результате, а без этого все это не более чем благие намерения

Цитата:
3. Зачем все -таки нужна предобработка? А помехи… Помехи поставляют в систему много новизны. Слишком детализированная кластеризация тому причина. Поэтому идет поиск метода, который бы представил поток в его оптимальном для поиска новизны виде.

Допустим, я вас понимаю, хотя по сути это не так. Тогда почему вы решили, что то, что вам нужно, находится среди уже известного, и вы можете это найти перебором известного? - а если вы тратите впустую время, так как такого метода еще нет, и вам его надо изобрести?

Цитата:
Что такое оптимальность? Компактность и информативность – взаимоисключающие требования. Критерий компактности – чем меньше тем лучше. Критерий информативности – обращаемость. Именно поэтому я сделал обратный вывод буфера в динамик. Этот критерий можно и нужно критиковать. Он на прямую зависти от правильно поставленной сверхзадачи. Почему? Да потому что, если подзадача – распознавание, то обращаемость потока вроде бы как и не нужна. Кепстральные коэффициенты никак не обращаются, а задачу как-то решают.

Каждое ваше здесь утверждение спорно и вовсе не потому, что хочется спорить, а потому, что та задача, которую вы не можете сформулировать, заведомо не тривиальна

Цитата:
Как проверить работоспособность данной схемы, что бы хотелось увидеть?
Идет непрерывный речевой поток. Система в реальном масштабе времени индицирует кластеры. Понятно, что индицировать элементарный кластер не интересно. Предположим, что память системы структурирована под сложный кластер, который есть агрегирование 8-10 элементарных кластеров. Это фонема. Заметьте! Речь не идет о сопоставлении фонема – текст. Речь пока идет о выявлении в непрерывном потоке фонем так, как они представлены в памяти системы.

Что-то конкретное начинает маячить, но снова - туман

Цитата:
Мой эксперимент с кадрами показал, что в том виде, в каком сейчас представлен поток сочетание даже двух кадров – редкое событие. Много детализации. Но при этом обращаемость хорошая.
Вот в этих рамках и идет поиск предобработки потока.

Разложения функций по разным базисам, аппоксимация ... - вы представляете, сколько возможностей тут представляет классика математики? - и что с этим всем делать? как выбрать нужное? ...
Пока не возникнет хотя бы приблизительного представления о том, чего же вы хотите в результате, все это броуновское движение

Не хотите слушать, так хотя бы почитайте книжки Акоффа и Эмери
В любом случае получите большое удовольствие

И я уверен, что я не один, кто искренне хотел бы вам помочь, но вы для этого должны хоть как-то определиться с задачей, чтобы посторонним было ясно, чего же вы хотите

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 8:02

Цитата:
Автор: Slava
И я уверен, что я не один, кто искренне хотел бы вам помочь, но вы для этого должны хоть как-то определиться с задачей, чтобы посторонним было ясно, чего же вы хотите

Лично я хочу получить визуализацию достаточную для прочтения фонограммы глазами.
После чего буду готов к каким либо алгоритмам ИИ.

И еще я ушел от записи с микрофона в анализ по файлам.
Считаю что этот очевидный шаг вперед давно надо было сделать.

[Ответ][Цитата]

Slava
Сообщений: 3070

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 8:21

Цитата:
Автор: Артем

Лично я хочу получить визуализацию достаточную для прочтения фонограммы глазами.
После чего буду готов к каким либо алгоритмам ИИ.

И еще я ушел от записи с микрофона в анализ по файлам.
Считаю что этот очевидный шаг вперед давно надо было сделать.

Хорошо известно, что "видимую речь", т.е. запись динамической спектрограммы, люди уже давно умели читать
В "Круге первом", в частности, и об этом тоже говорится
Ну а лучше всего, когда при речевом входе на выходе - печатный текст
Где в этом интервале вы хотели бы себя позиционировать?

[Ответ][Цитата]

Артем
Сообщений: 174

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 9:20

Цитата:
Автор: Slava
Хорошо известно, что "видимую речь", т.е. запись динамической спектрограммы, люди уже давно умели читать
В "Круге первом", в частности, и об этом тоже говорится
Ну а лучше всего, когда при речевом входе на выходе - печатный текст
Где в этом интервале вы хотели бы себя позиционировать?

Я тоже плюс-минус читаю фонограмму. Но не очень хорошо.
А вот то что на выходе печатный текст - это уже очень контекстно и языкозависимо.
На данный момент я позиционирую визуализацию фонем.

[Ответ][Цитата]

Kek
Сообщений: 1133

На: Проект Sound-Agent. Зри в корень!
Добавлено: 04 авг 13 9:47

Цитата:
Автор: Slava
...ответ лишь в том, что задача в подсознании, а надо ее вытянуть в сознание
Этому не учат, но если есть желание - стоит начать

Слава, на все ваши вопросы ответить не возможно. Как-то странно вы их задаете. В этих вопросах одно отрицание. Может это такой метод? То что задача в подсознании с этим я соглашусь. И чтобы она вышла в свет надо действовать. Для каждого это происходит по разному. Во всяком случае, я обладая некоторыми навыками эпистолярного жанра, не в состоянии разложить все по полочкам для других. Я надеюсь, что только совокупность действий может привести к решению задачи. И вовсе необязательно чтобы задача была непременно сформулирована. Она так и останется в подсознании, но решение может всплыть.

[Ответ][Цитата]

Стр.40 (78): 1 ... 36 37 38 39 [40] 41 42 43 44 ... 78 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net