GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.2 (4)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Результатам какого обучения верить?
mserg
Сообщений: 258
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 2:59
Классика жанра следующая
1. Исходные данные делятся на:
а – обучающие – данные, на которых происходит обучение
б – тестовые – данные, на которых происходит проверка обучения и коррекция настроек (настройки, как правило, делаются для снижения эффекта «переобучения»)
в – проверочные – данные, на которых происходит собственно проверка. Проверочные данные, как правило, это наиболее поздние во времени (последний месяц, квартал и т.д.)
Некоторые системы сами в ходе обучения умеют делить данные на обучающие и тестовые (например, «фолдинг»)

2. Нужно задать критерий точности. Прогноз, это, как правило – много значений. При обучении и проверке у нас есть «прогноз» и «фактические значения». Критерий точности есть некоторая формула, которая показывает близость прогноза к фактическим значениям. Вид формулы очень важен, и зависит от цели прогнозирования.

3. Надежность достигается с помощью тестовых и проверочных данных. Выбирать, в конце концов, нужно те настройки, которые дают наилучшее значения критерия (2) для проверочных данных.

PS. 4. Нейросети в подобных задачах дают относительно плохой результат. Могу предположить, что один из наиболее подходящих методов для данной задачи - регрессионные деревья.
А вообще, пробуют все возможные методы/алгоритмы, и выбирают наилучший. Наличие библиотек для языков R и Python сильно удешевляют этот процесс.
Еще один способ достижения достоверности и точности – задачей должны заняться некоторое количество людей больше 1 – каждый будет пытаться найти свою методу, и можно будет выбрать наилучшую.
По правде говоря, есть очень много способов обосраться на подобного вида задаче. Например, есть проблеме Leakage – на тестовых данных все отлично работает, а в реальности нет. Поэтому, начинать лучше с опытными товарищами.
[Ответ][Цитата]
гость
78.25.123.*
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 3:15
> Leakage

да, новые данные могут оказаться порожденными с влиянием тех факторов, которые были слабо отображены в данных обучения - контекст тоже можно как-то мониторить и строить
прогноз ошибки прогноза.. выход за границы допустимой (предполагаемой) ошибки есть
сигнал для ориентировочных реакций и ревизий разного уровня глубины.
[Ответ][Цитата]
гость
78.25.123.*
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 3:20
к.> посоветовать по SPSS?

а что? ну, почитать руковоство и теоретические основы реализованных методов..

вцелом тут проблема более методологическая, того, как использовать инструмент с умом..

вообще странно, что столь уважаемый пакет не имеет встроенной ЭС для консультации по
базовым вопросам..
[Ответ][Цитата]
mserg
Сообщений: 258
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 7:53
Обычно под Leakage (утечкой данных) понимаются сведения «из будущего», либо непредумышленное внесение дополнительной информации при сборе данных.

Например, продажи зависят от погоды, и при обучении используются фактические данные по погоде. В действительности будет использоваться прогноз погоды, который неточен. Т.е. при обучении использовались данные из будущего.

Другой пример, связанный со сбором данных. Например, тестовые и проверочные данные могут быть невзначай отсортированы по объемам продаж. Обучающийся алгоритм это может неявно обнаружить и использовать … в тесте будет отличная точность, а в реальности…
[Ответ][Цитата]
гость
78.25.120.*
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 8:15
ну, понимать 'утечку' можно и как дефицит информации об объекте в массиве данных о нем - прогноз на основе заведомо неполной модели по необходимости будет иметь горизонт - плохой прогноз даже 'на один шаг' говорит только о том, что даже если
модель 'хорошая', но горизонт прогноза слишком близок.

привнесение в модель дополнительной информации (как-то компенсирующей неполноту данных), напр. через способы их 'регуляризации', критерии 'приемлемости' модели это
тоже 'протечка'. Можно отфильтровать выбросы - увеличим горизонт, но выбросы могут оказаться неслучайными. Потеряли одну информацию и привнесли другую.

использование неадекватных данных (прогноз погоды вместо фактических данных) это как
раз та 'протечка', когда в модель вносится дополнительная погрешность, дополнительные корелляции, которые модель не отображает.

да, иногда можно внести столь сильную корелляцию путем предобработки что модель настроится на нее, а все прочее (целевое) может посчитать погрешностью..
[Ответ][Цитата]
mserg
Сообщений: 258
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 10:03
Leakage - это, как мне кажется, более-менее устоявшееся понятие:
http://dstillery.com/wp-content/uploads/2014/05/Leakage-in-Data-Mining-Formulation-Detection-and-Avoidance.pdf

В прочем, ни на чем не настаиваю.
[Ответ][Цитата]
гость
78.25.120.*
На: Результатам какого обучения верить?
Добавлено: 20 авг 14 22:35
любой термин можно употреблять в узкоспециальном смысле или в расширенном смысле.

в настоящем разговоре уместно говорить о 'строгом' 'утекании' и обо всем что вокруг
этого явления в любом узком понимании.
[Ответ][Цитата]
mserg
Сообщений: 258
На: Результатам какого обучения верить?
Добавлено: 21 авг 14 4:16
Вы в своем праве, и можете использовать термин «утечка в расширенном смысле».

Но нельзя ли увидеть какое-нибудь количество научных статей (например, 3 штуки), где бы использовался термин «утечки в расширенном смысле»?
[Ответ][Цитата]
гость
78.25.122.*
На: Результатам какого обучения верить?
Добавлено: 22 авг 14 1:25
что вам мешает написать эти статьи или иметь в виду 'все возможные' (включая ненаписанные) статьи? cодержание теримина НИКОГДА не фиксировано категорически.
Еще раз - если упомянута протечка в строгом смысле, то сам смысл ситуации (общей ориентировки) требует упоминания и всего протечка-подобного чтобы не было деформации
представления.
[Ответ][Цитата]
mserg
Сообщений: 258
На: Результатам какого обучения верить?
Добавлено: 22 авг 14 5:26
Не могли бы Вы дополнить свои утверждения ссылками на научные работы (на примере leakage в Data Mining)?
[Ответ][Цитата]
Валентин
Сообщений: 4536
На: Результатам какого обучения верить?
Добавлено: 22 авг 14 6:19
Цитата:
Автор: ketchup555 Определяла перечень характеристик проектная группа экспертов в области торговли и аналитиков. Причем, в конечном счете, не все переменные были включены в модель. Они были отобраны в результате линейного корреляционного анализа.

- А не пробовали привлечь хорошего аналитика и по его прогнозам верифицировать модель и сравнить с практикой?
Я понимаю, что хороший аналитик лучше любого СПСС и что он на вес золота, но геморрой с системой не лучше!
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Результатам какого обучения верить?
Добавлено: 22 авг 14 6:23
Цитата:
Автор: Валентин
- А не пробовали привлечь хорошего аналитика и по его прогнозам верифицировать модель и сравнить с практикой?
Я понимаю, что хороший аналитик лучше любого СПСС и что он на вес золота, но геморрой с системой не лучше!

Советовали, не действует...
[Ответ][Цитата]
Валентин
Сообщений: 4536
На: Результатам какого обучения верить?
Добавлено: 22 авг 14 6:33
Ну, им интересно! И нам.
[Ответ][Цитата]
гость
78.25.120.*
На: Результатам какого обучения верить?
Добавлено: 23 авг 14 3:28
> cсылками

есть такая штука - называется посковая машина.

еще раз - можно найти РАЗНОЕ понимание и по-разному итерпретировать эффекты 'протечки',
НИЧТО не мешает модифицировать значение термина, в разных источниках НАВЕРНЯКА используется больший круг значений, чем узкий. ПРиведенные вами примеры не исчерпывают
эффекта 'проникновения' иррелевантной информации в данные. Я упомянул отбрасывание
выбросов - по смыслу это не отличается от эффектов некорректного предупорядоточения.
(хотя вцелом я имел в иду более общие вещи.) Вообще, причина 'протечки' может быть трудно идентифицируемой - скажем, когда есть зависимость результата обучения от порядка предъявления обучающих примеров.
[Ответ][Цитата]
гость
78.25.120.*
На: Результатам какого обучения верить?
Добавлено: 23 авг 14 3:35
не говоря уже что есть и домен значений из области конфиденциальности..
[Ответ][Цитата]
 Стр.2 (4)1  [2]  3  4<< < Пред. | След. > >>