GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.16 (18)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: ML battle
Egg
Сообщений: 8160
На: ML battle
Добавлено: 07 янв 17 11:13
Цитата:
Автор: гость
Как накрутите ниже 0.67 хотя бы ниже 0.68, тогда и поговорим

Вряд ли у меня это получится в обозримом времени. Если придет интересная идея - может быть, а пока я не знаю, как к этим данным подступиться.
[Ответ][Цитата]
mserg
Сообщений: 248
На: ML battle
Добавлено: 07 янв 17 11:22
Изменено: 07 янв 17 11:23
Цитата:
Автор: Сергей Гаврилов

это по определению, я имел в виду как из 0.689 Вы получили 9% и наоборот
вот это:

inv_logloss - это просто обратная функция для logloss, получается с помощью численных методов с помощью функции optim.
Соответственно, 1-inv_logloss(0.689) будет величиной ошибки.

Аналогично для точности (по моему определению, где 50% ошибки это ноль, а 0% ошибки это 100% точности), вычисляем:
(inv_logloss(0.689)-0.5)*200
Или по другому, через ошибку
(inv_logloss(0.689)-0.5)*200 = (0.5-(1-inv_logloss(0.689)))*200 = (0.5-ошибка)*2*100%
[Ответ][Цитата]
mserg
Сообщений: 248
На: ML battle
Добавлено: 08 янв 17 3:22
Цитата:
Автор: Сергей Гаврилов
...

Ещё может быть что именно на этом сайте как то логлос считают мутно, всё таки валидационная выборка не доступна что бы проверить, у меня на тестовом сабсете логлос примерно 0.69150 +-50 и ~47.5% ошибки а у них на сайте это 0.689


Припомнил, как организаторы соревнований защищаются от разного рода данных из будущего.
Например, чтобы по тестовым/проверочным данным не могли использовать статистику, в тестовое множество вливают случайно сгенерированные строки. Статистика тестовых/проверочных данных "исчезает".

Не исключено, что в обучающие данные подмешали какой-то мусор. В результате при обучении результат неважный, а на их сайте - результат гораздо лучше.

Это просто еще одна гипотеза относительно значительных различий (0.69150 на обучающих данных и 0.689 на тестовых). Вкрапленный в обучающие данные мусор портит результат на обучающих данных.

[Ответ][Цитата]
гость
93.115.95.*
На: ML battle
Добавлено: 08 янв 17 3:22
Цитата:
Автор: гость

Советую посетить сайт http://www.mql5.com/
У визарда с mql5 0.686 https://numer.ai/ai/vizard не фонтан но получще чем у здешней публики
[Ответ][Цитата]
dr2chek
Сообщений: 773
На: ML battle
Добавлено: 08 янв 17 3:42
Тут один гость недавно привел матрицу X-Y координат точек из обучающей выборки для всех фич (1-50). Которые выглядят как эллипсы, этакие галактики Андромеды. Еще интереснее становится, если точки раскрасить в соответствии с таргетом. Получается довольно-таки равномерное перемешивание цветов и тренд (границу) невозможно выделить, но если увеличить центральную область, до области 0,1х0,1, то помимо шумового разброса встречаются "ниточки", составленные из одного цвета с вкраплениями другого Практического применения этому вряд-ли можно найти, но забавно.
[Ответ][Цитата]
гость
195.154.49.*
На: ML battle
Добавлено: 08 янв 17 4:13
Цитата:
Автор: dr2chek

Тут один гость недавно привел матрицу X-Y координат точек из обучающей выборки для всех фич (1-50). Которые выглядят как эллипсы, этакие галактики Андромеды. Еще интереснее становится, если точки раскрасить в соответствии с таргетом. Получается довольно-таки равномерное перемешивание цветов и тренд (границу) невозможно выделить, но если увеличить центральную область, до области 0,1х0,1, то помимо шумового разброса встречаются "ниточки", составленные из одного цвета с вкраплениями другого Практического применения этому вряд-ли можно найти, но забавно.
Покажите ниточки! Практическое применение как раз можно придумать! Например попробовать DBscan-ом вырезать, может эти ниточки и есть суть этих данных!
[Ответ][Цитата]
mserg
Сообщений: 248
На: ML battle
Добавлено: 08 янв 17 4:34
Присоединяюсь к просьбе 195.154.49.*

Любые найденные закономерности, при соответствующем техническом оснащении, можно использовать.

Ни-точ-ки! Ни-точ-ки! Ни-точ-ки!
Про-сим! Про-сим!
[Ответ][Цитата]
dr2chek
Сообщений: 773
На: ML battle
Добавлено: 08 янв 17 4:38
Изменено: 08 янв 17 4:55
Вот, например:

Но это всего-лишь коварное проявление шума.
А вот целиком эллипс: ось Y- фича1, ось X - фича2 из обучающего датасета от 4 января. Здесь все одним цветом, все 136500 точек.
[Ответ][Цитата]
mserg
Сообщений: 248
На: ML battle
Добавлено: 08 янв 17 6:49
Баловство конечно, но напрашивается наложение точек из тестового файла третьим цветом (черным, например)
[Ответ][Цитата]
гость
195.154.49.*
На: ML battle
Добавлено: 08 янв 17 6:57
Цитата:
Автор: mserg

Баловство конечно, но напрашивается наложение точек из тестового файла третьим цветом (черным, например)
Ну почему баловство, такие визуализации показывают фактуру данных, затем как например в данном случае, если данные содержат некие структуры как например гипотетические ниточки заявленные ув. dr2chek или нечто подобное можно принимать решение о специфических манипуляциях для улучшения классификации. Видеть как тестовое облако расположено относительно учебного также очень важно.
[Ответ][Цитата]
гость
37.187.129.*
На: ML battle
Добавлено: 08 янв 17 7:26
Интересно было бы повращать это облако раскрашенное таргетом, в N-d пространстве, в проекции на 2-d для визуализации, с возможностью масштабировать интересующие области облака. Но наверно это вычислительно дорого, в реалтайме не получится.
[Ответ][Цитата]
dr2chek
Сообщений: 773
На: ML battle
Добавлено: 08 янв 17 8:20
Цитата:
Автор: mserg

Баловство конечно, но напрашивается наложение точек из тестового файла третьим цветом (черным, например)

Наложил (наклал?) Но ничего интересного, т.к. их в 10 раз меньше, такие редкие точки в красно-синем пространстве. Но форма эллипса совпадает (и на этом спасибо, так сказать)
[Ответ][Цитата]
dr2chek
Сообщений: 773
На: ML battle
Добавлено: 08 янв 17 8:24
Цитата:
Автор: гость

гипотетические ниточки заявленные ув. dr2chek

Друзья мои, я же говорил о ниточках в равномерном шумовом фоне. Возьмите карандаш и соедините ближайшие точки в том распределении, увидите ячеистую структуру. Может надо было сказать не "ниточки" а цепочки, не обессудьте.
[Ответ][Цитата]
гость
195.154.49.*
На: ML battle
Добавлено: 08 янв 17 8:37
Цитата:
Автор: dr2chek


Друзья мои, я же говорил о ниточках в равномерном шумовом фоне. Возьмите карандаш и соедините ближайшие точки в том распределении, увидите ячеистую структуру. Может надо было сказать не "ниточки" а цепочки, не обессудьте.
Ясно, это конечно не совсем ниточки, а просто неравномерности пропорций красных и синих.
такое берут многие нелинейные классификаторы, лишь бы эта неравномерность бала такая же в лерне и тесте
[Ответ][Цитата]
dr2chek
Сообщений: 773
На: ML battle
Добавлено: 08 янв 17 8:56
лерн - красный, тест - синий, данные те же. Тенденция налицо.
[Ответ][Цитата]
 Стр.16 (18)1  ...  12  13  14  15  [16]  17  18<< < Пред. | След. > >>