GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.12 (19)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: ML battle
гость
148.251.43.*
На: ML battle
Добавлено: 02 янв 17 8:39
рандом на логлосе примерно 0.693, 0.690 - не рандом, это где то 48%(2% лучше рандома) ошибки при более менее правильных вероятностях(0.5 +- 1\20)
[Ответ][Цитата]
гость
62.210.129.*
На: ML battle
Добавлено: 03 янв 17 9:51
Цитата:
Автор: mserg

xgboost с проверкой переобучения
xgboost the best, если он не справился то уже ничего не поможет
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 04 янв 17 19:09
Изменено: 05 янв 17 4:19
Цитата:
Автор: гость

рандом на логлосе примерно 0.693, 0.690 - не рандом, это где то 48%(2% лучше рандома) ошибки при более менее правильных вероятностях(0.5 +- 1\20)


А зачем рандом? Предсказываете константу 0.5 - и все, 0.693.

"Хорошие" результаты на сайте, очевидно, это шулерство.

Данные "для турнира", для которых нужно сделать прогноз, делятся на
* Тестовые - logLoss по ним отображается на доске лидеров
* Проверочные, результат по которым не показываются

Чтобы понять, какое значение в конкретной строке, нужно запостить 2 файла со всеми строками
0.5, и 0 или 1 в целевой строке.

* Случай 1: Результат в обоих случаях 0.693 - строка относится в проверочным данным, узнать значение нельзя
* Случай 2: Результат с файлом с 0 - 0.693, с файлом с 1 - 0.699; это значит, 1 генерирует большую ошибку, и в данной строке 0
* Случай 3: Наоборот, 0 - 0.699, 1 - 0.693; в данной строке 1
Пример сканирующей учетной записи:
https://numer.ai/ai/chondrophorines

Можно заметить, что учетные записи с результатами 0.693 и 0.699 - это (распределенные) роботы, которые закидывают пары файлов для выяснения, к какому множеству относится строка; и если тестовому - выяснить конкретное значение.

Таким образом можно добиться, что результат в logloss будет хоть нулевым.

Может показаться, что это не поможет для получения значений для проверочного множества.
Но это не совсем так, если тестовое и проверочное множество черпалось из одного множества. В этом случае можно построить регуляризацию и повысить точность "прогноза".

UPD. Закинул "прогноз" со 100 нулями, получил 0.852. Учитывая, что единиц и нулей в тестовом множестве примерно одинаково, что один неверный 0-прогноз для тестового множества добавляет 0.06, то нетрудно убедиться, что количество строк тестового и прогнозного множества примерно равно.
Гы-Гы-Гы
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 4:08
Изменено: 05 янв 17 4:11
Указанные проблемы связаны с бизнес-моделью:
https://numer.ai/about
См. диаграмму в разделе "A New Approach".

Прикол еще и в том, что указанный в описании NCVSAI перестал зарабатывать и слинял:
https://numer.ai/ai/ncvsai

"Классификатор", насколько я понял, это выгодность операции покупки или продажи "актива". Поэтому так все хреново.

Не исключено, что у них есть Data Leakage, связанный с возможность неограниченной загрузки прогнозов и статистической связью между тестовыми и проверочными данными.
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 4:25
Изменено: 05 янв 17 4:27
По-моему, они придурки:
https://medium.com/numerai/invisible-super-intelligence-for-the-stock-market-3c64b57b244c#.gkbyfhixe

"Every data scientist on Numerai is solving the same problem using the same underlying features. But every data scientist approaches the problem in their own unique way. With many different solutions to the same problem, Numerai is able to combine each model into a meta model just like Random Forests combines decision trees into a forest."
Насколько я помню, "Random Forests" умеет вычислять значимость каждой переменной - на ней то и основан "вклад" в метамодель и оплата.
[Ответ][Цитата]
гость
176.10.104.*
На: ML battle
Добавлено: 05 янв 17 5:20
Да там собственно и не ясно что классифицируется, толи просто направление будущего ретурна, или что то техническое типа разворотов, “уровней” и тп.
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 5:58
Изменено: 05 янв 17 5:59
Цитата:
Автор: гость

Да там собственно и не ясно что классифицируется, толи просто направление будущего ретурна, или что то техническое типа разворотов, “уровней” и тп.


Да, ихняя бизнес-модель предполагает, что:
"Because Numerai data scientists do not know what our data represents, human biases and overfitting are overcome."

Numerai помогает вам быть объективными
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 6:45
Изменено: 05 янв 17 6:53
А это как раз не поможет, т.к. при сборке значимость (вклад в общую точность) стандартных алгоритмов будет близка нулю.

По-сути, им нужны такие новые features, сконструированные из исходных, которые внесут вклад в их общее решение:
https://cdn-images-1.medium.com/max/1200/1*94UTCSiwFfAblWAGHEXIWw.jpeg
[Ответ][Цитата]
гость
176.10.104.*
На: ML battle
Добавлено: 05 янв 17 7:05
Да но это скорей "супер-фичи", то есть тупо выходы классификаторов которые затем только линейно комбинируются, как например выхдоп одного дерева из леса, сами фичи уже готовы и с ними мало что можно седлать так как перемешаны в кашу с равномерным распределением без структуры
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 7:11
Изменено: 05 янв 17 7:16
Цитата:
Автор: гость

Да но это скорей "супер-фичи", то есть тупо выходы классификаторов которые затем только линейно комбинируются, как например выхдоп одного дерева из леса, сами фичи уже готовы и с ними мало что можно седлать так как перемешаны в кашу с равномерным распределением без структуры


Как это линейно?
"Numerai is able to combine each model into a meta model just like Random Forests combines decision trees into a forest".

Вычисление вклада в точноcть каждой feature в Random Forests - это довольно замороченная штука, как я подозреваю.

Где-то у них написано, что Numerai - не совсем соревнование, т.е. рейтинги до начисления бабла мало что значат - имеет смысл только "META MODEL RANK"
[Ответ][Цитата]
гость
141.0.13.*
На: ML battle
Добавлено: 05 янв 17 7:27
Цитата:
Автор: гость

Да но это скорей "супер-фичи", то есть тупо выходы классификаторов которые затем только линейно комбинируются, как например выхдоп одного дерева из леса, сами фичи уже готовы и с ними мало что можно седлать так как перемешаны в кашу с равномерным распределением без структуры
[Ответ][Цитата]
гость
141.0.13.*
На: ML battle
Добавлено: 05 янв 17 7:28
Цитата:
Автор: гость
сами фичи уже готовы и с ними мало что можно седлать так как перемешаны в кашу с равномерным распределением без структуры

Не, там нормальное распределение. До этого было экспоненциальное со ступеньками (степенное?), что больше похоже на рыночные котировки.
В экзампле, кстати target тоже нормально распределена.
[Ответ][Цитата]
гость
141.0.13.*
На: ML battle
Добавлено: 05 янв 17 7:32
Цитата:
Автор: mserg
UPD. Закинул "прогноз" со 100 нулями, получил 0.852. Учитывая, что единиц и нулей в тестовом множестве примерно одинаково, что один неверный 0-прогноз для тестового множества добавляет 0.06, то нетрудно убедиться, что количество строк тестового и прогнозного множества примерно равно.
Гы-Гы-Гы

Что-то недопонял. Почему 0.06?
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 7:42
Изменено: 05 янв 17 7:43
Цитата:
Автор: гость


Что-то недопонял. Почему 0.06?

А это установлено экспериментально. Формула logLoss дает бесконечность, если не "угадать" и указать в качестве прогноза 0 или 1.

Их сайт принимает такие значения, а это значит что значения прогноза на сайте ограничиваются (обычно от 1e-15 до 1 - 1e-15). Т.е. штраф будет не бесконечность, а какое-нибудь ограниченное число (скажем, 34.5).

Поэтому, поштучно добавляя "прогнозы" в виде 0 или 1 к "прогнозу" со всеми 0.5, получим число 0.699 вместо 0.693. Разница (0.699 - 0.693) и есть прибавка от одного экстремального неправильно прогноза.
[Ответ][Цитата]
гость
62.210.81.*
На: ML battle
Добавлено: 05 янв 17 7:51
Цитата:
Автор: mserg


А это установлено экспериментально. Формула logLoss дает бесконечность, если не "угадать" и указать в качестве прогноза 0 или 1.

Их сайт принимает такие значения, а это значит что значения прогноза на сайте ограничиваются (обычно от 1e-15 до 1 - 1e-15). Т.е. штраф будет не бесконечность, а какое-нибудь ограниченное число (скажем, 34.5).

Поэтому, поштучно добавляя "прогнозы" в виде 0 или 1 к "прогнозу" со всеми 0.5, получим число 0.699 вместо 0.693. Разница (0.699 - 0.693) и есть прибавка от одного экстремального неправильно прогноза.
это долго придется сканировать, если по одному у них проверять, очень долго, и там 50 в сутки только ограничение
[Ответ][Цитата]
 Стр.12 (19)1  ...  8  9  10  11  [12]  13  14  15  16  ...  19<< < Пред. | След. > >>