Автор: гость
рандом на логлосе примерно 0.693, 0.690 - не рандом, это где то 48%(2% лучше рандома) ошибки при более менее правильных вероятностях(0.5 +- 1\20) |
|
А зачем рандом? Предсказываете константу 0.5 - и все, 0.693.
"Хорошие" результаты на сайте, очевидно, это шулерство.
Данные "для турнира", для которых нужно сделать прогноз, делятся на
* Тестовые - logLoss по ним отображается на доске лидеров
* Проверочные, результат по которым не показываются
Чтобы понять, какое значение в конкретной строке, нужно запостить 2 файла со всеми строками
0.5, и 0 или 1 в целевой строке.
* Случай 1: Результат в обоих случаях 0.693 - строка относится в проверочным данным, узнать значение нельзя
* Случай 2: Результат с файлом с 0 - 0.693, с файлом с 1 - 0.699; это значит, 1 генерирует большую ошибку, и в данной строке 0
* Случай 3: Наоборот, 0 - 0.699, 1 - 0.693; в данной строке 1
Пример сканирующей учетной записи:
https://numer.ai/ai/chondrophorinesМожно заметить, что учетные записи с результатами 0.693 и 0.699 - это (распределенные) роботы, которые закидывают пары файлов для выяснения, к какому множеству относится строка; и если тестовому - выяснить конкретное значение.
Таким образом можно добиться, что результат в logloss будет хоть нулевым.
Может показаться, что это не поможет для получения значений для проверочного множества.
Но это не совсем так, если тестовое и проверочное множество черпалось из одного множества. В этом случае можно построить регуляризацию и повысить точность "прогноза".
UPD. Закинул "прогноз" со 100 нулями, получил 0.852. Учитывая, что единиц и нулей в тестовом множестве примерно одинаково, что один неверный 0-прогноз для тестового множества добавляет 0.06, то нетрудно убедиться, что количество строк тестового и прогнозного множества примерно равно.
Гы-Гы-Гы