GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.13 (19)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: ML battle
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 7:55
Изменено: 05 янв 17 7:58
Цитата:
Автор: гость

это долго придется сканировать, если по одному у них проверять, очень долго, и там 50 в сутки только ограничение


Там куча учетных записей с logloss = 0.693. Можете любой ткнуть и увидеть чередование 0.693 и 0.699

И делается это, как мне представляется, с помощью робота. Поэтому, не так уж и долго.

Примерно 200 учетных записей / сканировщиков.
Итого, за день можно сделать 200*50 = 10000 проверок, т.е. более 5000 строк можно в сутки вычислить. За 3-4 дня можно полностью вычислить все значения.
[Ответ][Цитата]
гость
176.10.104.*
На: ML battle
Добавлено: 05 янв 17 8:19
Цитата:
Автор: гость


Не, там нормальное распределение. До этого было экспоненциальное со ступеньками (степенное?), что больше похоже на рыночные котировки.
В экзампле, кстати target тоже нормально распределена.
ага, теперь так и признаков 50 а не 21
[Ответ][Цитата]
гость
195.154.49.*
На: ML battle
Добавлено: 05 янв 17 8:45

можно "дисцилировать" разделив на матрицу корреляций, но не сильно это поможет
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 05 янв 17 13:09
Цитата:
Автор: гость

ага, теперь так и признаков 50 а не 21

Да, неожиданно. И число векторов для обучения увеличилось с 96 тысяч до 136 тысяч... А размерность элементов вектора осталась почти на том же уровне.
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 13:35
Изменено: 05 янв 17 13:39
Цитата:
Автор: dr2chek


Да, неожиданно. И число векторов для обучения увеличилось с 96 тысяч до 136 тысяч... А размерность элементов вектора осталась почти на том же уровне.


Дисперсия после метода главных компонентов исходных 50-то столбцов (в r функция prcomp, атрибут sdev):
1 4.995485e-01
2 4.030171e-01
3 2.958237e-01
4 2.775686e-01
5 2.593949e-01
6 2.186195e-01
7 2.128923e-01
8 1.817962e-01
9 1.484747e-01
10 1.202741e-01
11 1.120959e-01
12 1.071867e-01
13 9.094199e-02
14 7.999990e-02
15 7.620752e-02
16 7.132091e-02
17 6.569373e-02
18 5.909582e-02
19 5.832477e-02
20 5.146488e-02
21 4.492660e-02
22 3.796322e-13
23 3.488654e-13
24 3.438653e-13
...
Т.е. действительно 21 штука представлена как 50.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 05 янв 17 13:59
Цитата:
Автор: mserg



...
Т.е. действительно 21 штука представлена как 50.


Интересно. Добавили, гады, шума. В-общем, оно и понятно, поскольку в прежних tournament-файлах масса идентичных "чисел" в каждом столбце-фиче. Видимо, кто-то догадался, как с этим открытием можно жить
[Ответ][Цитата]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 05 янв 17 15:02
на картинке эллипсы только под 45 градусов?
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 15:07
Изменено: 05 янв 17 15:08
2 dr2chek
Одинаковых чисел там в столбцах не наблюдается, увы. Может и в самом деле у них инвестор поменялся, или зашумили данные...

У них на закладке Blog (если виден только черный экран с надписью по-середине, нужно просто пролистать ниже) есть статья про шифрование, куча ссылок:
https://medium.com/numerai/encrypted-data-for-efficient-markets-fffbe9743ba8#.pkvnbb58i

"Claim: Breakthrough encryption techniques can be used to encrypt stock market data while still keeping it useful for machine learning experts."

Типа, сами фин. данные - большой секрет. А мы шифруем, как бы оставляя свойства исходных данных. Прорыв, на, не иначе.
А рынок чо перекосился? Данные то закрыты, таланты их не получают. Сейчас мы их найдем (с помощью нашего бизнес-процесса), и они рынок выправят - общество перестанет страдать.

Пойду, покурю их криптование дальше ...
[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 15:32
Изменено: 05 янв 17 16:00
Гы-гы, похоже, что там же ссылка на исходники, которым они получают numerai_tournament_data.csv:

https://github.com/zygmuntz/numer.ai

UPD. Еще один исходник
https://www.kaggle.com/transfunctioner/d/numerai/encrypted-stock-market-data-from-numerai/pca-logistic-regression-benchmark
[Ответ][Цитата]
гость
82.145.221.*
На: ML battle
Добавлено: 05 янв 17 15:58
Цитата:
Автор: NO.

на картинке эллипсы только под 45 градусов?

Да. Это корреляция между предикторами так выглядит на диаграмме рпссеяния. Если вправо вверх - то +, если влево вверх - корреляция, ну а если круг, то нет корреляции.
[Ответ][Цитата]
гость
82.145.221.*
На: ML battle
Добавлено: 05 янв 17 16:05
Цитата:
Автор: mserg
Дисперсия после метода главных компонентов исходных 50-то столбцов (в r функция prcomp, атрибут sdev):
...
Т.е. действительно 21 штука представлена как 50.

Что-то многовато получилось.На прошлом наборе у меня было 9 шт.

[Ответ][Цитата]
mserg
Сообщений: 258
На: ML battle
Добавлено: 05 янв 17 16:27
Изменено: 05 янв 17 16:28
Цитата:
Автор: гость


Что-то многовато получилось.На прошлом наборе у меня было 9 шт.


Ну, не знаю, на прошлом (где уже 50 штук), тоже 21

И на их исходном, который мне удалось найти, тоже 21 (маленьких значений в дисперсии нет). Взял отсюда:
https://www.kaggle.com/numerai/encrypted-stock-market-data-from-numerai

На r всего 3 строчки:

dat = read.csv("numerai_training_data.csv")
pc=prcomp(dat[,1: (ncol(dat)-1)])
View(t(t(pc$sdev)))

[Ответ][Цитата]
гость
176.9.136.*
На: ML battle
Добавлено: 05 янв 17 18:32
куда то все крутые делись... с <0.5 остались одни неудачники, но это правильно на мой взгляд, позор IT-шника мотивирует, айтишник должен страдать морально, нервничать
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 06 янв 17 0:04
Цитата:
Автор: mserg

2 dr2chek
Одинаковых чисел там в столбцах не наблюдается, увы. Может и в самом деле у них инвестор поменялся, или зашумили данные...


Сейчас нет, а раньше (у меня сохранились данные с конца ноября - начала декабря) были. Можно было взять любое число в к-либо столбце, и оно повторялось больше 100 раз внутри этого столбца. Смешно конечно, число с точностью е-18, и повторяется 100 раз. Сразу возникает подозрение, что это "дутая" точность.
[Ответ][Цитата]
гость
82.145.221.*
На: ML battle
Добавлено: 06 янв 17 2:45
Цитата:
Автор: mserg


Ну, не знаю, на прошлом (где уже 50 штук), тоже 21

И на их исходном, который мне удалось найти, тоже 21 (маленьких значений в дисперсии нет). Взял отсюда:
https://www.kaggle.com/numerai/encrypted-stock-market-data-from-numerai

На r всего 3 строчки:

dat = read.csv("numerai_training_data.csv")
pc=prcomp(dat[,1: (ncol(dat)-1)])
View(t(t(pc$sdev)))


Понятно. Я немного другой функцией сначала проверял критерий Кайзера-Харриса + параллельный анализ. На графике нужно считать все, что выше линии y=1 и\или кривой параллельного анализа.
Это и будет количество главных компонент.

library(psych)
fa.parallel(dat[,-51], fa="pc", n.iter=80)
[Ответ][Цитата]
 Стр.13 (19)1  ...  9  10  11  12  [13]  14  15  16  17  ...  19<< < Пред. | След. > >>