Автор: кирилл пишут что метод не применим для большого количества слоев |
|
ЛеКун с соавторами регулярно обучал этим методом нейронные сети слоев вроде в 7 или около. Нейросети, причем, были нерегулярной структуры, т.е. сконструированные на основе экспертных знаний, что должно было вообще-то усложнять работу для того или иного алгоритма обучения (т.к. структура получалась гетерогенной - были разные нейроны с разными размерами рецептивных полей, и задача балансировки структуры именно под требование обеспечения автоматического выравнивания величин или порядков производных явно никогда не ставилась).
Зачем брать сотню слоев для регулярной структуры - я не представляю, ибо если нужна такая грубая сила, то, значит, с задачей что-то не то (или что-то не то с пониманием, какая же структура сети реально нужна).
В общем, если не нравится это решение, обкатанное в сложных задачах на сетках с числом слоев всё же побольше, чем 1 скрытый слой в стандартном MLP, то ищите другое решение сами

Еще вариант - deep belief nets, но там тоже в указанных ниже статьях было не более десятка слоев. Фактически, это навроде метода предварительной послойной начальной инициализации с последующим дообучением всей сети бэкпропом (или др.алгоритмом обучения). Курить:
Hinton G., Salakhutdinov R.
Reducing the dimensionality of data with neural networks / Science, 2006. Vol.313. - pp.504-507.
Hinton G., Osindero S., Teh Y.
A fast learning algorithm for deep belief nets / Neural Computation, 2006. Vol.18. - pp.1527-1554.
Bengio Y., LeCun Y.
Scaling learning algorithms towards AI / Large-scale kernel machines (L.Bottou, O.Chapelle, D.DeCoste, J.Weston eds), MIT Press, 2007.
Bengio Y., Lamblin P., Popovici D., Larochelle H.
Greedy layer-wise training of deep networks / Neural Information Processing Systems 19 (2006). MIT Press, 2007.
Может, есть что-нить еще более свежее - даю те ссылки, на которые ссылался сам в прошлогодней заметке про
сильно многослойные нейросети.
--------------------------
нейронные сети, анализ данных, прогнозирование