Где читать про это, не смогу подсказать, это скорее вопросы к В.Царегородцеву.
Но лично я исхожу обычно из того, сколько битов информации нужно выучить.
Есть хороший пример: изучение функции идентификации с помощью трехслойного перцептрона (7 входов,7 выходов).
цифры кодируются так...
1 = 00000001
2 = 00000010
3 = 00000100
......
8 = 10000000
Нужно научиться получать на выходе точно тоже что подали на вход.
f(1)=1, f(2)=2,...,f(8)=8.
Спрашивается, сколько нужно внутренних нейронов.
Оказывается нужно их 3. Т.е. столько, сколько необходимо что бы представить 7 в бинарном виде (111).
даже веса синапсов довольно логично расставляются
вот посмотрите на страницах 93-95.
http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/mlbook/ch4.pdf