Автор: ignat99 http://torch.ch/
A summary of core features: ... linear algebra routines |
|
Думается, линейка там всё же не самописная - а дёргается какой-то (по желанию может быть как фришный, так и платный) шустрый вариант BLAS (для процессора), ну и cuBLAS для видяхи.
Т.к. линейка в виде netlib (там чисто референсные Сишные сырцы - а далее уже как компилятор сам соптимизирует) - это аццкий тормоз: на процессоре на матричных перемножениях проигрывает в скорости на порядок по сравнению с OpenBLAS или интеловской MKL.
Соответственно, при наивном написании мат.ядра - будут те же самые тормоза, а вкладываться в написание на ассемблере (да ещё и с реализацией подхода К.Гото к матричным перемножениям) - тоже смысла нет, т.к. пишем не мат.либу саму по себе.