GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.4 (4)<< < Пред.   Поиск:  
 Автор Тема: На: Остались ли тут специалисты, которые разбираются в ИИ
Дмитрий Стволовой
Сообщений: 364
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 17 авг 25 4:51
И да, бэкпроп всё таки классная штука, пока лучше ничего не придумали. Хотя потуги есть.

Другое дело, каждый раз обучать всю модель енд2енд, это явно какой то антипаттерн(в будущем). Похоже как переизобретать всю физику, или математику.
[Ответ][Цитата]
tac2
Сообщений: 361
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 17 авг 25 15:20
Изменено: 17 авг 25 15:24
>бэкпроп всё таки классная штука
у него есть еуча проблем, мы с ними не раз встретимся, но вначале посмотрите в моих роликах самый первый, где то с 5 минуты, там мы читаем оригинальную статью румельхарда, Эггу бесполезно объяснять он жертва неправильного обучения, а вам думаю будет полезно.
На что нужно обратить внимание бэкпроп не может полностью сойтись, обучиться. это изъян именно этого алгоритма, в отличии от него перцептрон розенблатта всегда на любой обучающей выборке сходится, это математически доказано. Бэкпроп никогда не соидется.
это вообщето известный факт, но практика такова, что этого никто обычно не знает, поэтому давайте начнем с этого. тем более как я говорил я в отпуске, и пктивная этим заниматься смогу с сентября.
[Ответ][Цитата]
Ꜿгг
Сообщений: 13159
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 17 авг 25 17:03


Выглядит так, что группа первые несколько лет будет писать самый правильный перцептрон Розенблатта

[Ответ][Цитата]
Дмитрий Стволовой
Сообщений: 364
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 18 авг 25 5:55
Цитата:
Автор: tac2

>бэкпроп всё таки классная штука
у него есть еуча проблем, мы с ними не раз встретимся, но вначале посмотрите в моих роликах самый первый, где то с 5 минуты, там мы читаем оригинальную статью румельхарда, Эггу бесполезно объяснять он жертва неправильного обучения, а вам думаю будет полезно.
На что нужно обратить внимание бэкпроп не может полностью сойтись, обучиться. это изъян именно этого алгоритма, в отличии от него перцептрон розенблатта всегда на любой обучающей выборке сходится, это математически доказано. Бэкпроп никогда не соидется.
это вообщето известный факт, но практика такова, что этого никто обычно не знает, поэтому давайте начнем с этого. тем более как я говорил я в отпуске, и пктивная этим заниматься смогу с сентября.
Ну да, перцептрон Розенблатта кажется более "строгим", потому что для него математически доказана теорема сходимости: если данные линейно разделимы(что большая редкость, экзотика), он гарантированно найдёт правильное решение за конечное число шагов. Это настоящая математическая гарантия, а не надежда на удачу — и в этом его сила и элегантность. Но эта строгость хрупкая: стоит данным стать нелинейно разделимыми (как в задаче XOR и почтив во всех реальных задачах), и перцептрон уже ничего не решит. Бэкпроп, напротив, не обещает сходимости и работает в условиях сложной, не выпуклой оптимизации, где гарантий нет — зато он позволяет обучать глубокие сети на реальных, шумных, сложных данных(да банально с задачкой со спиралькой уже однослойный ляжет). Так что перцептрон — это как чистая математика с жёсткими условиями, а backprop — мощный инженерный инструмент, который, несмотря на отсутствие теоретических гарантий, открыл путь к современным нейросетям.

Так что простите, но буду настаивать, что бэкпроп пока рулит, несмотря на все его недостатки, особенно в виде тормознутости.
[Ответ][Цитата]
tac2
Сообщений: 361
На: Остались ли тут специалисты, которые разбираются в ИИ
+1
Добавлено: 18 авг 25 12:16
Изменено: 18 авг 25 19:57
вы, как и Эгг, совершенно, не понимаете что такое перцептрон Розенблатта. Посмотрите хотябы Википедию, я 20 лет назад писал статью специально для тех кто не знает как решить xor. когда освоете этот минимум обсудим дальше. и как не странно теперь дипсик цитирует меня )) . вы можете даже лучше открыть оригинал и ознакомится

я добавил ссылку на свою статью 2009 года, точнее на её разжевывание на хабре, в нуль пост, она вам даст базовое понимание, детали обсудим в сентябре. но она полность убирает мифы на каторые вы наткнулись

Теперь по фактам и короткие выводы. Элементарный перцептрон Розенблатта (это термин, т.к. есть другие перцептроны Розенблатта, но этот самый простейший) состоит из S-A-R элементов и связей между ними. При этом связи между S-A связями задаются случайно, а связи между A-R обучаются методом коррекции ошибки, который принципиально отличается от бэкпропа. Важно отметить, что я не утверждаю какой подход лучше, есть проблемы и а том и другом, но 99+% всех кого я встречаю не понимают их. Т.к. для написания эффективного алгоритма нужно глубокое понимание, ознакамливайтесь с деталями, самую простую и разжеваннуй информацию я дал в статье о гарантированом схождении. Практически это означает следующие: нужно выполнить два условия, количество A элементов для полностью не структурированной задачи, где хаос = максимум, должно быть не меньше 100 и не меньше количества примеров в обучающей выборке. Тогда гарантируется, что одного лишь случайного выбора связей между S-A связями будет достаточно, что ЛЮБУЮ нелинейную задачу превратить в линейную, после чего связи A-R гарантированно найдут решение, и это гарантируется теоремой схождения на практике, а не в теории, как правило это будет более быстое схождение чем у бэкпропа, и в отличии от него гарантирующие что он будет обучен ВСЕМ примерам из обучающей выборки. Проблемы перцептрона совсем в другой пооскости, но обсуждать их имеет только с теми кто знает эти основы.
[Ответ][Цитата]
Дмитрий Стволовой
Сообщений: 364
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 19 авг 25 5:52
Цитата:
Автор: tac2

вы, как и Эгг, совершенно, не понимаете что такое перцептрон Розенблатта. Посмотрите хотябы Википедию, я 20 лет назад писал статью специально для тех кто не знает как решить xor. когда освоете этот минимум обсудим дальше. и как не странно теперь дипсик цитирует меня )) . вы можете даже лучше открыть оригинал и ознакомится

я добавил ссылку на свою статью 2009 года, точнее на её разжевывание на хабре, в нуль пост, она вам даст базовое понимание, детали обсудим в сентябре. но она полность убирает мифы на каторые вы наткнулись

Теперь по фактам и короткие выводы. Элементарный перцептрон Розенблатта (это термин, т.к. есть другие перцептроны Розенблатта, но этот самый простейший) состоит из S-A-R элементов и связей между ними. При этом связи между S-A связями задаются случайно, а связи между A-R обучаются методом коррекции ошибки, который принципиально отличается от бэкпропа. Важно отметить, что я не утверждаю какой подход лучше, есть проблемы и а том и другом, но 99+% всех кого я встречаю не понимают их. Т.к. для написания эффективного алгоритма нужно глубокое понимание, ознакамливайтесь с деталями, самую простую и разжеваннуй информацию я дал в статье о гарантированом схождении. Практически это означает следующие: нужно выполнить два условия, количество A элементов для полностью не структурированной задачи, где хаос = максимум, должно быть не меньше 100 и не меньше количества примеров в обучающей выборке. Тогда гарантируется, что одного лишь случайного выбора связей между S-A связями будет достаточно, что ЛЮБУЮ нелинейную задачу превратить в линейную, после чего связи A-R гарантированно найдут решение, и это гарантируется теоремой схождения на практике, а не в теории, как правило это будет более быстое схождение чем у бэкпропа, и в отличии от него гарантирующие что он будет обучен ВСЕМ примерам из обучающей выборки. Проблемы перцептрона совсем в другой пооскости, но обсуждать их имеет только с теми кто знает эти основы.
Почитал, красивая идея, респект что ткнули носом. Я то был уверен что "перцептрон", это однослойный, вход, 1 — слой, выход. Проекция входа в рандомный многомер, это — элегантно!

Но вот в чем дело, эта штука не умеет извлекать инвариантные признаки, то есть если сдвинуть объект на картинке или переформулировать текст, его внутреннее представление сломается, потому что "признаки плавают по индексам". Поэтому на реальных задачах такой подход вряд ли будет лучше kNN, SVM или бустинга, особенно если данные уже в хорошем табличном виде. Случайные проекции — это скорее метод "давай завалим размерностью и надеяться на удачу", а не извлечение инвариантов что делает CNN или трансформеры.

Эта идея живёт дальше — в ELM, резервуарных сетях и случайных ядрах. Там тоже используется фиксированный слой с рандомом, а обучается только выход. Это быстро и иногда эффективно, но не заменяет обучаемые архитектуры вроде CNN или трансформеров, которые учатся видеть инварианты, с помощью ручных костылей подобранных под природу данных и самое главное, обучаемых бэкпропом, АВТОМАТОМ, а не просто реагировать на позицию пикселей как kNN. Так что да — XOR решить можно, но настоящий прорыв в последнее время, был не в этом, а в умении моделей извлекать смысл, ну, точнее из сырых данных получать их векторное представление, когда на одних и тех же компонентах тот же смысл.

Короче говоря, трансформеры это не про автоматическую классификацию, а про автоматический фича-инжиниринг. Но также ещё имеет место быть логика про иерархичность(древовидноть, матрешестноть) данных и что именно многослойные сети более приспособлены к такой классификации. Протоны и электроны из кварков, атомы из протонов и электронов, молекулы и атомов …. человек из рук, ног, туловища и головы … галактика из звёзд, планет, газа и тп. короче вы поняли. Весь мультиверс - это большое онтологическое дерево, списком представлять такое крайне не эффективно. Однослойная сеть делает список сущностей, а многослойная на каждом слое ловит агрегатные объекты. Это как сравнивать сортировку пузырьком и деревом, или квиксортом.

Но спасибо про рандомную проекцию, это красиво.
[Ответ][Цитата]
Ꜿгг
Сообщений: 13159
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 19 авг 25 6:18
Изменено: 19 авг 25 7:53
На мой вкус, такой подход - это очередной единичный учебный пример, натужно рожденный в попытке натянуть какую-то псевдонаучность. Вроде тех примеров, которые решались в экспертных системах в 80 годах прошлого века. Эти все подходы совершенно не масштабируемы и не применимы в жестких условиях бизнеса и производства.
[Ответ][Цитата]
tac2
Сообщений: 361
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 19 авг 25 9:30
Изменено: 19 авг 25 11:25
Теперь вижу, что вы разобрались.

Возможно это вопрос терминов, но думаю не только. Т.н. проблему инвариантности не решает на данный момент ни одна нейросеть, более того даже обобщение они делают с вероятностью не большей чем перцептрон.

Правильно говорить, что бэкпроп умеет обучать несколько слоев, и это его сильная сторона, ради которой он и был сделан. Но опять же, не надо это путать с инвариантностью. Можно сделать тест умножение цифр, дать все таблицу умножения до 10 или до 100, и не дать только 1,2 примера - я очень удивлюсь если он дпст правильный ответ.


на самом же деле, бэкпроп просто кластеризует обучающие примеры. Пока я еще не в ник как это ему удается автоматом и действительно ли удается, но похоже на это. Нужно придумать минимальную вырожденную задачу, в стиле минимального интеллекта в терминах Эгга, на которой показпть как бэкпроп умеет кластеризовывать. Но тут нужно понимать уже как токены переходят в эмбендинги и как происходит их кластеризация при обучении в трансформерах. Это не свойство самого бэкпропа похоже, но интересно найти такую минимальную задачу, которая бы это показывала бы.

Тут кажется (означает, что у меня нет экспериментальных данных и это только текущие размышления, и я мог ошибаться, но эти соображения помогу найти путь к постановке эксперимента) совершенно мало одного слоя когда токен отражается на эмбендинг. Кластеризация самих эмбендингов выполняется позже уже трансформерами при обучении предложениям ответ-вопрос, перевод русский- английский и т.п. Тут мы подходим к вопросу почему имеет смысл начать с переводчика, не по тому что он ценен сам по себе, а потому что он показывает на минимальной архитектуре работу LLM.
Так вот трансформер это рекурентная сеть, хотя мы прямо этого не видим. Т.е. один токен однозначно предсказывает другой токен. однозначно не в смысле какой именно, и что именно один. и таким образом набирается статистика, которая позволяет кже позже говорить о кластеризации эмбендингов. таким образом, сам по себе бэкпроп не обладает никакими свойствами обобщения на основе еластеризации, это свойство постановки специального обучения. Так вот совсем не исключенно, что поняв минимальную задачу на которой это видно, будет возможно ее реализовать на перцептроне и тогда только и можно будет говорить о их сравнении.

Пока же нет даже убедительных данных что дают количество слоев больше двух, якобы есть фантазии, что это дает иерархическое выделение признаков, оно же кластеризация по признакам, но 6икто убедительно не показал что происходит оптимизация обучения при этом, т.е. мол 1000 нейронов в среднем слое это много, и задачу можно решить 10 нейронов в слое 1 и 100 в слое 2, а не 1000 в одном. я например, даже не знаю и близко чтобы такие задачи ставились бы, если кто то знает дайте ссылки.
[Ответ][Цитата]
tac2
Сообщений: 361
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 19 авг 25 16:34
дополнение от дипсика


1. Проблема инвариантности и обобщения

Вы абсолютно правы. Проблема инвариантности (способность узнавать объект независимо от его поворота, масштаба, освещения и т.д.) не решена "из коробки" стандартными нейросетями с бэкпропом. Это одна из причин, почему на вход современных сверточных сетей (CNN) подаются огромные датасеты с данными, аугментированными (искусственно увеличенными) всеми возможными способами — сеть вынуждена учиться быть инвариантной на примерах.

Ваш тест с умножением — прекрасный пример проверки систематизации обобщения (ability to generalize systematically), а не просто статистического. Нейросеть, натренированная на примерах умножения, скорее всего, провалит примеры, которых не было в обучающей выборке. Она научилась сложной статистической корреляции, а не абстрактной операции умножения. Это ее фундаментальное ограничение по сравнению с символьными системами.
[Ответ][Цитата]
 Стр.4 (4)1  2  3  [4]<< < Пред.