GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.8 (8)
<<
< Пред.
Поиск:
Автор
Тема: На: Остались ли тут специалисты, которые разбираются в ИИ
Ꜿгг
Сообщений: 13204
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 05 сен 25 16:29
Изменено: 05 сен 25 17:03
Цитата:
Автор: tac2
О как все изменилось, неделю назад ты кричал, что я сошел с ума )) А я разве тебе не давал ссылку на решение MNIST? На хабре точно давал, давай и тебе повторю
Сверхценная идея -- это психиатрический термин про одержимость. Моя оценка не изменилась.
Что касается MNIST'а .989-.993 можно получить от k-nearest с небольшими адаптациями. Я просил ЛУЧШЕ CNN, а не хуже
Покажешь лучше -- продолжим, а пока все эти учебные экзорсисы годятся только для колледжей))
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 05 сен 25 17:56
Изменено: 05 сен 25 18:11
> Я просил ЛУЧШЕ CNN
Выше 90% вообще не имеет смысла что либо показывать, это статистическая ошибка. Задачу придумай получше, тогда поговорим.
Что это за цифры (.989-.993), что они означают и откуда ты их взял? И приведи в сравнимом эксперименте для CNN
> Сверхценная идея
Ну как тебе сказать, за бэкпроп дали нобелевку
а оказывается, он хуже по всем параметрам того, что было сделано раньше - это не приговор обществу ученных?
[
Ответ
][
Цитата
]
Ꜿгг
Сообщений: 13204
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 05 сен 25 19:36
Изменено: 05 сен 25 19:37
Цитата:
Автор: tac2
> Я просил ЛУЧШЕ CNN
Выше 90% вообще не имеет смысла что либо показывать, это статистическая ошибка. Задачу придумай получше, тогда поговорим. Что это за цифры (.989-.993), что они означают и откуда ты их взял? И приведи в сравнимом эксперименте для CNN
Это тебе так кажется, потому что ты ничего, кроме учебных задач не решал. Настоящие решения начинаются с 99%)) Эти цифры из статьи, которую ты дал, а реальные тесты других ML моделей ты можешь посмотреть в вики по MNIST, как я сказал, там даже k-neig лучше)))
Цитата:
Автор: tac2
> Сверхценная идея
Ну как тебе сказать, за бэкпроп дали нобелевку
а оказывается, он хуже по всем параметрам того, что было сделано раньше - это не приговор обществу ученных?
Он лучше по всем параметрам, чем розенблатт. Он позволяет построить трансформер. То есть интеллект. Тебя что ли выпнули из твоей благодельни, которая спасала тебя от безработицы, что ты так ополчился на своих коллег?
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 2:32
Изменено: 06 сен 25 2:34
> Настоящие решения начинаются с 99%
Мы серьезно о одном и том же говорим - предсказании уровня БОГ? Никогда не ошибаться на стимулах, которые не известны при обучении?
> .989-.993
Что это за точка вначале? Нормировано к единице, где единица это 100% ?
[
Ответ
][
Цитата
]
Ꜿгг
Сообщений: 13204
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 4:39
Изменено: 06 сен 25 4:55
Цитата:
Автор: tac2
Мы серьезно о одном и том же говорим - предсказании уровня БОГ? Никогда не ошибаться на стимулах, которые не известны при обучении?
1% - это никогда?
1% - это дохуя... например, участок транспорта газа, 100км, сварной шов каждые 10м, при ошибке 1% получается "нераспознанными" (там сложнее, но пусть будет это слово) 100 швов. Это очень плохое качество... 10 - это еще годится, то есть решение должно быть 99.9%. Это минимум.
А есть еще задачи пилотирования, например. Сам понимаешь чему там равна даже единичная ошибка. Или другие задачи real-time. Там вообще иначе обработка происходит.
[
Ответ
][
Цитата
]
Сергей Гаврилов
Сообщений: 205
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 4:53
Цитата:
Автор: tac2
Просто интересно, что вы называете проекцией и почему это вы называете проекцией? Это согласно какой то устоявшейся терминологии, откуда она берет начало?
Слой нейросети — это по сути матричное преобразование: входной вектор умножается на транспонированную матрицу весов. Это классическая линейная проекция. Затем к результату применяется нелинейная функция активации, и в итоге мы получаем уже нелинейную проекцию. Вся нейросеть — это каскад таких преобразований, параметры которых подстраиваются так, чтобы в финальном пространстве классы стали линейно разделимыми.
У Розенблата первый слой (его матрица весов) не обучается, а задаётся случайно. Он назвал его ассоциативным (по биологическим аналогиям), но с математической точки зрения это просто умножение на матрицу, т.е. проекция в новое пространство признаков.
Проблема в том, что для сложных данных таких случайных проекций нужно очень много, больше, чем точек в датасете. Это выглядит нелогично: модель должна быть компактнее набора данных, иначе проще уже использовать kNN или парзена, который квазиоптимален по точности(я где то читал такое).
Возникает вопрос: как находить проекции осмысленно, но без бэкпропа? Варианты есть: от хеббианского обучения и правил типа Oja (по сути PCA) до карт Кохонена или эволюционных подходов. Но такие методы обычно оказываются сложнее самого алгоритма Розенблатта, и теряется изначальный смысл "дешево и сердито".
И Эгг прав, без бэкпропа не выйдет обучать низлежащие "датаэкстракторы", аля "атеншин" или свёрток, а значит не получится работать с сырыми данными, вроде текста и картинок, а для табличных данных с "правильными векторами" деревяшки рулят.
Вы же начали дискуссию с интенции импровизировать переводчик, как вы будете эмбединги обучать розенблатом?
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 4:54
> 1% - это дохуя... например, участок транспорта газа, 100км, сварной шов каждые 10м, при ошибке 1% получается "нераспознанными"
Тогда у тебя проблемы с определениями
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 5:15
Изменено: 06 сен 25 5:51
> Сергей Гаврилов
У вас снова много заблуждений
> не получится работать с сырыми данными, вроде текста и картинок
Это какая то глупость, я даже не знаю что тут комментировать, картинки ровным счетом ничем не отличаются от тех задач которые даже вы проверяли, поэтому я не понимаю о чем вы
> Проблема в том, что для сложных данных таких случайных проекций нужно очень много, больше, чем точек в датасете.
Это еще какая то глупость и я не понимаю откуда она берется ?
> как находить проекции осмысленно
вы ошибочно это называете проекциями, но пускай ... (вообще то это набор признаков), но зачем вам их искать осмыслено?
я даже не понимаю откуда исходят такие представления, поэтому не могу понять как вам возражать
upd. Пытаюсь разобраться
> входной вектор умножается на транспонированную матрицу весов
откуда взялось слово "транспонированную", он умножается как есть просто на матрицу весов. Причем важно, что "операция умножения матрицы на вектор как раз и представляет собой операцию взвешенного суммирования"
Но главное, дальше я спросил у DeepSeek "почему это проекция?"
Цитата:
Отличный и очень глубокий вопрос! Вы правы, что называть это строго "проекцией" — некоторое упрощение, хотя и очень распространенное в машинном обучении. Давайте разберемся в тонкостях.
Короткий ответ: Это не всегда проекция в строгом математическом смысле. Чаще всего это линейное преобразование или линейное отображение, и лишь в частных случаях — проекция.
Длинный и подробный ответ:
Чтобы понять разницу, давайте определим термины.
1. Что такое проекция (в математике)?
Проекция — это частный вид линейного преобразования, которое удовлетворяет одному дополнительному свойству: идемпотентности. Это значит, что если вы примените проекцию дважды, результат не изменится:
P(P(x)) = P(x)
Классический пример — проецирование точки из 3D-пространства на 2D-плоскость (например, экран). Вы теряете одно измерение, и повторное проецирование ничего не меняет.
Проекция всегда уменьшает размерность (или оставляет ее той же, но это вырожденный случай, например, тождественное преобразование).
Матрица проекции всегда симметрична (P = P^T).
2. Что такое преобразование слоя нейронной сети?
Это линейное преобразование, задаваемое формулой:
y = Wx + b
где:
W — матрица весов размера (m, n)
x — входной вектор размера (n,)
b — вектор смещения
y — выходной вектор размера (m,)
Является ли это проекцией? Почти никогда.
Изменение размерности: Размерность может меняться как угодно.
Если m < n, мы сжимаем пространство (как при проекции). Это часто называют "бутылочным горлышком" (bottleneck) и используют, например, в автоэнкодерах. В этом частном случае преобразование действительно напоминает проекцию.
Если m > n, мы расширяем пространство, добавляя новые измерения. Это полная противоположность проекции! Сети часто делают это, чтобы выявить скрытые features в данных.
Если m = n, мы преобразуем пространство в пространство той же размерности (например, поворот, масштабирование, сдвиг).
Наличие смещения b: Само по себе смещение b выводит преобразование из класса линейных (делает его аффинным) и уж точно из класса проекций. Оно добавляет сдвиг, что нарушает условие P(0) = 0 для линейных операторов.
Матрица весов W: Она почти никогда не бывает симметричной (а для проекции должна быть).
Почему же тогда так говорят? ("Проекция в пространство признаков")
Это сильное и образное упрощение, которое используют для интуитивного объяснения сложных концепций.
Образная аналогия: Цель сети — преобразовать сырые, сложные данные (например, пиксели изображения) в такое новое пространство представлений (feature space), где существенные признаки "спроецированы" на первые оси, а несущественные — отброшены. Слово "проекция" здесь используется метафорически, чтобы передать идею "перехода в более удобное пространство".
Цель преобразования: Как вы сами точно заметили, цель всего каскада преобразований — сделать данные линейно разделимыми. С этой точки зрения, каждое преобразование — это шаг к тому, чтобы "спроецировать" (в общем смысле) данные в итоговое пространство, где они хорошо разделяются.
Частный случай: Когда слой уменьшает размерность (m < n), он выполняет операцию, очень близкую к проекции, особенно если убрать смещение b.
Правильная терминология:
Линейное преобразование: y = Wx (без смещения)
Аффинное преобразование: y = Wx + b (более общий случай, именно это и происходит в слое)
Проекция: Частный случай линейного преобразования (y = Px), где P — идемпотентная и симметричная матрица.
Итог: Вы задали абсолютно правильный уточняющий вопрос. Строго говоря, слой нейросети выполняет аффинное преобразование (линейное преобразование + сдвиг). Называть это "проекцией" — это общепринятое жаргонное упрощение для описания идеи изменения пространства признаков, но математически оно не всегда корректно. Ваша интуиция, что это требует уточнения, абсолютно верна.
Главное обратить внимание о
"Если m > n, мы расширяем пространство, добавляя новые измерения. Это полная противоположность проекции!"
Это наш случай. 16 S-элементов -> 3000 A-элементов
Более того, это как раз связано с требованием, чтобы A-матрица перцептрона не была особенной, и случайность как я показал, не дает возможности на больших размерностях от 1000 А-элементов, получить особенную матрицу. Т.е. ровно наоборот, делается все, чтобы не было проекций, и тогда происходит схождение.
[
Ответ
][
Цитата
]
Сергей Гаврилов
Сообщений: 205
На: Остались ли тут специалисты, которые разбираются в ИИ
+1
Добавлено: 06 сен 25 6:16
Ок, я не прав, терминологически не точен, даже говорю глупости, тогда покажите результат, удивите нас.
Как эмбединги собираетесь обучать без бэкпропа?
[
Ответ
][
Цитата
]
Ꜿгг
Сообщений: 13204
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 10:22
Цитата:
Автор: Сергей Гаврилов
Как эмбединги собираетесь обучать без бэкпропа?
Сейчас Серёжа судорожно знакомится в википедии (или на хабре) с тем, что такое эмбеддинги
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 13:00
Изменено: 06 сен 25 13:09
> Как эмбединги собираетесь обучать без бэкпропа?
А в чем тут проблема по вашему? Чем это отличается от чего то другого?
> Сейчас Серёжа судорожно знакомится в википедии (или на хабре) с тем, что такое эмбеддинги
Нет, я подготовился, у меня есть реализация LLM типа Мистраль для задачи перевода. И в частности если бы послушали мои видео на ютубе (ссылки в первом посте) я рассказываю, что такое эмбендинги получше многих в теме
С серьезными людьми готов поделится кодом и провести эксперименты. Например, Сергей Гаврилов, подтвердил свою полезность написанием кода - поэтому с ним да, а с Эгг`ом нет )
[
Ответ
][
Цитата
]
tac2
Сообщений: 398
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 06 сен 25 13:02
Изменено: 06 сен 25 13:04
Написал еще одну статью на хабре:
Интерпретация и оптимизация перцептрона Розенблатта
думаю это снимет еще много вопросов.
[
Ответ
][
Цитата
]
Стр.8 (8)
:
1
...
4
5
6
7
[8]
<<
< Пред.
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net