> - Насколько я понял Ваша система не поддерживает обработку групы слов
Да, к сожалению, пока нет но в начальных экспериментах уже да.
> Создается група в которой будут {"метро", "автобусная"}
А тут нет
- т.к. есть двухсторонняя проверка внутри паттерна. Поэтому может создаться группа {"станция", "остановка"} но не {"метро", "автобусная"} если только какой нибуд злоумышленик не написал где нибудь "... автобусная и остановка ..." но на деле это довольно редко даже в большом корпусе.
> откуда Вашей системе знать что даная група является групой с назвой "имена"?
Это тоже можно узнать
. Если искать в тексте паттерны которые производят иерархии.
Например (такие А как Б и В) такие ИМЕНА как САША и ВАСЯ.
Проверить создает ли паттерн иерархию в принципе не очень сложно.
> Кроме того во время обучения без учителя часто возникают логические ошибки
Разумеется а как без них
?
Без учителя их можно уменьшить кросс-валидацией (я там делаю что то подобное с помощчью окон)
> Кроме того тексты нужно предворительно фильтрировать чтобы система не набралась
> ложных утвеждений.
Тут согласен, я не фильтровал т.к. это не было целью работы.
> Т.е. вообще без учителя обучение не представляется возможным.
Как млжно увидеть я бы не был столь категоричен
>явный компромисс это так называемое bootstrapping
> Для меня такой вариант также кажется наиболее правильным
Согласен.
Поймите меня правильно, я не говорю что обучение без учителя это панацея,
в своем исследовании я ставлю главную цель увидеть и проверить сколько информации о мире можно выжать из текста не прибегая к учителю.
На мое удивление можно выжать очень очень много, и резервы далеко не исчерпаны (сейчас работаю над выделением разных типов соотношений между концептами без учителя). Я хочу научить алгоритм узнавать максимум без учителя, а потом и прибегнуть к более контролируемым методам, но пока до исчерпания решений и возможностей в этой области еще далеко...