продолжаем потрошить барана егорова.
итак, изначально речь зашла об извлечении прагматики из корпуса.
было высказано утверждение что из корпуса извлекается только 'внешняя' прагматика, прагматические характеристики, которые не составляют САМОГО интересного в прагматике. Проблема прагмалингвиcтики это сиречь проблема субъекта (носителя интеллекта, без которого имеем не интеллект и не прагматику, а лишь слабые модели того и другого).
прагматика в узком смысле, т.ск. минимальная прагматика. Имея соотв. корпус можно по нему настраивать, обучать, развивать АПРИОРНЫЕ модели, скажем, речевых актов, модели реализации РА в высказываниях (хотя бы и средствами условных случайных полей), модели функционирования моделей РА в диалоге, можно настраивать модели диалога, сценарии, модели дискурса/текста (напр. на ур. модели риторических предикатов). можно прийти к специфицированным расширенным фреймам РА разных иллокутивных типов (самое простое - научиться отвечать на вопросы тех или иных типов (запускать поиск соотв. ответа)).
минимальная прагматика вполне формализуема и работает для идентификации актуального членения, предугадывания реплик, снятия неопределенностей (ситаксических, семантических, референциальных), актуализации невыраженных, свернутых составляющих, интерпретации фразеологизмов, обработки косвенных значений (идентификация, семантизация (для перефраза)) и смыслозначений (немерения сказать о Х посредством Y).
тут много технических проблем но многое более-менее ясно и реализуемо.
но в минимальной прагматике есть еще нечто БОЛЕЕ важное. Это ВЫВОДЫ. Не только локальные для непосредственного построения согласованных репрезентаций фраз и сверхфразовых единств, но и глобальные - какие выводы следуют из текста, какова cуть, смысловая перспектива. Это не сумматизация текста (рефератов частей), а на основе ассоциативного (многоаспектного) расширения текста импликационная, инференционная обработка содержания. Что нового (в разных аспектах), что важного, что можно принять в собственную концептуальную систему, что отмаркировать как сомнительное (тем не менее сохраняя если важное). И вот тут мы переходим уже в область широкой прагматики.
к текcту можно задать не фактологический вопрос, а вопрос на 'смысл', на 'понимание' (развитое), на сущностное объяснение.
вопрос заключается в том где именно располагаются границы возможностей очередной поделки. возможности системы должны характеризоваться как в 'горизонтальном' так и 'вертикальном' разрезах.
немного о 'философии' задач и их постановок, о чем столь демагогически печется наш баран егоров.
похоже, что егоров 'не понимает' про стратификацию задач и языков, про декомпозицию задач, про постановку задачи через цели, что декомпозиция задачи и подключение к целям методов это в свою очередь задачи (метазадачи) - наш друг баран не понимает что НАМ интересны не частные подзадачи, а интеграция решений в систему (того или иного качества) (в частности архитектурные аспекты).
даже стантартная модель коммуникативной связи реализована в иерархической модели, заданной через разные абстракции и на разных языках (сигнал, автоматы, массовое обслуживание) - расширенная модель коммсвязи подразумевает еще больше уровней абстракции и еще более развитые языки и механизмы межязыковых переходов.
итак, в современном NLP решаются (и известно как) задачи поиска, сопоставления (сравнения), извлечения (напр. отношений, поименованных сущностей (тут разгул 'егоровских' статиcтических методов и методов обучения), группировки, классификации (тут разгул 'егоровского' NBC, пресловутых регрессий и проч.), разметки, cегментации, ранжирования (напр. пресловутая векторная модель).
на самом примитивном уровне прагматика вполне 'извлекаема' - можно для специфического кластера документов идентифицировать характеризующую метку, провести тематизацию.
можно сваять нечто комплексное (piggybacking) по типу обучения классификатора документов на результатах классификатора экстрагированных поименнованных сущностей.
можно сваять вполне работоспособную QA-cистему даже без намека на семантику хотя бы на уровне коллокаций и дистрибутивного анализа лексики (или с учетом них), не говоря уже о семемных и прочих представлениях. можно до усирачки фактографировать вполне стандартными (известными) методами. Мощно и спокойно..

есть богатейшие библиотеки NLP и если егоров не умеет пользоваться гуглом в поиске NLP-cистем то тем более его притензии выглядят ублюдочно. В чем-то продвинулся, что-то
не решил еще (что решили другие), что-то решить просто не сможет (потому что даже коллективный хмур не знает как).
к чему мы приходим? При работе с корпусом при переходе от лексической морфологии и лексикона к синтаксису, к семантике, к прагмасемантике и прагматике НЕКОРРЕКТНОСТЬ (как маттермин) нарастает и все больше самого интересного вышележащего уровня не восстанавливается по данным нижележащего уровня.
Действительно, скажем, извлекая отношения, характеризуя и классифицируя их мы можем наблюдать при скане текста оперирование отношениями, строить модели оперирования отношениями, - далее можно классифицировать способы оперирования отношениями и предметными сущностями, строить модели - все более углубляясь в прагматическую характеризацию динамики внутреннего представления текста. Но без априорной модели Оператора (автора) мы никак не сможем ответить на вопрос а что НА САМОМ ДЕЛЕ имеет в виду автор, когда развивает ту или иную операционную активность. Идентифицировав
саркастическую модель мы тем не менее не сможем понять что движет автором и тем самым не сможем предсказать развитие дискурса (не сможем строить его адекватно гибко на базе 'внешних' моделей). Мы сможем построить достаточно изощренные системы, но они будут только муляжами реячемыслительной активности по своему КАЧЕСТВУ (методологически).
егоровщина - это совсем не то, О чем МОЖЕТ идти речь. инженерный 'внешний' подход, низкоуровневые техники (вплоть до продвинутых систем NLP) - этого никто не отрицает, но нельзя не понимать ОБЩИЙ план проблемы.
грубая сила 'внешних' методик рассеивается - возникают труднопреодалимые проблемы описания, представления сущностей внутренних (операционных динамик) для выделения признаков и задействования стандартных методов классификации, обучения. Требуется опора на высокоуровневые априорные теории. режим обучения без учителя должен бутстрапировать с режимом хотя бы частичного задействования учителя-критика-оценщика.
итак, итак - суть егоровщины (расширенной) это попытка получить модель автора путем восстановления ее из корпуса.
Тут могут быть сильные интуиции. Однако, получиться может, думается, не Абсолютный интеллект, а интеллект существенно Абстрактный (модель 'родового человека', способности-вообще - модель ОБЕДНЕННАЯ существеннейше). Такую модель не погрузить в РЕАЛЬНУЮ среду речи, диалога, познания без принципиальнейших дописок. Абстракный интеллект не будет работать как интеллект Индивидуальный, со всем комплексом индивидуальных регулятивов и детерсминитивов.
(извинение за сумбурность некоторую - но наш друг бараша реально заводит..

)