GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.3 (17)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Обработка русского языка
Sergey
Сообщений: 26
На: Обработка русского языка
Добавлено: 30 ноя 08 23:14
Ну дак заведи новую ветку. Выложи туда свои идеи. И поподробней. Ато по тому что ты написал я не могу понять что и как нада делать. Идеи всегда приветствуются.
[Ответ][Цитата]
MadGod
Сообщений: 413
На: Обработка русского языка
Добавлено: 30 ноя 08 23:28
Цитата:
от сложного к простому. именно так человек и познает мир, разбирая все что видит на запчасти

Ну и что Вы опять наплели? Сами же говорите как раз про "от простого к сложному".

Всё-что-видит - это одна(1) вещь. Простая. В тот конкретный момент, когда человек НАЧИНАЕТ с ней оперировать.
Создаётся таблица. Одна (1). С названием. Одним (1).

Затем человек начинает разбирать на запчасти (которых милисекунду назад до этого ДЛЯ НЕГО не существовало).
В таблице создаются записи, принадлежащие этой таблице (как части принадлежат вещи),
по количеству частей.

Это и есть, от простого к сложному.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Обработка русского языка
Добавлено: 30 ноя 08 23:31
Цитата:
Автор: Sergey

Если посмотреть на статистику, что я опубликовал здесь, то видно, что время на поиск первого слова отличается от времени потраченного на поиск остальных слов примерно в 40 раз. Как раз при первом поиске и выполняется кеширование информации. А в последующих поисках используется построенный при первом поиске кеш. Но в данном случае используется кеширование различных промежуточных данных. А благодаря Вам, когда будем делать обработку набора слов, появилась идея создать очередь, в которую сохранять некоторое количество предшествующих слов. Это тоже ускорит морфологический анализ слов в предложениях. В связи с этим позвольте выразить Вам свою благодарность за эту идею.


Очень рад что чем-то помог. Но вообще-то там не очередь нужна, а Least Recently Used (LRU) или даже Least Frequently Used (LFU).
А вообще есть и такое
Adaptive Replacement Cache (ARC): constantly balances between LRU and LFU, to improve combined result.

Кстати, я конечно заметил, что вы какой-то тип кеша используете, но это не отменяет того что я говорил о статистических данных. Даже если и так, все-равно даже просто цикл даст более точные данные (в таких маленьких промежутках времени, сложно судить о том, в 40 или не в 40 раз повторное обращенее быстрее. Вот если это в среднем на большом количестве попыток будет, пусть даже с одним и тем же словом, это уже другое дело.)
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Обработка русского языка
Добавлено: 01 дек 08 1:19
За ссылки огромное Вам спасибо. К сожалению в английском я не силён, но обязательно переведу и попробую разобраться. Возможно пригодится когда будем делать обработку текстов. На данный момент в качестве хранилища морфологической базы используется ОО СУБД Cerebrum и она занимается вопросами управления памятью. Кроме того она позволяет использовать неограниченное количество атрибутов (полей) в таблицах. Притом у каждой записи количество атрибутов своё и это экономит память. Нет выделения памяти для пустых данных в полях записей. База находится в нескольких таблицах. Атрибутами для таблицы ZlTransform являются объекты из таблицы ZlSpecifiers, которые в свою очередь имеют набор атрибутов характеризующих слово. Эти атрибуты находятся в таблице ZlAttributes. В спецификаторах трансформа находятся окончания слов. В таблице ZlStatements находятся слова без окончаний и указатель на трансформ. Найдя начало слова можно получить его трансформ, а по нему найти все окончания. Для каждого окончания можно получить список характеристик слова (атрибуты спецификаторов). Т.е. например существительное, единственного чиста, мужской род. Но хранилище морфологической базы может быть и другое. Данные можно импортировать в CSV файлы и подкачать в любое другое хранилище. Я думаю это более важно на данном этапе. База, в которой находится свыше 3 000 000 слов и которую можно легко перенести в другой формат. А над доработкой компонента естественно будем работать. Благодаря всем участникам этого поста появились идеи, что нужно доделать в компоненте. За это огромное спасибо.
[Ответ][Цитата]
гость
213.24.76.*
На: Обработка русского языка
Добавлено: 01 дек 08 10:46
Цитата:
Автор: Тарачов
не синтаксисом надо заниматься, а семантикой. Структура БД первичная, делается по семантике, блин, ну как этого можно не понимать?
БД=классификатор видовый.
вам нужно видовые связи определять между словами и строить иерархическую систему.

Вы вообще о чем? Вы первое сообщение темы читали? Там же написано, что сделал автор и для чего.
Почему с целью "морфологического анализа русского языка и проверки русской орфографии" по вашему нужно заниматься именно семантикой? Вы бредите? Вы не знаете, чем, морфология отличается от семантики?

P.S. Заметьте, Тарасов, автор сделал библиотеку, которая работает. Вы ничего работающего представить не можете.
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 11:51
"Ну и что Вы опять наплели? Сами же говорите как раз про "от простого к сложному"."


вам привиделось это во сне.

я говорил, что от сложного к простому.


от понятия "Я"

"Всё-что-видит - это одна(1) вещь. Простая. В тот конкретный момент, когда человек НАЧИНАЕТ с ней оперировать.
Создаётся таблица. Одна (1). С названием. Одним (1)."

вы опять о чем то своем, не ведущем к правильной цели.

"Затем человек начинает разбирать на запчасти (которых милисекунду назад до этого ДЛЯ НЕГО не существовало)."

ну да.


"В таблице создаются записи, принадлежащие этой таблице (как части принадлежат вещи),
по количеству частей."

нет, создаются другие таблицы.

"Это и есть, от простого к сложному."

тупой болван.
не понимаешь ничего.

Сложное понятие дробится на 2 составных понятия (именно 2 всегда, а не 3 и не 10.).
Такое понятие, как "винигрет", тоже следует дробить на 2, несмотря на то, что винигрет из 5 компонентов состоит.

Но тебе, балда, этого не понять.
Напимер: имеем максимальную скорость С, делим ее пополам, записываем понятие как С/2.

Тем самым классификатор строиться от сложного к простому. Не было понятий ранбше с/2, теперь появилось. И находится оно не в общей таблице скоростей, а в другой таблице, стоящей по иерархии ниже.



[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 11:55
"Вы вообще о чем? Там же написано, что сделал автор и для чего."

товаришь просто не понимает, как следует делать библиотеку для ИИ.

"Почему с целью "морфологического анализа русского языка и проверки русской орфографии" по вашему нужно заниматься именно семантикой?
вот когда станете умнее, тогда и поймете почему.

"P.S. Заметьте, Тарасов, автор сделал библиотеку, которая работает. Вы ничего работающего представить не можете."

кому нужна такая библиотека? У нее крайне низкий КПД и использовать ее можно крайне ограниченно.
Я предлагаю построение классификатора, более общего назначения.

Кроме того, автор запутается в своей библиотеке. Я уже говорил, что классификатор должен создавать АВТОМАТ, идиёт.
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 11:59
"Ну дак заведи новую ветку. Выложи туда свои идеи. И поподробней. Ато по тому что ты написал я не могу понять что и как нада делать. Идеи всегда приветствуются. "

а я уже выкладывал, и весьма подробно...

сдесь тусуются люди, не понимающие русского языка вообще, включая шуклина.

правила образования слов никто не знает здесь. о чем говорить?

Автомат должен делать классификатор и заполнять базу понятийного множества, причем по четкому, простому алгоритму.
Вы даже этого не понимаете.

Вот зарубите себе на носу, что именно так должно быть, а потом думайте, как проще всего это делать.
Вот я придумал.
[Ответ][Цитата]
Dark Welder
Сообщений: 1155
На: Обработка русского языка
Добавлено: 01 дек 08 12:01
Цитата:
Автор: Тарасов
Но тебе, балда, этого не понять.
Напимер: имеем максимальную скорость С, делим ее пополам, записываем понятие как С/2.

Тем самым классификатор строиться от сложного к простому. Не было понятий ранбше с/2, теперь появилось. И находится оно не в общей таблице скоростей, а в другой таблице, стоящей по иерархии ниже.

Чего же тут непонятного...
Имеем "колбасу". Делим ее пополам (кстати, вдоль или поперек?) и записываем понятие как "полколбасы".
Гениально. Вы реально первый, кто до этого додумался. Таблица содержит "полколбасы", "полчайника", "полводопровода" и "полканализации".
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 12:04
"P.S. Заметьте, Тарасов, автор сделал библиотеку, которая работает. Вы ничего работающего представить не можете."


2+2=4

у меня все работает. Мне не нужно писать программу, чтобы проверить, что это так.
а ты, дурак, веришь только программе, которая делает эту операцию и считаешь, что если то же самое сделать в уме, то не считается.
это потому, что у тебя мозг приметивный, ты не можеш в уме проверять степ бай степ алгоритмы. А я могу и легко...

И мне не нужно даже учить программирование. у меня все работает. А тебе, дураку, вместо того, чтобы не по делу трендеть, учить надо то, что я тебе говорю наизусть и хватать каждое мое слово.
надо тебе написать алгоритм на С+, вот ты и пиши...
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 12:09
Имеем "колбасу". Делим ее пополам (кстати, вдоль или поперек?) и записываем понятие как "полколбасы".
Гениально. Вы реально первый, кто до этого додумалься. Таблица содержит "полколбасы", "полчайника", "полводопровода" и "полканализации".


а если мы имеем человека, и разрубаем его пополам, то мы имеем не полчеловека, а ТРУП.(это понятие ДРУГОЙ системы отсчета, поскольку есть иерархия систем в видовом классификаторе), а "пол человека"-понятие для своей системы отсчета. если вы не построите иерархию в классификаторе, то вы не различите труп от полчеловека (ИИ не различит, понимаете?).
Чувствуете разницу? Неужели не понятно теперь, для чего иерархии нужны?
[Ответ][Цитата]
Dark Welder
Сообщений: 1155
На: Обработка русского языка
Добавлено: 01 дек 08 12:12
Цитата:
Автор: Тарасов
"P.S. Заметьте, Тарасов, автор сделал библиотеку, которая работает. Вы ничего работающего представить не можете."

кому нужна такая библиотека? У нее крайне низкий КПД и использовать ее можно крайне ограниченно.
Я предлагаю построение классификатора, более общего назначения.

Кроме того, автор запутается в своей библиотеке. Я уже говорил, что классификатор должен создавать АВТОМАТ, идиёт.

Библиотека нужна тем, кто занимается морфологическим анализом русского языка и проверкой русской орфографии. Как и говорит автор.

Это замечательно, что вы предлагаете построение классификатора более общего назначения. Но как конкретно с помощью вашего классификатора можно проводить морфологический анализ русского языка?
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Обработка русского языка
Добавлено: 01 дек 08 12:15
"у меня все работает. Мне не нужно писать программу, чтобы проверить, что это так."
Вообще-то есть понятие автоматизации. Это когда человек перекладывает часть своей работы на компъютер или робота. Считать в уме - это хорошо, но если можно это переложить на кого-то или что-то другое, то появится время для чего-то другого. Это и есть прогресс. Такчто я считаю что писать программы нужно. Даже если они не столь универсальны как человеческий мозг.
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 12:20
кстати, про колбасу.
Есть СО, в которой полколбасы вообще колбасой не является. В магазине оптовом, где колбасу не продают по половине, к примеру, ну неужели трудно это понять?

"Но как конкретно с помощью вашего классификатора можно проводить морфологический анализ русского языка?"

исправление некоторых морфологических ошибок, а также синтаксиса в фразах, НЕВОЗМОЖНО без моего классификатора.
Автор вообще о таких вещах не думает.
Запятая в "казнить нельзя помиловать" ставиться после того, когда понятен смысл фразы. Автор не париться над пониманием смысла, а это очень эффектно используется человеком для исправления морфологических ошибок.
Автор пытается исправлять ошибки слишком приметивным образом.
В моем случае, проверка морфологии, это надстройка к библиотеке в виде алгоритма.
Автор закладывает в библиотеку морфологию и по весам корректирует ошибки. ПРИМЕТИВ.
[Ответ][Цитата]
гость
89.208.11.*
На: Обработка русского языка
Добавлено: 01 дек 08 12:25
"Это и есть прогресс. Такчто я считаю что писать программы нужно. Даже если они не столь универсальны как человеческий мозг. "

вот когда мои мозги будут нуждаться в такой автоматизации, тогда я и начну учить программирование.
Пока что, мои мозги работают на порядок быстрее и качественнее, чем то, что вы пишете в программе.

И вообще, каждый должен делать свое дело.
Вы не умеете делать методологическую работу и делаете приметивные реализации по амебной методе.
Я вам предлагаю заметно ускорить прогресс. Вы делаете то, что я говорю, а понимание к вам потом придет.

Все, что вы сделаете, это закопаетесь в ненужных проблемах, это же очевидно. Вам хочется закопаться?

делайте атомат и будет вам счастье.
[Ответ][Цитата]
 Стр.3 (17)1  2  [3]  4  5  6  7  ...  17<< < Пред. | След. > >>