GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.2 (6)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: автоматический перевод текстов.
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 20 мар 07 2:08
Да, слышится весьма не плохо.
Правда, платить за что-то (напр.хостинг) не хотелось бы... проект-то прибыли не обещает...
[Ответ][Цитата]
mserg
Сообщений: 258
На: автоматический перевод текстов.
Добавлено: 20 мар 07 11:44
Ребята, скажите точно, что нужно для организации базы переводов... И по точнее, как она будет пополняться. Будет вам и хостинг и все такое..
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 20 мар 07 14:10
Ну, : ))

Вообще-то хостинг можно найти и за 3 доллара/мес (5Гб диска/1Тб трансфера), что составляет пару поездок на метро, зато какая слава! хехе

Еще можно взять на sf.net под опен-сурс проект (не знаю, дают ли там бд для использования, есть ли пхп и т.п., т.е. не знаю, полноценный ли это хостинг, но то, что можно захостить свой сайт на sf, это точно).

Еще вариант - для начала заюзать свою домашнюю тачку, поставить на ней апач (его можно поставить и под виндой) и захостить систему. Потом, когда найдутся спонсоры, перевести все это дело на профессиональную основу.

В крайнем случае, договориться с кем-нить (хоть с хозяевами GotAI). Другими словами, хостинг - не проблема.

А для организации базы данных, собственно говоря, нужна лишь прога, которая будет юзать эту базу. Ну и определенный формат организации базы в вики. Пополнятся база будет, в основном, 2-мя способами: человек приходит на вики и заносит перевод. Либо когда система ошибается с переводом, то человек может указать системе на это и ввести свой вариант. Этот вариант автоматически заносится системой в вики (его потом смогут проверить и, если надо, исправить другие).

Можно так же выводить debug-информацию, типа того: система перевела, ей сказали, что так - неправильно, а правильно вот так; система заносит новый вариант перевода в вики, при этом указывая источник неправильного перевода, помечая, была ли это начальная база другой системы автоматического перевода, либо же это внес человек.

Дабы не переполнять базу, совсем похожие предложения (загорелся красный свет - загорелся синий свет) можно как-то группировать (но на первых порах это не так важно). Так же можно создавать список к переводу, т.е. список тех предложений, на которые у системы не хватает вариантов перевода для полноценного функционирования и которые людям нужно вносить в первую очередь.

даа.. интересно получается.. можно даже попробовать.. : )))
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 11 апр 07 2:19
О гугловом переводчике: http://news.com.com/Google+seeks+world+of+instant+translations/2100-1046_3-6171145.html

Кстати, как источники, они берут тексты, официально переведенные на множество языков: ООНовские доки и т.п. Возможно, поэтому специфические технические термины переводятся их системой не лучшим образом.

daner, так будем делать или нет?
[Ответ][Цитата]
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 11 апр 07 14:29
Цитата:
Автор: anatoli

О гугловом переводчике: http://news.com.com/Google+seeks+world+of+instant+translations/2100-1046_3-6171145.html

Кстати, как источники, они берут тексты, официально переведенные на множество языков: ООНовские доки и т.п. Возможно, поэтому специфические технические термины переводятся их системой не лучшим образом.

daner, так будем делать или нет?


да я с удовольствием. с чего только начать? с подбора текстов или с писания движка.
Кстати, что насчет вашего участия? есть желание? в чем именно вы сможете помогать?
[Ответ][Цитата]
admin
Сообщений: 292
На: автоматический перевод текстов.
Добавлено: 11 апр 07 18:35
кстати, вики легко и просто можно организовать вот здесь: http://requests.wikia.com/wiki/Request_Wiki:Request_a_Wikia
ну или, если проект действительно примет серьезный оборот, можно будет подумать об отдельном сайте с нормальным хостингом и той же mediawiki
[Ответ][Цитата]
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 11 апр 07 19:41
Но вопрос "с чего начинать?" остается открытым.

Кстати, вот интересный сайт : http://www.multitran.ru/c/m.exe (<- это НЕ запускной файл)
переводит разного рода словосочетания, по различным тематикам и т.д.
Может быть тоже, будет полезен.
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 12 апр 07 0:53
с чего начать? можно начать с названия проекта, потом зарегистрировать его на sf.net (кстати, они ко всему прочему еще дают и php и mysql, и 100Mb места на hdd, так что можно будет поднять свою wiki на движке mediawiki http://sourceforge.net/docman/display_doc.php?docid=753&group_id=1#projectweb, хотя там уже есть своя вики в бета-состоянии http://www.wiki.sourceforge.net/help). Или же захостить проект на sf.net, а базу знаний (вики) на Wikia (коммерческая инициатива создателя wikipedia и mediawiki), спасибо admin'у за ссылку.

Далее я вижу 3 направления:
1. Подбор текстов как источников базы знаний
2. Определение/уточнение формата базы знаний
3. Написание кода системы

Если проект запустить на sourceforge, то через некоторое время (пару месяцев), если идея была хороша, присоединится определенное количество участников и все эти 3 пункта будут выполнены достаточно быстро. А далее появится приличное количество пользователей, что и определит дальнейшую судьбу проекта.

Мое участие я вижу во всех 3х пунктах. Если это будет проект на sf.net, то там все продумано для совместного развития проекта и это проблем не составит. Я бы и один начал, но уже устал делать все проекты один. Так что, если кто желает, давайте определимся с названием и зарегистрируем проект на сф.
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 12 апр 07 3:52
А пункт 3 в моем представлении имеет такие подпункты:

a. Интерфейс системы (обработка запросов к системе): на С/С++ и публикация оного в виде web service (а потом к нему уже можно будет прикрутить веб- и другие интерфейсы на любом языке с любой платформы).
b. Система индексации и построения связей внутри самой базы знаний (БЗ). Тоже С/С++ (я Java не знаю , а скрипты типа PHP и Perl не подойдут).
c. Интерфейс для работы с БЗ - добавление, изменение. На PHP или Java, или же заточка mediawiki (которая, кстати, на PHP).

Пункс "c" зависит от пункта 2 из списка из предыдущего поста.
[Ответ][Цитата]
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 12 апр 07 14:01
Смысла вам одному делать этот проект, нет. Так как и я в любом случае собирался его делать.
С направлениями развития я согласен ( хотя пункт 1 и 2 я объединял в один), но как на ваш взгляд, стоит сразу работать по всем этим направлениям, или все же "тише едешь дальше будешь"?

Теперь по пунктам (проще для обсуждения):

1) по поводу архитектуры. Обязательным, в архитектуре вижу возможность интеграции различных способов перевода. Т.е. комитет переводчиков, в который можно будет добавлять новые способы перевода. Как минимум, пока есть 2 основных подхода : (1) сравнение предложений и (2) статистическая совместимость слов. Мне кажется, они вполне могут работать как совместно, так и по раздельности.

2) жаль что Java вы не знаете . судя по всему С# тоже? Ну что же, будем значит на C++ мемори лики отлавливать.

3) на счет sf.net вполне согласен (хотя сам никогда им не пользовался, в роли разработчика). Название проекта считаю не принципиальным. Можно например OpenTrans (т.е. Open Translator), но мне лично, все равно.

4) я категорически против начинать писать код программы, пока не будет четкого детально проработанного плана (включая UML и псевдокоды основных функций)

А теперь не по теме . Вы с С++ на Netbeans работали? Задолбался уже его с g++ интегрировать .
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 12 апр 07 23:20
> Смысла вам одному делать этот проект, нет. Так как и я в любом случае собирался его делать.
ну вот и отлично!


Пункт 1 я имел в виду - поиск текстов/источников, их анализ, классификация и т.п. т.е. непосредственно не связаная с разработкой задача. А пункт 2 - это именно как/в каком виде представлять базу знаний (слова, фразы, предложения).

1. Да, согласен полностью.

2. Да, шарп тоже не знаю. Точнее, не знаю на профессиональном уровне, код читать могу. Зато на С у меня мемори ликов нет.. Я специализируюсь на С и до сих пор не видел необходимости в java & .net; все, что можно сделать на этих языках я могу сделать так же быстро на С.


Название проекта как бы и не столь важно, но ведь при регистрации надо что-то ввести в поле "название проекта".. Ну а так как делать его собираемся вместе, то вот с названием должны быть согласны все. OpenTrans мне нравиться.. : )) Кстати, еще кто-нибудь из участников форума желает принимать участие в разработке проекта? Есть другие названия?

4 -> это правильно. Но на мой взгляд, очень уж сильно настаивать на плане тоже нет смысла. А то всё может на этом этапе и остановиться. Я, вообще - сторонник XP метода, предпочитаю иметь хоть что-то рабочее, пусть и корявое, чем очень правильные планы, но без строчки кода. Потом всегда можно улучшать и улучшать. Тем более, четко проработанные планы не очень стыкуются с опен-сурс разработкой. Другие разработчики добавляют код не по плану, а по необходимости. Думаю, будет лучше определиться лишь с базой системы, т.е. что это будет и как. Далее написать самый простой код и уже потом уточнять что к чему. Так и другие разработчики скорее примут участие в разработке.

С Netbeans не работал, по мне - под *никсами лучше эклипс. А вообще настоящие юниксоиды на С пишут в vi(m). Хотя я сам в большинстве своем пишу под WinNT-based ОСи с VS + плагины. В любом случае, ни один IDE для C/C++ даже близко не придвинулся к VS с плагинами.
[Ответ][Цитата]
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 13 апр 07 0:19
4)
Ну хотя бы, досконально ООП проработать. хотя бы основных модулей/классов и интерфейсов.

2)
Ну надеюсь, что на С++ мы сойдемся. Ниже (т.е. на С) я не согласен.
(у вас может ликов и не быть, а вот как насчет остальных участников?)

Ну не знаю, кто там на vi пишет, только если мазохисты. Чем эклипс лучше, я не знаю. У меня он окончательно заглючил при установки плагина для с++. вообще, на java, я как раз на эклипсе работал, но из-за этого глюка решил перейти на НБ,... и последняя версия, меня очень даже впечатлила.
На счет VS, не спорю... но мне нужно бесплатное для коммерческого использования под Линуксом. А с windows заморочка, так как не хочется постоянно сидеть в линуксе (как оказалось в нем нормальных электронных таблиц нет, а у меня в них данные экспериментов).

Судя по всему, OpenTrans тоже буду в NB писать.
[Ответ][Цитата]
anatoli
Сообщений: 249
На: автоматический перевод текстов.
Добавлено: 13 апр 07 1:26
насчет 4 - я бы сначала сделал что-нить простое v1.0, чтобы уже работало и люди могли бы использовать. А потом уже сделать v1.1, там уже проработать более детально различные аспекты, но и то, не сильно. И так еще пару версий. А вот уже где-нить к версии v2.0 - там уже сделать все как полагается, с планом, со всеми делами.

Просто до v2.0 может так получится что мы либо вообще не дойдем, либо дойдем через год. А за это время люди уже будут пользовать что-то простое, осталять feedback'и, пожелания, составлять вишлисты и т.п., что в результате может привести к полному пересмотру вообще всей идеи.

Насчет с++ - я не против, хотя предпочел бы на с. Насчет ликов - есть же инструменты, так называемые профайлеры и системы traced execution (DevPartner например). С ними никаких ликов не будет, да и других проблем (типа дедлоков и проблем синхронизации) тоже.

Предлагаю определиться с пунктом 1. Где будем брать тексты? Кто-нибудь желает посмотреть ООНовские доки на предмет усабельности и/или протестить гугловый переводчик?

Так же предлагаю высказывать идеи по пункту 2, т.е. кто как видит устройство базы знаний?
[Ответ][Цитата]
daner
Сообщений: 4593
На: автоматический перевод текстов.
Добавлено: 13 апр 07 3:44
Неее, только не С. Я поклонник нормального ООП. Так как на С++ сошлись, значит будем писать на С++ и точка. А кстати, а что там на счет Unicode? это же наверняка извращаться надо будет.

И вот еще вопрос : я еще не программировал под Линукс, но то что мы будем писать под windows, вообще можно будет под Линукс скомпилировать? или там половину кода менять надо будет?

Что касается версий. Скорее всего вы правы, но все же не хотелось бы видеть совсем барадачный проект. Когда работает не один человек и тем более, не в одной комнате, нужна хоть какая-то синхронизация работы. Ну хотя бы, в виде дизайна основных элементов и интерфейсов. Но в том, что в начале нужно, что-бы заработало, а потом уже вылизывать и улучшать - это правильно.

Теперь о базе данных (документах).

(1)Мне совсем не нравится идея с машинными переводами. Я думаю, что хотя бы, одна часть проекта должна быть достаточно надежной, что бы можно было на нее положится в оценке качества перевода.

(2)ООНовские документы это намного интереснее. я посмотрел, есть куча всяких докладов и прочего и прочего (и на русском и на английском). Но все в PDF, и надо будет переводить в текст. Это конечно решаемо, но... и наверняка не без проблем.

(3)Есть еще сайт Майкрософт (MSDN). Я глянул, там вроде появилась поддержка русского, только надо посмотреть, сколько его там, и как они переводят (дословно, или каждая статья от разных авторов).

(4)Кстати, можно man-ы от линукса поискать. В последнее время русификация там была не слабая.

(5)Еще, была идея взять переводы худ. литературы. Ну скажем Азимова, Саймака и т.д. В конце концов, это же не стихи. Хотя надо посмотреть, на сколько они соответствуют оригиналам (я никогда не проверял). Думаю тексты и на том и на другом языке будет не сложно найти.
[Ответ][Цитата]
admin
Сообщений: 292
На: автоматический перевод текстов.
Добавлено: 13 апр 07 12:25
из бесплатного: http://msdn.microsoft.com/vstudio/express/visualc/default.aspx

правда для тех, кто работал с полной версией VS.NET будет тяжело, для всех остальных будт очень даже приятно, так как, и тут я согласен с anatoli-ем, VS - лучшее, что было придумано для разработчиков на C++
[Ответ][Цитата]
 Стр.2 (6)1  [2]  3  4  5  6<< < Пред. | След. > >>