Машинный перевод. Можно ли помочь электронике?

 
+
-
edit
 

Anika

координатор
★★
Balancer> Если бы кто-то задумался о переводе межязыковом, а не с/на английский, то промежуточным языком надо бы было выбирать что-то с более однозначным смыслом корней.
Неужто эсперанто таки пригодится? %)
Когда говорит масло - пушки молчат. А голос пушек - это голос Муз. ©Ю.Шерман  33.033.0
+
-
edit
 

Balancer

администратор
★★★★☆
Anika> Неужто эсперанто таки пригодится? %)

Он же был первым и потому не самым удачным. Потом много более эффективных языков было. Эсперанто популярен, так как был первым :)
 38.0.2125.10438.0.2125.104
+
0 (+1/-1)
-
edit
 

AXT

инженер вольнодумец

Anika> Неужто эсперанто таки пригодится? %)

Не думаю. Скорее уж санскрит, это наиболее близкий к праиндоевропейскому из известных нам. Ошибок будет меньше.
 13.0.782.22013.0.782.220
+
+1
-
edit
 

Anika

координатор
★★
Balancer> Он же был первым и потому не самым удачным. Потом много более эффективных языков было. Эсперанто популярен, так как был первым :)
Хм, у гугловского переводчика языков много. Можно поэкспериментировать с двухступенчатыми переводами в обход английского :)


Забавно. Со всеми попробованными языками получается "ВВС Индии", а с ивритом - "Majestic воздуха".
Когда говорит масло - пушки молчат. А голос пушек - это голос Муз. ©Ю.Шерман  33.033.0
Это сообщение редактировалось 29.10.2014 в 00:26
+
-
edit
 

Balancer

администратор
★★★★☆
Anika> Хм, у гугловского переводчика языков много. Можно поэкспериментировать с двухступенчатыми переводами в обход английского :)

Так в том-то и проблема, что перевод есть только с другого языка на английский и обратно. Все остальные пары переводов работают через английский. Просто если ты переводишь прямо с языка на язык, процесс скрыт, если вручную — то можно видеть промежуточный результат :) Легок проверить, если переводить с языка с не латинской письменностью на другой не латинский какое-то нестандартное слово или имя. Оно сперва транслитерируется на английский, а потом таким и остаётся.

Русский в греческий, «Что такое корпес?» -> «Τι είναι korpes;»
 3737
RU VVSFalcon #29.10.2014 16:21  @Balancer#28.10.2014 22:57
+
-
edit
 

VVSFalcon

аксакал

Balancer> Он же был первым и потому не самым удачным.
Волапюк на 8 лет старше.

Не педант :)
Ба, да это же жопа! Интересно, как выглядели ее создатели? (c)  37.0.2062.12437.0.2062.124
US Иван Нью-Джерсийский #20.12.2014 09:38  @Balancer#20.12.2014 09:32
+
-
edit
 
Balancer> Ну, Google Translate переводит «кризис» именно как «危機». По отдельности: «危» = «опасность». А вот «機» = «машина» (в смысле machine, а не car) :) Но не факт, что там однозначный перевод.

Ну, учитыая, что "Гугл" сначала с любого языка переводит на английский, а уже потом на язык назначения...
Качество перевод сам понимаешь.

Блин, "Гугл" и с английским порой косячит нещадно.
Трудно искать черную кошку в темной комнате, особенно если ее там нет. Это тем более глупо, если эта кошка умная, смелая и вежливая.(с) С.К.Шойгу.  34.034.0

xab

аксакал

И.Н.> Ну, учитыая, что "Гугл" сначала с любого языка переводит на английский, а уже потом на язык назначения...

Имменно на английский?
Мне казалось, что на специальный универсальный промежуточный язык.
История учит тому, что она ничему не учит  9.09.0

AXT

инженер вольнодумец

xab> Мне казалось, что на специальный универсальный промежуточный язык.

Люди проверяли — палится на идиомах английского. Т.е. подсовываем исходник, который идиомой не является на исходном языке, не является на целевом, но идиома на английском при дословном переводе. Переводится как англоязычная идиома.
 13.0.782.22013.0.782.220
+
-
edit
 

Balancer

администратор
★★★★☆
AXT> Люди проверяли — палится на идиомах английского. Т.е. подсовываем исходник, который идиомой не является на исходном языке

Да там без всяких идиом, когда возникают проблемы с переводом на язык, то остаётся английский промежуточный. Отдельные слова или целые фразы.

Отсюда и проблемы межъязыковых переводов. Английский очень контекстно зависимый и неоднозначный язык. Один из худших промежуточных языков, очень много лингвистической информации теряется.
 3939
US Иван Нью-Джерсийский #22.12.2014 07:30  @Balancer#21.12.2014 15:09
+
-
edit
 
Balancer> Отсюда и проблемы межъязыковых переводов. Английский очень контекстно зависимый и неоднозначный язык. Один из худших промежуточных языков

Я думаю, что вряд ли вообще есть удачный промежуточный язык. Лучше все же создавать системы прямого перевода.
Трудно искать черную кошку в темной комнате, особенно если ее там нет. Это тем более глупо, если эта кошка умная, смелая и вежливая.(с) С.К.Шойгу.  34.034.0
RU Balancer #22.12.2014 07:33  @AGRESSOR#22.12.2014 07:30
+
-
edit
 

Balancer

администратор
★★★★☆
И.Н.> Я думаю, что вряд ли вообще есть удачный промежуточный язык.

Языки с малой синтаксической насыщенностью, типа латинского, немецкого, упомянутого выше эсперанто или даже русского :) Все они не идеальны, но подходят для промежуточного языка лучше. Меньше смысловых потерь.

И.Н.> Лучше все же создавать системы прямого перевода.

Нереально для такой матрицы языков. Google Translate сейчас 90 языков поддерживает. Это будет 8010 систем прямого перевода. Вопрос даже не в числе, а в специалистах. Попробуй найти спецов, которые будут отрабатывать перевод с казахского на мальтийский :)
 39.0.2171.9539.0.2171.95

+
-
edit
 

digger

опытный

Некий искусственный язык на основе английского тоже подойдет,пиджинов есть много.Переводчик с английского будет работать и для пиджина с минимальными модификациями,так как он - почти подмножество.Добавить пару сот,до тысяч слов ,чтобы убрать многозначные слова,убрать сложные времена,отключить перевод идиом,которых в искусственном английском не будет.
I am looking for nut -> I now search for screwnut
 34.034.0
Это сообщение редактировалось 22.12.2014 в 17:04

ED

старожил
★★☆
digger> Некий искусственный язык на основе английского тоже подойдет

А смысл?
 39.0.2171.9539.0.2171.95

spam_test

аксакал

ED> А смысл?
словарный запас очень большой
 22

ED

старожил
★★☆
s.t.> словарный запас очень большой

А у все других, уже существующих языков, меньше чем в английском?
 39.0.2171.9539.0.2171.95
RU Серокой #22.12.2014 18:44  @ED#22.12.2014 18:36
+
-
edit
 

Серокой

координатор
★★★
ED> А у все других, уже существующих языков, меньше чем в английском?

Мне кажется, изначальная посылка была "тоже подойдёт". ;)

Промежуточный язык есть смысл делать на основе существующего. И на основе английского тоже можно.

ЗЫ. Даже эсперанто взяло слова из английского, немцкого, французского и условно-славянского.

ЗЗЫ. Вот почему в эсператно не смогли избавиться от диакритических знаков - мне непонятно... Они явно мешаются.
Больше не раскалятся ваши колосники. Мамонты пятилеток сбили свои клыки. ©  
+
-
edit
 

Balancer

администратор
★★★★☆
digger> Некий искусственный язык на основе английского тоже подойдет,пиджинов есть много

Не пойдёт. Задача же максимально облегчить семантическую избыточность токенов. А пиджны обычно, наоборот, упрощают язык, уменьшая словарный запас и таки образом увеличивая избыточность.

Грубо говоря, в идеальном промежуточном языке у каждого слова должно быть только одно значение. Никаких полусотни значений слова «go» и даже не 8 значений слова «косой» :)

digger> I am looking for nut -> I now search for screwnut

Вместо двух десятков значений слова «for» вводить два десятка новых раздельных слов?
 3939
RU Balancer #22.12.2014 18:59  @Серокой#22.12.2014 18:44
+
-
edit
 

Balancer

администратор
★★★★☆
Серокой> ЗЗЫ. Вот почему в эсператно не смогли избавиться от диакритических знаков - мне непонятно... Они явно мешаются.

Ограниченность латиницы и желание чётко передавать звуки, полагаю.

...

А с точки зрения понятности максимальному числу [индоевропейских] языков разрабатывали Интерлингву. Хотя больше там, конечно, латинских корней.
 3939
RU ED #22.12.2014 19:00  @Серокой#22.12.2014 18:44
+
-
edit
 

ED

старожил
★★☆
Серокой> Мне кажется, изначальная посылка была "тоже подойдёт". ;)

Дык я именно за это зацепился. Если подойдёт тоже (то есть и что-то другое подойдёт), то зачем делать то? Силы тратить. Если уже есть что-то другое подходящее.
 39.0.2171.9539.0.2171.95

Balancer

администратор
★★★★☆
ED> Если уже есть что-то другое подходящее.

Интересно, чисто информационно (мне навскидку не получается оценить), насколько эффективен или контрэффективен подход гипертрофированных по модальности языков и гиперсинтетических, типа Ифкуиля? — Ифкуиль [лингвистика] [Balancer#01.09.08 01:56]

С одной стороны, можно очень тонко передать контекст. С другой — х.з. как с точки зрения языка корректно использование сильно вырожденных конструкций, допускает ли он такое. Т.е. чтобы пару слов Ифкуиля, передающих десяток слов обычных языков, записать всё равно десятком примитивов Ифкуиля.

Вообще, субъективно кажется, что синтетические языки семантически более богаты, чем аналитические. И поэтому промежуточный слой должен быть синтетическим.

Интересно, как в качестве промежуточного иврит? Он и синтетический, и наши израильтяне писали, что там очень строгая, почти математическая грамматика.
 3939
RU Серокой #22.12.2014 19:15  @Balancer#22.12.2014 19:12
+
-
edit
 

Серокой

координатор
★★★
Balancer> там очень строгая, почти математическая грамматика.

Кстати, а почему б тогда вообще не применять в качестве языка просто цифры. Ну, число - корень_существительного_№№№№, например. И ещё в наборе цифры вроде падежа, приставки и т.д.
И никому не будет обидно )
Другое дело, что грамматику всё равно придётся строить на основе чего-то.
Больше не раскалятся ваши колосники. Мамонты пятилеток сбили свои клыки. ©  
+
-
edit
 

Balancer

администратор
★★★★☆
Кстати, совсем упустил.

Ложбан — Википедия

Ло́жбан (lojban) — плановый язык, созданный в 1987 году Группой логического языка (англ. The Logical Language Group, ложб. la .lojbangirz.) на основе предшествующего проекта логлан с целью выпустить в кратчайшие сроки стабильную версию языка, свободно доступную для всех желающих. Отличительными свойствами ложбана от других искусственных языков являются: однозначный синтаксис и в рамках его большая свобода выражения, способность выразить тонкие оттенки эмоций и лёгкая распознаваемость на слух. Ложбан отличается от других плановых языков набором следующих характеристик: Ложбан (как и его предшественник логлан) входит в семейство искусственных языков логического типа. // Дальше — ru.wikipedia.org
 

Как раз одна из задач — промежуточный язык при машинных переводах. Но мне он кажется недостаточно синтетическим. Всё же, пошли навстречу человеку, а не компьютеру. А промежуточный язык может быть вообще нечеловекочитаемым :)
 3939
RU Balancer #22.12.2014 19:23  @Серокой#22.12.2014 19:15
+
-
edit
 

Balancer

администратор
★★★★☆
Серокой> Кстати, а почему б тогда вообще не применять в качестве языка просто цифры.

Да, как вариант. Антропоцентризм заставляет ориентироваться на «осмысленные» запоминаемые корни.

Серокой> Другое дело, что грамматику всё равно придётся строить на основе чего-то.

Вот на Ифкуиле и строить. Компьютеру пофиг на 22 морфологические категории и 81 падеж :)
 3939

spam_test

аксакал

ED> А у все других, уже существующих языков, меньше чем в английском?
вообще, да. Английский основной генератор и собиратель слов просто исторически, потому у него получился большой запас. Но сам язык неудачен.
 22

в начало страницы | новое
 
Поиск
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru