Главная

Статьи

Ссылки

Телефон: 8(095)89-89-111

Статьи для переводчиков

Перевод сайтов

Статический машинный перевод: Дайте точку опоры!

По материалам сайта: http://www.membrana.ru/

Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке...

Фраза эта гласила: "Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают". Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предвещал скорое появления новой системы по "кличке" Decoder.

Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт (Kevin Knight), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой.

Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии "учат" программу, какое слово что означает — с учётом синтаксиса.

Подобные "словарные" технологии используются в системах вроде BabelFish и Translate.ru.

Поскольку их банки данных — собственно, словари, — были и являются поныне очень массивными, раньше они были более эффективными, нежели "статистические" переводчики.

А новая технология статистического машинного перевода позволяет создавать системы, которые будут "щёлкать" тексты на самых разных языках.

Главное — это наличие "параллельных данных".

Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM. Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру "скормить" текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, "выучит" второй язык.

New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — "rajl kabir" и "rajl tawil". Если машина "знает", что первая фраза означает "крупный человек", а вторая — "высокий человек", то банальная статистика позволит машине понять, что "rajl" означает "человек".

Подобные простые фразы носят название "N-граммы", и они считаются базовыми элементами систем машинного перевода.

Хотя принцип кажется простым до примитивизма, у него есть ряд своих "но". Во-первых, для полноценного "знания" второго языка требуется огромный массив данных — одним текстом не обойдёшься.

Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения.

А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM.

Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски (David Yarowski) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский и даже клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek.

Технология всё та же: если автоматическому переводчику предоставить "на съедение" тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.

Доктор Яровски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время.

Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och).

Перефразируя Архимеда, Ох говорит: "Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода".

Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны — а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели.

Надо сказать, что в своё время таким образом была расшифрована надпись на Розетском камне — базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена "Птолемей" и "Клеопатра", удалось расшифровать иероглифическую египетскую надпись, и в итоге — практически весь язык.

Дело Франсуа Шампольона, которому и принадлежит пальма первенства в расшифровке надписи Розетского камня, живёт, процветает и автоматизируется.

http://arenda.ks.ua/

http://sistemnik.com/


Наши партнеры


  • кирпич м 150
  • межкомнатные стальные двери
  • Престижная Интернет реклама, рекламное агентство "Агава"
  • Скандинавия. Автобусные туры Финляндия-Швеция.
  • бассейны спа

    Предложение для переводчков


    Если Вы уверены в своих силах, предлагаем Вам пополнить ряды наших переводчиков. Для этого необходимо написать письмо с предложением о сотрудничестве в наше агентство переводов. Вас ждет интересная работа по переводу текстов на разные тематики.


  • Home   |   Portfolio  |   Links