![]() |
| ||||||||||||
|
| ||||||||||||
|
| ||||||||||||
|
| ||||||||||||
Статический машинный перевод: Дайте точку опоры!
По материалам сайта: http://www.membrana.ru/ Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке... Фраза эта гласила: "Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают". Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предвещал скорое появления новой системы по "кличке" Decoder. Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт (Kevin Knight), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой. Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии "учат" программу, какое слово что означает — с учётом синтаксиса. Подобные "словарные" технологии используются в системах вроде BabelFish и Translate.ru. Поскольку их банки данных — собственно, словари, — были и являются поныне очень массивными, раньше они были более эффективными, нежели "статистические" переводчики. А новая технология статистического машинного перевода позволяет создавать системы, которые будут "щёлкать" тексты на самых разных языках. Главное — это наличие "параллельных данных". Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM. Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру "скормить" текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, "выучит" второй язык. New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — "rajl kabir" и "rajl tawil". Если машина "знает", что первая фраза означает "крупный человек", а вторая — "высокий человек", то банальная статистика позволит машине понять, что "rajl" означает "человек". Подобные простые фразы носят название "N-граммы", и они считаются базовыми элементами систем машинного перевода. Хотя принцип кажется простым до примитивизма, у него есть ряд своих "но". Во-первых, для полноценного "знания" второго языка требуется огромный массив данных — одним текстом не обойдёшься. Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения. А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM. Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски (David Yarowski) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский и даже клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek. Технология всё та же: если автоматическому переводчику предоставить "на съедение" тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны. Доктор Яровски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время. Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och). Перефразируя Архимеда, Ох говорит: "Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода". Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны — а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели. Надо сказать, что в своё время таким образом была расшифрована надпись на Розетском камне — базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена "Птолемей" и "Клеопатра", удалось расшифровать иероглифическую египетскую надпись, и в итоге — практически весь язык. Дело Франсуа Шампольона, которому и принадлежит пальма первенства в расшифровке надписи Розетского камня, живёт, процветает и автоматизируется.
|
http://arenda.ks.ua/ http://sistemnik.com/ Наши партнеры Предложение для переводчков Если Вы уверены в своих силах, предлагаем Вам пополнить ряды наших переводчиков. Для этого необходимо написать письмо с предложением о сотрудничестве в наше агентство переводов. Вас ждет интересная работа по переводу текстов на разные тематики. | ||||||||||||
|
Home | Portfolio | Links | |||||||||||||