Тема 2.2 Синтаксический анализ. Методы формализации синтаксической структуры.
Литература.
Бондаренко М.Ф., Осыка А.Ф. Автоматическая обработка информации на естественном языке. - К., 1991
Шемакин Ю.И. Начала компьютерной лингвистики – М., 1992
Задача синтаксического анализа – выявление структуры синтаксических связей между элементами фразы.
Работа всех синтаксических анализаторов основана на использовании имеющихся в языке средств для обозначения синт. отношений – формальных показателей синт. роли. Анализатор использует
1) морфологическую инф-цию;
2) инф. о сочетаемостных св-вах грам. классов слов в пределах определенных грам. конструкций;
3) пунктуацию;
4) позиционные условия реализации опред. типов синт. связей;
5) лексическую инф.;
6) семантическую инф.
Практически невозможно построить успешный синтаксический анализатор без привлечения элементов семантического анализа фразы.
Два классич. метода представления синтаксической структуры:
1) метод непосредственных составляющих (НС);
2) метод зависимостей.
Суть метода 1) в том, что когда между 2-мя текстовыми единицами обнаруживается связь, она фиксируется посредством «свёртывания» этих единиц в новую единицу высшего порядка, которая уже как единое целое участвует в следующих свёртываниях. В результате всё предложение сворачивается в одну единицу, кот. обозначается S. Обозначение синт. структуры в результате представляет бинарное дерево описывающее порядок таких последовательных свёрток. Вершина дерева – символ S. Для простого предложения он делится на группу существительного – члены, зависимые от подлежащего, и группу глагола – члены, зависимые от сказуемого. Эти группы в свою очередь разделяются на более мелкие единицы – вплоть до отдельных слов.
Свойства систем НС:
Множество А таких составляющих образует систему составляющих, если А удовлетворяет следующим условиям:
в А входит в качестве элементов как сама фраза целиком, так и все словоформы по отдельности;
любые 2 составляющие не пересекаются, либо одна составляющая целиком содержится в другой.
Обозначения НС
Обозначения непосредственных составляющих
Sx предложение
x: утв. – утвердительное
отр. – отрицательное
воп. - вопросительное
Vzxyvw глагол в роде x, числе y, времени v и лице w
VPzxyvw группа глагола в роде x, числе y, времени v и лице w
z:
i
– непереходный
t
– переходный
r
– рефлексивный (возвратный)
Nxyz существительное в роде x, числе y и падеже z
NPxyz группа существительного в роде x, числе y и падеже z
Axyz прилагательное в роде x, числе y и падеже z
APxyz группа прилагательного в роде x, числе y и падеже z
P предлог
PP предложная группа
Ad наречие
AdP наречная группа
M модальное слово
Основной недостаток метода в том, что полученная структура является структурой вложенных словосочетаний, а собственно синтаксические связи между словами она не отображает.
Суть метода зависимостей: зависимостная связь, обнаруживаемая между 2-мя единицами, обозначается стрелкой, соединяющей связанные единицы. Стрелка направлена от главного слова пары к зависимому. В результате структура предложения представляется в виде дерева с корнем – сказуемым. Однако, не все синт. связи интуитивно понимаются как зависимости. Поэтому, для соблюдения единообразия формализма принято в связи между подлежащим и сказуемым главным словом считать сказуемое, а однородные члены изображать зависимыми один от другого по цепочке или зависимыми от одной общей фиктивной вершины, специальные соглашения принимаются для обращений, вводных оборотов и т.п.
Деревья зависимостей (деревья подчинения) обладают свойством проективности. В них а) дуги не пересекаются, б) корень не лежит ни под одной из дуг. Большинство предложений технической и деловой прозы имеют проективную структуру.
Дуги в деревьях зависимостей помечают, указывая синт. отношения, которое они обозначают.
Краткий список синт. отношений в рус. языке и их обозначений
пред - предикативная связь между подлежащим и сказуемым;
оппоз - оппозитивная связь между именем существительным и его приложением;
опред - отношение между именем существительным и согласованным определением;
атр - атрибутивное отношение между именем существительным и его несогласованным определением;
обст - связь между глаголом и обстоятельством;
отпредл - связь между предлогом и управляемым им существительным;
агент - связь между сказуемым и существительным в творительном падеже, обозначающим имя деятеля;
1 об - связь между сказуемым и прямым дополнением (без предлога);
2 об - связь между сказуемым и косвенным дополнением (с предлогом);
присвяз - отношение между глаголом-связкой и именной частью сказуемого;
ген - связь от существительного к зависимому существительному в родительном падеже.
Недостатки метода:
- устанавливается связь между парами слов, связь между словосочетаниями не передаётся;
- наличие только подчинительных связей не даёт естественным образом описать нек. виды синт. отношений.