This version of the page http://users.kpi.kharkov.ua/si1/kursin/tema2_2.htm (0.0.0.0) stored by archive.org.ua. It represents a snapshot of the page as of 2008-07-27. The original page over time could change.
Тема 2.2 Синтаксический анализ. Методы формализации синтаксической структуры

Тема 2.2 Синтаксический анализ. Методы формализации синтаксической структуры.

Литература.

Бондаренко М.Ф., Осыка А.Ф. Автоматическая обработка информации на естественном языке. - К., 1991

Шемакин Ю.И. Начала компьютерной лингвистики – М., 1992

 

Задача синтаксического анализа – выявление структуры синтаксических связей между элементами фразы.

Работа всех синтаксических анализаторов основана на использовании имеющихся в языке средств для обозначения синт. отношений – формальных показателей синт. роли. Анализатор использует

1)       морфологическую инф-цию;

2)       инф. о сочетаемостных св-вах грам. классов слов в пределах определенных грам. конструкций;

3)       пунктуацию;

4)       позиционные условия реализации опред. типов синт. связей;

5)       лексическую инф.;

6)       семантическую инф.

Практически невозможно построить успешный синтаксический анализатор без привлечения элементов семантического анализа фразы.

 

Два классич. метода представления синтаксической структуры:

1)       метод непосредственных составляющих (НС);

2)       метод зависимостей.

Суть метода 1) в том, что когда между 2-мя текстовыми единицами обнаруживается связь, она фиксируется посредством «свёртывания» этих единиц в новую единицу высшего порядка, которая уже как единое целое участвует в следующих свёртываниях. В результате всё предложение сворачивается в одну единицу, кот. обозначается S. Обозначение синт. структуры в результате представляет бинарное дерево описывающее порядок таких последовательных свёрток. Вершина дерева – символ S. Для простого предложения он делится на группу существительного – члены, зависимые от подлежащего, и группу глагола – члены, зависимые от сказуемого. Эти группы в свою очередь разделяются на более мелкие единицы – вплоть до отдельных слов.

Свойства систем НС:

Множество А таких составляющих образует систему составляющих, если А удовлетворяет следующим условиям:

в А входит в качестве элементов как сама фраза целиком, так и все словоформы по отдельности;

любые 2 составляющие не пересекаются, либо одна составляющая целиком содержится в другой.

Обозначения НС


 

Обозначения непосредственных составляющих

Sx               предложение

x:                утв.  – утвердительное

                   отр. – отрицательное

                   воп. - вопросительное

Vzxyvw         глагол в роде x, числе y, времени v и лице w

VPzxyvw           группа глагола в роде x, числе y, времени v и лице w

z:                             i – непереходный
t – переходный
r – рефлексивный (возвратный)

Nxyz            существительное в роде x, числе y и падеже z

NPxyz          группа существительного в роде x, числе y и падеже z

Axyz             прилагательное в роде x, числе y и падеже z

APxyz          группа прилагательного в роде x, числе y и падеже z

P                 предлог

PP              предложная группа

Ad              наречие

AdP            наречная группа

M               модальное слово

 

Основной недостаток метода  в том, что полученная структура является структурой вложенных словосочетаний, а собственно синтаксические связи между словами она не отображает.

 

Суть метода зависимостей: зависимостная связь, обнаруживаемая между 2-мя единицами, обозначается стрелкой, соединяющей связанные единицы. Стрелка направлена от главного слова пары к зависимому. В результате структура предложения представляется в виде дерева с корнем – сказуемым. Однако, не все синт. связи интуитивно понимаются как зависимости. Поэтому, для соблюдения единообразия формализма принято в связи между подлежащим и сказуемым главным словом считать сказуемое, а однородные члены изображать зависимыми один от другого по цепочке или зависимыми от одной общей фиктивной вершины, специальные соглашения принимаются для обращений, вводных оборотов и т.п.

Деревья зависимостей (деревья подчинения) обладают свойством проективности. В них а) дуги не пересекаются, б) корень не лежит ни под одной из дуг. Большинство предложений технической и деловой прозы имеют проективную структуру.

Дуги в деревьях зависимостей помечают, указывая синт. отношения, которое они обозначают.

 

Краткий список синт. отношений в рус. языке и их обозначений

пред - предикативная связь между подлежащим и сказуемым;

оппоз - оппозитивная связь между именем существительным и его приложением;

опред - отношение между именем существительным и согласованным определением;

атр - атрибутивное отношение между именем существительным и его несогласованным определением;

обст - связь между глаголом и обстоятельством;

отпредл - связь между предлогом и управляемым им существительным;

агент - связь между сказуемым и существительным в творительном падеже, обозначающим имя деятеля;

1 об - связь между сказуемым и прямым дополнением (без предлога);

2 об - связь между сказуемым и косвенным дополнением (с предлогом);

присвяз - отношение между глаголом-связкой и именной частью сказуемого;

ген - связь от существительного к зависимому существительному в родительном падеже.

 

Недостатки метода:

- устанавливается связь между парами слов, связь между словосочетаниями не передаётся;

- наличие только подчинительных связей не даёт естественным образом описать нек. виды синт. отношений.