|
|
ИНФОРМАЦИЯ О ТЕХНОЛОГИИ
Информационный раздел Технологии автоматического анализа текста
Синтактико-семантический подход.Синтактико-семантический подход к извлечению знаний из текста на естественном языке опирается на лингвистическую модель.
В соответствии с этой моделью основу семантической структуры высказывания представляет так называемый пропозициональный компонет плана содержания. Этот компонет отражает внеязыковую ситуацию, описываемую предложением, и характеризует его объективное содержание, в отличие от прочих компонентов (модального, коммуникативного, иллокутивного), которые так или иначе характеризуют либо отношение говорящего к ситуации, либо соотнесенность ситуации с неким моментом времени, условиями ее реализации, и потому относятся к сфере субъективного.
Например, несмотря на различия в значении следующих предложений: Компания реорганизуется. Если бы компания реорганизовалась! Разве компания реорганизуется? Реорганизовалась ли компания? Необходимо реорганизовать компанию. Если бы компания реорганизовалась!
все они содержат общий пропозициональный компонент плана содержания - описывают ситуацию реорганизации компании.
Основным элементом в структуре пропозиции предложения являются предикаты, обозначающие отношения между объектами - обязательными участниками ситуации, которые называют аргументами или актантами предиката. В общем случае предикаты являются многоместными, т.е. обозначают ситуацию с несколькими обязательными участниками-актантами, каждый из которых выступает в своей семантической роли. Например, предикат "спать" является одноместным, "смотреть" - двухместным (кто смотрит что?), а предикат "командировать" предполагает участие в ситуации целых шести актантов - кто, кого, куда, откуда, на какой срок, с какой целью? При описании некоторых ситуаций используются предикаты, аргументами которых являются другие предикаты, например: "Мать хотела, чтобы ребенок заснул". Помимо актантов в структуру пропозиции могут входить объекты, обозначающие различные обстоятельства ситуации (сирконстанты).
Таким образом, синтактико-семантический подход к извлечению знаний предполагает выделение из структуры фразы ее семантического ядра - объективного описания ситуации, и абстрагирование от несущественных, субъективных компонентов плана содержания. С этой целью используется синтаксический анализатор текста, работающий на основании знания общих правил грамматики языка, а также словарь моделей управления, который описывает для каждого предиката способы выражения в языке его аргументов (предлоги и падежи актантов).
Результаты синтактико-семантического анализа текста открывают широкие возможности для утилизации выявленных знаний в информационно-поисковых системах, например, для поиска в тексте описаний ситуаций заданного класса и выявления их участников в соответствии с их ролями в ситуации: “продавец”, “покупатель”, “владелец” и т.п.
Дополнительно синтактико-семантический анализ текста позволяет сформировать содержательный портрет документа, выделив его ключевые понятия и ранжировав их по значимости в документе.
Применение средств синтаксического синтеза, постсинтаксических трансформаций отношений и тезауруса обеспечивает преобразование различных синтактико-семантических конструкций к общему унифицированному виду и позволяет отождествить одинаковые элементы смысла при различии в их выражении. Например, фразам “Этот транспорт был арендован предприятием у автобазы”, “Предприятие арендует у нашей автобазы несколько видов транспорта” и “Состоялась аренда транспорта предприятием у автобазы” будут соответствовать одинаковые элементы смысла: “предприятие арендует”, “аренда транспорта”, “аренда у автобазы”.
Значимость элементов предложения с позиции автора характеризует коммуникативный ранг, который определяется их отнесенностью к теме или реме и соотнесением с членами предложения (подлежащее, сказуемое, прямое и косвенное дополнения, определения, обстоятельства и др.). Эта информация, наряду со статистикой употребления и прочими факторами, позволяет выделить ключевые элементы текста для сравнения документов при поиске и классификации.
Общая схема лингвистической обработки текста приведена на данной схеме .
Описание каждой из фаз преобразований текста и решение сопутствующих ей задач (омонимии, метонимии, кореферентности и т.п.) может являться предметом отдельной большой статьи (и далеко не одной), поэтому здесь не приводится. Ключевые аспекты лингвистической обработки изложены в ряде публикаций, приведенных ниже, однако многие материалы еще ожидают выхода и будут освещены со временем.
Продукты, использующие технологию:
RCO Syntactic Engine
RCO Semantic Network
Статьи раздела: Ассоциативно-статистический подход . Синтактико-семантический подход.
|
|
|