ПерваяНовостиО технологииOn-line переводчикСсылки




ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Технологии автоматического анализа текста

Синтактико-семантический подход.

Синтактико-семантический подход к извлечению знаний из текста на естественном языке опирается на лингвистическую модель.

В соответствии с этой моделью основу семантической структуры высказывания представляет так называемый пропозициональный компонет плана содержания. Этот компонет отражает внеязыковую ситуацию, описываемую предложением, и характеризует его объективное содержание, в отличие от прочих компонентов (модального, коммуникативного, иллокутивного), которые так или иначе характеризуют либо отношение говорящего к ситуации, либо соотнесенность ситуации с неким моментом времени, условиями ее реализации, и потому относятся к сфере субъективного.

Например, несмотря на различия в значении следующих предложений: Компания реорганизуется. Если бы компания реорганизовалась! Разве компания реорганизуется? Реорганизовалась ли компания? Необходимо реорганизовать компанию. Если бы компания реорганизовалась!
все они содержат общий пропозициональный компонент плана содержания - описывают ситуацию реорганизации компании.

Основным элементом в структуре пропозиции предложения являются предикаты, обозначающие отношения между объектами - обязательными участниками ситуации, которые называют аргументами или актантами предиката. В общем случае предикаты являются многоместными, т.е. обозначают ситуацию с несколькими обязательными участниками-актантами, каждый из которых выступает в своей семантической роли. Например, предикат "спать" является одноместным, "смотреть" - двухместным (кто смотрит что?), а предикат "командировать" предполагает участие в ситуации целых шести актантов - кто, кого, куда, откуда, на какой срок, с какой целью? При описании некоторых ситуаций используются предикаты, аргументами которых являются другие предикаты, например: "Мать хотела, чтобы ребенок заснул". Помимо актантов в структуру пропозиции могут входить объекты, обозначающие различные обстоятельства ситуации (сирконстанты).

Таким образом, синтактико-семантический подход к извлечению знаний предполагает выделение из структуры фразы ее семантического ядра - объективного описания ситуации, и абстрагирование от несущественных, субъективных компонентов плана содержания. С этой целью используется синтаксический анализатор текста, работающий на основании знания общих правил грамматики языка, а также словарь моделей управления, который описывает для каждого предиката способы выражения в языке его аргументов (предлоги и падежи актантов).


Результаты синтактико-семантического анализа текста открывают широкие возможности для утилизации выявленных знаний в информационно-поисковых системах, например, для поиска в тексте описаний ситуаций заданного класса и выявления их участников в соответствии с их ролями в ситуации: “продавец”, “покупатель”, “владелец” и т.п.


Дополнительно синтактико-семантический анализ текста позволяет сформировать содержательный портрет документа, выделив его ключевые понятия и ранжировав их по значимости в документе.
Применение средств синтаксического синтеза, постсинтаксических трансформаций отношений и тезауруса обеспечивает преобразование различных синтактико-семантических конструкций к общему унифицированному виду и позволяет отождествить одинаковые элементы смысла при различии в их выражении. Например, фразам “Этот транспорт был арендован предприятием у автобазы”, “Предприятие арендует у нашей автобазы несколько видов транспорта” и “Состоялась аренда транспорта предприятием у автобазы” будут соответствовать одинаковые элементы смысла: “предприятие арендует”, “аренда транспорта”, “аренда у автобазы”.
Значимость элементов предложения с позиции автора характеризует коммуникативный ранг, который определяется их отнесенностью к теме или реме и соотнесением с членами предложения (подлежащее, сказуемое, прямое и косвенное дополнения, определения, обстоятельства и др.). Эта информация, наряду со статистикой употребления и прочими факторами, позволяет выделить ключевые элементы текста для сравнения документов при поиске и классификации.


Общая схема лингвистической обработки текста приведена на данной схеме .


Описание каждой из фаз преобразований текста и решение сопутствующих ей задач (омонимии, метонимии, кореферентности и т.п.) может являться предметом отдельной большой статьи (и далеко не одной), поэтому здесь не приводится. Ключевые аспекты лингвистической обработки изложены в ряде публикаций, приведенных ниже, однако многие материалы еще ожидают выхода и будут освещены со временем.

Продукты, использующие технологию:


RCO Syntactic Engine


RCO Semantic Network





Статьи раздела:
Ассоциативно-статистический подход .
Синтактико-семантический подход.

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .






Авторское право © Компания Текон & Студия РОМАрт, 2004-2006.
UCO™ является торговой маркой компаний Текон и Гарант-Парк-Интернет.
RCO™ является торговой маркой компании Гарант-Парк-Интернет.
Все права защищены.