|
|
ИНФОРМАЦИЯ О ТЕХНОЛОГИИ
Информационный раздел Инструментарий разработчика
RCO Pattern Extractor - библиотека выделения объектов в текстеБиблиотека RCO Pattern Extractor предназначена для анализа текста и распознавания в нем различных объектов в соответствии с образцами, заданными на формальном языке. Область применения RCO Pattern Extractor в первую очередь включает в себя выделение сложных элементов текста и специальных конструкций, отличающихся особого вида написанием, – наименований юридических лиц, товаров, адресов, номеров и т.п. В большинстве случаев правила написания подобных объектов в тексте выходят за рамки общих правил грамматики русского языка, являются неочевидными и трудно формализуемыми.
Место RCO Pattern Extractor в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.
Мощный язык описания объектов текста позволяет оперировать как формальными особенностями написания слов, используя, в частности, язык регулярных выражений, так и всеми их грамматическими атрибутами – частью речи, родом, числом, падежом и т.д.
В состав библиотеки входит морфологический анализатор, который обеспечивает обработку как известных, так и неизвестных слов русского языка.
Образцы сложных объектов могут строиться иерархически, включая образцы более простых, что позволяет постепенно наращивать мощность системы целевых описаний. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание объектов.
Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.
В комплект поставки библиотеки входит стандартный набор образцов для выделения нескольких классов объектов - наименований физических и юридических лиц, дат, составных географических названий и ряда других объектов. Пользователю предоставляются возможности настройки стандартных образцов и введения своих собственных, описывающих интересующие объекты.
Для настройки образцов объектов можно воспользоваться приложением RCO Pattern Extractor Viewer, которое позволяет просмотреть результаты анализа текста с использованием заданных образцов и получить сообщения об ошибках, если таковые имеются.
Статьи раздела: RCO Morphology - библиотека морфологического анализа текста RCO Thesaurus Search - библиотека работы с поисковым тезаурусом. RCO Syntactic Engine - библиотека синтаксического анализа текста RCO Semantic Network - библиотека статистического анализа текста RCO Pattern Extractor - библиотека выделения объектов в тексте RCO TopTree - библиотека автоматического рубрицирования RCO Entity Extractor SDK RCO Semantic Entity Extractor SDK
|
|
|