ПерваяНовостиО технологииOn-line переводчикСсылки




ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO Pattern Extractor - библиотека выделения объектов в тексте

Библиотека RCO Pattern Extractor предназначена для анализа текста и распознавания в нем различных объектов в соответствии с образцами, заданными на формальном языке. Область применения RCO Pattern Extractor в первую очередь включает в себя выделение сложных элементов текста и специальных конструкций, отличающихся особого вида написанием, – наименований юридических лиц, товаров, адресов, номеров и т.п. В большинстве случаев правила написания подобных объектов в тексте выходят за рамки общих правил грамматики русского языка, являются неочевидными и трудно формализуемыми.
Место RCO Pattern Extractor в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.

Мощный язык описания объектов текста позволяет оперировать как формальными особенностями написания слов, используя, в частности, язык регулярных выражений, так и всеми их грамматическими атрибутами – частью речи, родом, числом, падежом и т.д.


В состав библиотеки входит морфологический анализатор, который обеспечивает обработку как известных, так и неизвестных слов русского языка.


Образцы сложных объектов могут строиться иерархически, включая образцы более простых, что позволяет постепенно наращивать мощность системы целевых описаний. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание объектов.


Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.


В комплект поставки библиотеки входит стандартный набор образцов для выделения нескольких классов объектов - наименований физических и юридических лиц, дат, составных географических названий и ряда других объектов. Пользователю предоставляются возможности настройки стандартных образцов и введения своих собственных, описывающих интересующие объекты.


Для настройки образцов объектов можно воспользоваться приложением RCO Pattern Extractor Viewer, которое позволяет просмотреть результаты анализа текста с использованием заданных образцов и получить сообщения об ошибках, если таковые имеются.








Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .






Авторское право © Компания Текон & Студия РОМАрт, 2004-2006.
UCO™ является торговой маркой компаний Текон и Гарант-Парк-Интернет.
RCO™ является торговой маркой компании Гарант-Парк-Интернет.
Все права защищены.