ПерваяНовостиО технологииOn-line переводчикСсылки




ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO TopTree - библиотека автоматического рубрицирования

В библиотеке RCO TopTree реализованы два независимых комплекса функций, которые предназначены для автоматического построения иерархического рубрикатора по набору заданных объектов и для автоматической классификации объектов по заданному рубрикатору.

Место RCO TopTree в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.

Рубрикация

Рубрикация производится на основе агломеративных алгоритмов иерархического кластерного анализа. Исходными данными для рубрицирования является множество объектов, каждый из которых описываемых набором атрибутов с весами, отражающими степень выраженности атрибутов у объекта (вероятность проявления, силу и т.п). Алгоритмы кластерного анализа производят объединение объектов, обладающих близкими наборами атрибутов, в узлы дерева рубрикатора. При этом чем глубже уровень дерева, тем более близкими являются объекты, объединенные в узлы этого уровня. Каждый узел включает в себя все объекты из своих подузлов плюс, возможно, еще ряд объектов. В зависимости от заданных настроек рубрикатор может формироваться как строгим, так и нестрогим: каждый объект может относиться к единственному узлу или к нескольким.
Все объекты, не имеющие общности с прочими в рамках заданных параметров рубрицирования, объединяются в один отдельный узел с семантикой “разное”.

Входными данными для рубрицирования являются:

целочисленные неотрицательные идентификаторы объектов;
целочисленные неотрицательные идентификаторы атрибутов объектов;
целочисленные неотрицательные веса атрибутов объектов;

Результатом рубрицирования является многоуровневое дерево заданной глубины, обход которого производится иерархически, начиная с одного виртуального корневого узла.

Для каждого узла построенного рубрикатора доступна следующая информация:

все подчиненные подузлы более глубокого уровня;
идентификаторы всех объектов, отнесенных к узлу;
набор идентификаторов атрибутов с весами, отражающими общую степень выраженности атрибутов у объектов узла - профиль узла.
набор идентификаторов ключевых атрибутов узла, отсортированных по весу – имя узла.

Алгоритмы библиотеки позволяют строить рубрикаторы трех типов: так называемые экстремальный, нечеткий и атрибутивный рубрикаторы.
Посмотреть на рубрикатор в действии можно на демонстрационном сайте, где продемонстрировано построение автоматического рубрикатора на коллекции новостей газеты "Московский комсомолец".



Классификация

Под классификацией понимается отнесение объекта к наиболее релевантным рубрикам классификатора.
Классификация объектов производится на основе вычисления расстояния между профилем объекта и профилями всех рубрик – векторами атрибутов с весами. В зависимости от настроек классификатора, объект может быть отнесен к одной или нескольким наиболее близким рубрикам, либо вообще ни к одной.

Входными данными для описания классификатора являются:

целочисленные неотрицательные идентификаторы рубрик, по которым будут классифицироваться объекты;
целочисленные неотрицательные идентификаторы атрибутов рурик;
целочисленные неотрицательные веса атрибутов рубрик;
Входными данными для описания классифицируемого объекта являются:

целочисленные неотрицательные идентификаторы атрибутов объекта, подлежащего классификации;
целочисленные неотрицательные веса атрибутов объектов;
Результатом классификации объекта является набор идентификаторов рубрик с весами, характеризующими близость объекта к профилю рубрики.








Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .






Авторское право © Компания Текон & Студия РОМАрт, 2004-2006.
UCO™ является торговой маркой компаний Текон и Гарант-Парк-Интернет.
RCO™ является торговой маркой компании Гарант-Парк-Интернет.
Все права защищены.