ПерваяНовостиО технологииOn-line переводчикСсылки




ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Технологии навигации в информационных массивах .

TopNet: Тематические сети.

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта.
Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Основная проблема заключается в сложности точной формулировки запроса - подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом причин, как то: недостаточным знанием пользователем терминологии предметной области, трудностью определения границ своих интересов, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.

Отдельную сферу приложения технологий обработки текста занимает широкий класс задач информационного поиска, относимых к разряду аналитических. Это задачи, требующие "раскопки" скрытых взаимосвязей между целевыми объектами, выявления ключевых факторов, влияющих на развитие ситуации, прогнозирование тенденций ее развития и т.п.

Над решением указанных проблем работает наше подразделение RCO Research Group. Результат многолетней работы воплотился в ряду технологий, основанных на автоматическом анализе содержания текстовых документов, применение которых призвано облегчить процессы поиска и эксплицирования скрытой информации. Часть технологий реализована в наших "коробочных" продуктах, другая часть находит внедрение в заказных решениях.


Технологии автоматического анализа текста

Ассоциативно-статистический подход

Подход основан на статистических моделях обработки информации правым полушарием мозга человека и позволяет представить содержание документа в форме семантической сети ключевых понятий, ассоциативно связанных между собой. Параллельно производится автоматическое реферирование текста.
Результаты анализа могут использоваться для сравнения документов по содержанию, поиска документов по темам, выявления скрытых взаимосвязей.
Достоинством подхода является высокая скорость обработки и универсальность, которая заключается в низкой чувствительности к нарушениям грамматики текста и независимости от языка.

Синтактико-семантический подход

Подход основан на лингвистических моделях смысла текста и позволяет представить содержание документа в форме предикатно-аргументных структур, которые эксплицируют описания ситуаций в тексте, участников ситуаций и их ролей.
Результаты анализа могут использоваться для фактографического и смыслового поиска, позволяя отбирать информацию, связанную с целевыми объектами на основе различных критериев.
Достоинством подхода является высокая информативность получаемого описания смысла текста и детализация типов смысловых отношений.


Технологии информационного поиска

Нечеткий поиск

Нечеткий поиск позволяет отыскать требуемую информацию при наличии орфографических ошибок в документе или в запросе.
Алгоритмы нечеткого поиска моделируют свойства ассоциативного доступа к информации в мозге.

Тематический поиск

Позволяет находить темы, связанные в тексте по смыслу с запросом, а также искать документы по темам.
Для определения тем документов и их взаимосвязей используются технологии автоматического анализа текста.

Фактографический поиск

Позволяет найти в тексте описания фактов с опорой на заданные логические схемы и извлечь требуемую информацию, связанную с фактом. Основная сфера приложения технологии - это задачи компьютерной разведки, требующие тонкого семантического анализа текста.


Технологии навигации в информационных массивах

TopTree: Авторубрикаторы

Алгоритмы кластерного анализа и классификации данных позволяют структурировать по смыслу большие объемы текстовой информации и обеспечивают удобную навигацию по массиву документов.
Предназначены для автоматизации построения и поддержки иерархических рубрикаторов, оперативного мониторинга и маршрутизации информационных потоков.

TopNet: Тематические сети

Технология визуализации TopNet обеспечивает удобную навигацию в многомерном информационном пространстве с опорой на ключевые темы документов и их взаимосвязи.
Предназначена для аналитических целей и позволяет эксперту исследовать смысловое окружение интересующих тем, выявлять цепочки и области связности в целевой коллекции документов.

TopSOM: Тематические карты

Технология визуализации TopSOM обеспечивает емкое представление тематического состава коллекции документов и помогает пользователю ориентироваться в информационной среде.
В основе лежит отображение многомерного семантического пространства документов на плоскость с применением сетей Кохонена.

TopLine: Временные тематические ряды

Технология TopLine предназначена для визуализации изменений тематики потока документов на протяжении выбранного периода времени.
Предназначена для аналитических задач и позволяет исследовать смену ракурсов, в которых фигурирует целевая проблема, во времени.





Статьи раздела:
TopTree: Авторубрикаторы.
TopNet: Тематические сети.
TopSOM: Тематические карты.
TopLine: Временные тематические ряды.

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .






Авторское право © Компания Текон & Студия РОМАрт, 2004-2006.
UCO™ является торговой маркой компаний Текон и Гарант-Парк-Интернет.
RCO™ является торговой маркой компании Гарант-Парк-Интернет.
Все права защищены.