Информационно-поисковая система InfoReS-XL
InfoReS-XL (Information Retrieval System - Extended Landuage) представляет собой информационно-поисковую систему (ИПС), изначально ориентированную на обработку полнотекстовых и реферативных документов. Архитектура InfoReS-XL близка к классической модели ИПС с инвертированным индексом, что позволяет проводить быстрый интерактивный поиск информации в базах данных больших объемов.
Как и большинство подобных систем, InfoReS-XL имеет средства для:
- создания и ведения документальных баз данных;
- подготовки запросов и поиска в базах данных;
- обеспечения аутентификации и авторизации пользователей на уровне баз данных и их полей;
- вывода результатов в формате, задаваемом пользователем.
В настоящее время InfoReS-XL позволяет накапливать большие объемы информации и осуществлять быстрый доступ к документальным данным самых разных форматов, структур и назначений.
Система InfoReS-XL (первая версия появилась в 1995 г.) сохранила ядро функциональных возможностей предшествующих поисковых систем и стиль интерактивного решения задач, принятый в таких ИПС, как STAIRS и WAIS. При этом система получила развитие в направлении повышения эффективности полнотекстового поиска, интеграции со стредствами Internet и WWW, а также минимизации ресурсных затрат.
Вследствие этого система InfoReS-XL, в сравнении с другими системами, имеет такие преимущества:
- обеспечена эффективность и экономичность процедур создания баз данных;
- реализован механизм мультибазовой работы, т.е. одновременного поиска в нескольких базах данных;
- подключены стандартные для UNIX и WWW средства сбора и обработки статистики;
- использованы стандартные средства для аутентификации пользователей;
- созданы гибкие инструменты администрирования системы.
Поисковые возможности
Запросы системы InfoReS XL, используемые в режиме поиска состоят из oперандов - поисковых терминов или их правых усечений и операторов.
В качестве операндов могут использоваться поисковые термины естественного языка или их правые усечения, длина которых превышает 2 буквы. По умолчанию каждая лексема воспринимается как правое усечение. При этом существует возможность точного указания термина. Система не чувствительна к регистрам букв.
В системе InfoReS XL используется следующий набор операторов, расположенных в соответствии с установленными приоритетами:
- NOT (AND NOT) - логическое НЕТ, понимаемое как И-НЕТ;
- AND - логическое И;
- OR - логическое ИЛИ;
- ADJUST - оператор контекстной близости.
Оператор контекстной близости отбирает пары поисковых терминов,
которые в тексте документа отстоят друг от друга не более чем на определяемое пользователем количество слов (по умолчанию - 2), причем учитывается порядок следования терминов. При употреблении операторов допускается использование синонимических рядов (которые могут переопределяться администратором системы):
- NOT: "!", "^", "NOT", "НЕ";
- AND: "&", " " (пробел), "+", "AND", "И";
- OR: "|", ",", ";", "OR", "ИЛИ";
- ADJUST: "~", "ADJ", "NEAR", "ОКОЛО".
Запрос может быть многоуровневым. Различные уровни либо определяются приоритетами входящих в него операторов, либо фиксируются с помощью круглых скобок.
Среда хранения базы данных
В качестве среды хранения текстовой составляющей базы данных могут
использоваться:
- текстовый файл, с разделителем между документами;
- иерархия каталогов, где каждый документ находится в отдельном файле;
- сервер новостей (например, INN).
Все вспомогательные наборы данных (файлы уникальных слов, индексные и инверсные таблицы и т.п.) представляют собой бинарные файлы.
Генератор выходных форм результатов поиска (просмотра)
Результаты поиска (листинг списка релевантных документов и сами документы) выводятся по шаблонам, которые являются внешними по отношению к подсистеме поиска и могут модифицироваться без перекомпиляции программной части. Данные шаблоны представляют собой текстовые файлы с HTML - разметкой, где в необходимых местах вставлены метасимволы полей базы данных - соответственно, при выводе списка документов (или самих документов) они замещаются на реальные значения.
Внедрения
Информационно-поисковая система InfoReS-XL в настоящее время является
основой построения информационных сред как на собственных серверах "ЭЛВИСТИ", так и на серверах партнеров и заказчиков (свыше 30 внедрений), среди которых
-
Украинское национальное информационное агентство (Укринформ) (http://info.dinau.com.ua, http://photo.dinau.com.ua),
- Аппарат совета национальной безопасности Украины (http://www.rainbow.gov.ua),
- Служба безопасности Украины (http://www.sbu.gov.ua),
- Центр научно-технической и экономической информации Минэнерго Украины, Главное управление государственной службы (http://www.guds.gov.ua),
- электронное сообщество ICC (http://it.ware.com.ua) и многие другие.
|