О книге

Аннотация

Книга Дмитрия ЛАНДЭ посвящена современным подходам к получению новых знаний на основе анализа информационного пространства сети Internet и методам обработки информационных потоков с целью выявления значимых тенденций, понятий, феноменов, их взаимосвязей.

Анализируются проблемы и феномены Internet, топология Web-пространства, методы доступа к информации в "скрытом" Web, рассматриваются особенности различных стратегий поиска информации, информационно-поисковых систем и средства интеграции Web-контента на основе XML. Большое внимание в книге уделено новому направлению обработки текстовой информации - "глубинному анализу текстов" (Text Mining), объединяющему в себе технологические и методологические подходы контент-анализа, компьютерной лингвистики и искусственного интеллекта.

Книга ориентирована на широкий круг читателей, интересующихся современными информационными технологиями, подходами к поиску информации, знаний, конкурентной разведки. При этом она будет полезна и аналитикам, которые с помощью инструментов Text Mining смогут повысить эффективность и качество своей работы.

Издательский дом "Диалектика-Вильямс", стр. 272, с ил.; формат 70x100/16; 2005; ISBN 5-8459-0764-0.

Последние статьи

Как организовать оборону: 12 шагов противодействия (PDF)
Дорожная карта сетевого поискового бизнеса
Подход к созданию многоязычных параллельных корпусов веб-публикаций (PDF)
Метод выявления неявных связей объектов (PDF)

Статьи автора, обобщенные в книге

Поле боя - семантика
Сегодня информационные ресурсы Сети составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий.
Подробнее >>

Text Mining
Попытки анализа больших объемов неструктурированных или слабо структурированных данных очень часто усложняют процесс принятия решений. Если широкий спектр поисковых систем достаточно легко справляется с "простым" полнотекстовым поиском, то для подобного анализа нужны технологии совсем другого типа, представленные системами добычи знаний.
Подробнее >>

Новостной Интернет
Для решения задачи синдикации новостей было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary, хотя изначально он назывался RDF Site Summary. Смысл всех этих аббревиатур заключается в простом способе обобщения и распределения информационного наполнения Web-сайтов - синдикации контента.
Подробнее >>

Идеи, технологии

Семантический Web: воплощение идеи
За знаниями - к Википедии
Адаптивные поисковые интерфейсы
Школа веб-разведки (PDF)
Попытки объять необъятное, или World Wide Web под прицелом (PDF)
P2P - по секрету всему свету. О пиринговых сетях (PDF)
Веб-пространство и материалы информационных агентств (PDF)

Архив

Публикации