Создайте свой собственный web-crawler.
Категория:
Все поисковые системы Дата публикации:03-12-2004
By Chris Sherman, Associate Editor February 4, 2004
Хотите создать ваш собственный индивидуальный поисковый инструмент, который может производить сетевой поиск, исследовать онлайновые базы данных и виртуально исследовать любой другой вид Интернет-источника?
Как это сделать, узнаете из Spidering Hacks.
Поисковые машины полагаются на «пауков» (web-роботов, web-crawler), отыскивающих страницы сайтов для индексации.
Пауки - одна из трех фундаментальных технологий, лежащих в основе работы всех поисковых машин.
Spidering Hacks, by Kevin Hemenway and Tara Calishain, предлагает «100 профессиональных советов и инструментов» ("100 Industrial Strength Tips and Tools") для создания и управления вашими собственными пауками.
Среди этих приемов и инструментов, имеются инструкции для создания вашего собственного персонального сетевого поискового робота, который работает во многом подобно тем, что используются ведущими поисковиками.
Но существуют дюжины прочих методов взлома, позволяющих вам пойти далеко за пределы простого открытия и получения страниц. Среди наиболее интересных приемов есть такие, которые позволят вам комбинировать и накапливать информацию из множественных источников. Включая и невидимые базы данных в Интернет сети, с посещением которых, у поисковиков возникают определенного рода сложности.
Эти приемы позволят вам создать некоторые, действительно интересные, уникальные поисковые инструменты. Хотите собственную библиотеку аудио, видео или картинок? Приемы 33-42 покажут вам, как это сделать. Другие методы "взлома" покажут вам, как автоматически находить интересующие вас гостевые книги (блоги), проделывать интересные вещи с базой данных Amazon, собирать в единое целое множественные результаты поисковой машины… Список "взлома" широк и разнообразен.
Как и прошлая книга соавтора Calishain, Google Hacks, эта книга неплохо написана, а примеры используют программный код, уже готовый к употреблению. Многие из данных приемов требуют определенного понимания языка программирования для правильного использования, но если вы технически подкованы, это не будет заметной преградой для вас. По сути, первые несколько глав служат достойным вступлением в web-программирование.
Важно, что книга начинается с главы "Walking Softly" (Тише едешь…), которая акцентирует важность использования лучших методик и надежного метода программирования. Другими словами, что ваши взломы сделают ожидаемую работу без побочных эффектов, когда ваши пауки будут запущены в Интернет сеть.
Эти вступительные "взломы" также предоставляют важный взгляд на то, как роботы, управляемые главными поисковыми машинами делают свою работу. Понимание технологии робота, даже на начальном уровне, может помочь улучшить ваши поисковые навыки, показывая как сильные стороны, так и ограничения технологии. Лично, я нахожу интересным даже просто понаблюдать за тем большим количеством креативных задач, которые вы сможете выполнить. Если вы действительно займетесь такого вида «хакерством», то сможете почерпнуть больше примеров из сайта O"Reilly"s Hacks.
Возможность обсудить стратегии поисковых машин
Мы составляем список участников для предстоящей конференции по стратегиям поисковых машин, которая состоится в Нью Йорке (the Cashing Out: The Preparation and Implications). Заседание состоится 1 марта в понедельник с 3:45 - 5:15 pm. Для участия у вас должно быть желание обсудить значение этого события с собой, коллегами и клиентами компании. Если вы заинтересовались, пошлите e-mail с темой "Cashing Out Panelist" к Chris Elwell не позднее, чем 28 февраля.
Загрузка NeedlePoint Tollbar
Yesterday"s SearchDay отменили URL для скачивания бесплатного NeedlePoint toolbar. Вы можете получить дополнительную информацию и скачать tollbar, щелкнув здесь.
Библиография:
Spidering Hacks 100 Industrial-Strength Tips & Tools
By Kevin Hemenway, Tara Calishain
O"Reilly, ISBN: 0-596-00577-6
424 pages, $24.95 US, $38.95 CA, #17.50 UK
При поддержке дизайн-студии Netsah – web site design and development studio, web site promotion services, graphic design
А так же студии Promodo – Раскрутка сайта. Продвижение оптимизация сайтов. Реклама маркетинг в Интернет. Советы специалистов.