This version of the page http://abrdev.com/?cat=95 (0.0.0.0) stored by archive.org.ua. It represents a snapshot of the page as of 2008-08-01. The original page over time could change.
Alpha-Beta-Release Blog


Автоматическое определение языка произвольного текста на РНР - библиотека PHPLangautodetect

Опубликовано aleks_raiden 15.06.2008

Приветствуем наших читателей. Знаете, работа с стартапе, который пытается создать что-то новое и уникальное на рынке очень захватывает. И не только открывающимися возможностями, но и часто нетривиальными задачами и вопросами, которые ставятся перед создателями и которые раньше никто не решал. Вот один из таких вопросов как раз вчера появился передо мной: дано нам произвольную строку текста, заведомо известно, что она может быть двух, а в некоторых случаях и трёхязычной, то есть там смешанный текст из нескольких языков. Необходимо прозрачно для пользователя определить язык, на котором написан текст.

На самом деле задача не такая и редкая - подобная функциональность есть и в текстовых редакторах, и в переключателе клавиатуры PuntoSwitcher, да и в системах машинного перевода такой функционал востребован, не говоря уже про системы поиска информации. Кстати, именно в контексте создания специализированного поисковика и классификатора текстов и появилась такая проблема. Необходимо было получить такую возможность в собственной программе на платформе РНР и при этом не задействовать сторонние сервисы - подобная возможность в виде веб-сервиса присутствует в Google Language API (мы уже исследовали этот сервис), однако она выполняется удалённо и имеет некоторые существенные для нас ограничения, в частности, процедура опознания языка выполняется с существенной задержкой и асинхронна по своей природе. Кроме этого очень хотелось иметь полный контроль над процессом и иметь возможность его гибко настраивать, чего, увы, нет в сторонних сервисах. Поэтому пришлось подумать и попробовать реализовать собственными силами, результат же представляем вашему вниманию.

Читать полностью »

IBM Unstructured Information Modeler - инструментарий для исследования данных.

Опубликовано aleks_raiden 27.10.2007

Мы продолжаем знакомить читателей с интересными и инновационными разработками от компании IBM. Тамошние специалисты давно занимаются различными вопросами исследования массивов текстовой информации, а также смежными проблемами - индексации, извлечение данных и из неструктурированных хранилищ, автоматическая классификация и категоризация и т.п. Часть из этих работ находит вполне осязаемое применение, в частности, в пакетах OmniFind, СУБД DB2 Viper и других. Сегодняшняя разработка ещё не коммерческая, и пока предназначена для исследователей и учёных, разработчиков систем хранения и поиска данных, систем анализа и извлечения - в общем, для всех, кто имеет отношение к обработке текстовой информации, которая ещё "не разложена по полочкам" (такое направление ещё называется data mining).

Программа Unstructured Information Modeler, исходя из названия, представляет собой утилиту для анализа неструктурированных массивов текстовых данных, к примеру, анализа логов обращения в службу технической поддержки (более точно - создание таксономии). Пакет позволяет автоматизировать процесс классификации данных и распределение по категориям всех поступающих данных.
Читать полностью »




| | | | | | | |

Тема для Wordpress. Локализация Mywоrdpress.ru
Copyright © 2007 Alpha-Beta-Release Blog. All rights reserved.

Alpha-Beta-Release Blog load time improved by PHP Speedy