Alpha-Beta-Release Blog

Orig:http://abrdev.com/wp-content/uploads/2008/06/238.png 238 Приветствуем наших читателей. Знаете, работа с стартапе, который пытается создать что-то новое и уникальное на рынке очень захватывает. И не только открывающимися возможностями, но и часто нетривиальными задачами и вопросами, которые ставятся перед создателями и которые раньше никто не решал. Вот один из таких вопросов как раз вчера появился передо мной: дано нам произвольную строку текста, заведомо известно, что она может быть двух, а в некоторых случаях и трёхязычной, то есть там смешанный текст из нескольких языков. Необходимо прозрачно для пользователя определить язык, на котором написан текст.

На самом деле задача не такая и редкая - подобная функциональность есть и в текстовых редакторах, и в переключателе клавиатуры PuntoSwitcher, да и в системах машинного перевода такой функционал востребован, не говоря уже про системы поиска информации. Кстати, именно в контексте создания специализированного поисковика и классификатора текстов и появилась такая проблема. Необходимо было получить такую возможность в собственной программе на платформе РНР и при этом не задействовать сторонние сервисы - подобная возможность в виде веб-сервиса присутствует в Google Language API (мы уже исследовали этот сервис), однако она выполняется удалённо и имеет некоторые существенные для нас ограничения, в частности, процедура опознания языка выполняется с существенной задержкой и асинхронна по своей природе. Кроме этого очень хотелось иметь полный контроль над процессом и иметь возможность его гибко настраивать, чего, увы, нет в сторонних сервисах. Поэтому пришлось подумать и попробовать реализовать собственными силами, результат же представляем вашему вниманию.

Читать полностью »

Orig:http://abrdev.com/wp-content/uploads/2007/10/ibm_logo2.jpg Мы продолжаем знакомить читателей с интересными и инновационными разработками от компании IBM. Тамошние специалисты давно занимаются различными вопросами исследования массивов текстовой информации, а также смежными проблемами - индексации, извлечение данных и из неструктурированных хранилищ, автоматическая классификация и категоризация и т.п. Часть из этих работ находит вполне осязаемое применение, в частности, в пакетах OmniFind, СУБД DB2 Viper и других. Сегодняшняя разработка ещё не коммерческая, и пока предназначена для исследователей и учёных, разработчиков систем хранения и поиска данных, систем анализа и извлечения - в общем, для всех, кто имеет отношение к обработке текстовой информации, которая ещё "не разложена по полочкам" (такое направление ещё называется data mining).

Программа Unstructured Information Modeler, исходя из названия, представляет собой утилиту для анализа неструктурированных массивов текстовых данных, к примеру, анализа логов обращения в службу технической поддержки (более точно - создание таксономии). Пакет позволяет автоматизировать процесс классификации данных и распределение по категориям всех поступающих данных.
Читать полностью »

Рубрики

.NET (11)

AJAX (58)

Data Mining (2)

Eclipse (9)

ExtJS Framework (21)

Flash, ActionScript (4)

Java - язык и технологии (12)

MMOG, MMORPG игры (3)

Mozilla Firefox (8)

Open Source (79)

PHP (30)

Silverlight (2)

Uncategorized (5)

web2.0 (55)

Блоги (16)

веб-обзоры (63)

Высокопроизводительная архитектура (18)

Мир SourceForge.net (6)

Подкасты (1)

Разное (85)

Стартапы (36)

СУБД (9)

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Июль
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Alpha-Beta-Release Blog

Автоматическое определение языка произвольного текста на РНР - библиотека PHPLangautodetect

IBM Unstructured Information Modeler - инструментарий для исследования данных.

RSS через FeedBurner

Сообщение администрации

Общение с aleks_raiden

Рубрики

Blogroll

Последние записи

Подписка RSS2Email

Мы в Toodoo

Свежие записи

Свежие комментарии

Meta

Alpha-Beta-Release Blog

Автоматическое определение языка произвольного текста на РНР - библиотека PHPLangautodetect

IBM Unstructured Information Modeler - инструментарий для исследования данных.

RSS через FeedBurner

Сообщение администрации

Общение с aleks_raiden

Рубрики

Blogroll

Метки

Последние записи

Подписка RSS2Email

Мы в Toodoo

Свежие записи

Свежие комментарии

Meta