Языковая картина интернета. Возможные методики исследования на п
Украина, Киев, проспект Победы, 22, тел. +380 (44) 331 4110 office@antanta.net [mailto:office@antanta.net] Мы шли через реку, пока нам хватало моста. Мы что-то обещали друг другу, Но кто был первым - ты или я? Но вот мы все еще идем, а вода под нами чиста. Языковая картина интернета. Возможные методики исследования на примере Уанета. 0. Для чего нужны исследования языковой картины? Существует крайняя точка зрения, что деление интернет-ресурсов по странам и доменам – вещь выдуманная. Границ в интернете нет, на самом деле все делится только по языкам. Возможно, она сгущает краски, но рациональное зерно в ней есть. Все мы – носители каких-то языков, и чтобы «достучаться» до нас с нами надо говорить на языках, которые нам доступны, как минимум. Существующая практика продвижения отечественных интернет-ресурсов ограничивается, как правило, одной иноязычной версией – английской. При этом считается, что английским пользуется весь мир, и этого достаточно. Между тем, это не совсем так. Впервые пришлось задуматься об этом, когда пользователи сайта гостиницы, который мы сопровождали, упорно пользовались он-лайновыми переводчиками, в частности переводчиком Гугля, и это отображалось в ссылающихся страницах. Казалось бы, тематика должна быть 100% знакомой любому путешествующему, действие тоже максимально просто: забронировать номер на определенную дату за определенную сумму. Однако пользователи предпочитали читать это на родном языке, а не на английском. Нужно идти им навстречу. Но стоит принять решение о том, что сайту необходимо иметь больше языковых версий, как немедленно становится вопрос: а каких именно? Можно ли определить хотя бы приоритеты создания немецких, французских, итальянских, испанских страниц, не говоря уже об их целесообразности именно для данной тематики сайта и именно для данной страны. Еще один вариант задач – выйти на рынок конкретно указанных стран с конкретной продукцией (услугами). Достаточно ли для этого только английской версии? Вопрос на самом деле не столь очевидный. Классическими примерами могут служить Швейцария, Канада, Бельгия, бывшие колониальные страны, которых тоже немало. Даже родина интернета – Калифорния - на поверку оказывается наполовину испаноговорящим штатом. В этот же ряд можно включить и Украину, потому что даже сами украинские интернетчики толком не представляют языковой картины в украинском сегменте Сети. По крайней мере, исследования этого вопроса нам, честно говоря, не встречались. Объясню на примере. Представьте себе, что западный производитель пластиковых окон пытается выйти на рынки Рунета по запросу “plastic windows”. Много ли трафика он соберет, даже будучи первым во всех поисковых машинах? Между тем, спрос на этот товар, как мы знаем, существует. Таким образом, существует ряд задач, для решения которых нужно представить себе языковую картину того или иного сегмента Сети. Можно ли это каким-то образом исследовать? В данном докладе мы попытались систематизировать необходимые шаги подобных исследований. А потом применить их для частного случая Уанета. 1. Шаг 1. Определение размера интернет-аудитории страны Чем больше прошло времени с момента изобретения протокола http, тем этот шаг все менее актуален. Тем не менее, на случай экзотических задач пригодится. Долгое время такой «экзотической задачей» была сама Украина. Сайт Internet World Stats http://www.internetworldstats.com/stats.htm Систематизирует данные из различных официальных источников, в частности Нильсен Нет Рейтинг и Международного Телекоммуникационного Союза, о количестве интернет-пользователей в стране, коэффициенте проникновения (процент интернет-пользователей от населения страны) и темпах прироста интернет-аудитории. У нас есть хорошая возможность сравнивать данные любых сайтов, дающих глобальную статистику, с данными по России и Украине. Не преминем ей воспользоваться. Для России сайт дает 23.700.000 пользователей (проникновение 16,5%) Для Украины 5.278.100 (проникновение 11,4%) Что вобщем-то согласуется с нашими внутренними источниками. Точность сайт пытается давать просто необыкновенную. Например, для Ватикана указаны 93 пользователя. Интересно, входит ли в это число Папа? Ну и еще из, казалось бы, неожиданностей, но на самом деле закономерностей. В Италии, например, на 5 миллионов больше пользователей, чем в России. А по размерам на карте и вниманию со стороны украинских вебмастеров и не скажешь. 2. Шаг 2. Определение употребляемых в стране языков Языковеды насчитывают в мире от 3 до 5 тыс. языков. Не все из них имеют письменность. Понятно, что в интернете представлены только некоторые из них. Тем не менее, кодировки ISO, например, предусматривают использование в компьютере даже мертвых языков. Так что даже для вавилоских глиняных библиотек еще не все потеряно. Возможно, появятся сайты и на древневавилонском. Скептиков отсылаю к сайту одной львовской гостиницы на классической латыни, который появился к визиту Папы Иоанна Павла Второго в Украину. Видимо, все те 93 пользователя из Ватикана в результате остановились именно в этой гостинице. Как ни странно, русских языковых версий, ни у одного львовского отеля, исключая «Днистер», нет. Хотя тут речь идет уже далеко не о 93 пользователях. Языковая картина мира в 20 столетии филологами достаточно подробно описана. Составлены атласы языков. Можно этим воспользоваться, чтобы не зависеть от отрывочности своих знаний. Ну, вот не помню я, на каких языках говорят в Бельгии, и чьей колонией была Нигерия. Есть достаточно подробные сайты, посвященные этим вопросам. Например: Сайт «Этнолог» http://www.ethnologue.com/country_index.asp Снова воспользуемся нашей возможностью проверять достоверность сведений на сведениях об Украине. http://www.ethnologue.com/show_country.asp?name=UA Помимо правильного распределения языков по регионам, и учета носителей языка «поштучно» по данным переписи, имеется очень важное примечание: Russian is spoken in major urban areas Именно эти «урбанистические территории» и составляют пока что аудиторию украинских интернет-пользователей. Никаких неожиданностей, вроде, нет. Данным можно доверять и для других стран. Но возникает вопрос, насколько широко используются локальные языки в интернете, а не в оффлайне. Поэтому, 3. Шаг 3. Определение того, употребим ли язык в интернете Легче всего это сделать непосредственно на Google. На https://services.google.com/tcbin/tc.py?cmd=status указан статус работ по переводу интерфейса и служебных сообщений Гугля на локальные языки. Поскольку, перевод осуществляется волонтерами, становится более-менее ясным, употребим ли язык в интернете. Абхазский, например, выполнен на 2%. А албанский на 99%. Украинский перевод выполнен на 100%, русский на 98%. В общем, есть опасность того, что там, где встречаются два локальных языка, мы неверно истолкуем преобладание одного из них. Поэтому, 4. Шаг 4. Определение количества документов на разных языках, проиндексированных поисковыми системами в региональном домене Самое интересное, на мой взгляд. Используем для этого все тот же Google и его региональные домены. Катерина Кирсанова в статье "Сравнительная характеристика известных поисковых систем" (сборник докладов конференции «Поисковая оптимизация и продвижение сайтов 2005») оценивала величину индекса различных SE на основании количества результатов, которые SE возвращает по запросу "and". Действительно, трудно представить себе связный английский текст без этого союза. Но подобные запросы можно использовать и для определения количества проиндексированных страниц на других языках. Если совместить это с возможностью региональных серверов Гугля выдавать"страницы из...(Канады, Германии, Украины)", можно оценить количество страниц на разных языках внутри какого-либо регионального домена. Итак, союз и на разных языках: Русский и Украинский і, й, та Английский and Немецкий und, auh Французский et Итальянский e, s, ed, pure, anche, sebbene Испанский y, e Для примера возьмем канадский Гугль, где языковая картина заведомо неясна и интересна. Испанским языком пришлось пожертвовать, потому что предлог совпадает с "е-коммерцией" и прочими е-, а Y тоже возвращает документы на английском. Итак, для Канады получается такая картина (в правом столбике количество документов, которые вернул поисковик по запросам «и» ) Английский 231.000.000 Французский 61.500.000 Немецкий 2.180.000 Итальянский 1.720.000 Русский 621.000 Украинский 119.000 Наверное, это и есть объективная картина распространенности того или иного языка в региональном домене с поправкой на непроиндексированную поисковиком часть Сети. Кстати, интересный аргумент против сайта на украинском языке, рассчитанного на интернет-активность диаспорных украинцев Канады, который мог бы всерьез рассматриваться, если бы мы ориентировались на общепринятые стереотипы, а не на сухую статистику. Видимо, канадские украинцы давно настолько адаптировались, что не ощущают потребности в сайтах на украинском, чего не скажешь о русских эмигрантах «новой волны». Интересно проверить подобную методику на Украинском сегменте, но это будет сделано несколько позже в отдельной главке. 5. Шаг 5. Определение региональных поисковых машин На самом деле пункт 5 и пункт 6 выполнить по очереди не удастся, но написать их нужно в каком-то порядке. Казалось бы, если мы решаем простую задачу определения языковых версий сайта, приоритетность уже можно установить и пора приглашать профессионального переводчика и переводить сайт. Однако, продвигать сайт в дальнейшем все-таки будет не филолог, а оптимизатор. И все-таки не хочется обращаться к переводчикам прежде, чем будет изучен спрос на услуги, которые мы продвигаем. Можно ли сделать это, не прибегая к услугам профессиональных переводчиков на данном этапе? Можно. Покажем это на примере поиска поисковиков, простите за тавтологию. Как нам искать региональные поисковики, не зная, как они называются на региональных языках? Этот вопрос можно рассматривать как частный случай любых ключевых фраз на языках, которых мы не знаем или знаем не в той степени, в какой хотелось бы. Поможет в этом Dmoz.org. Идем в соответствующий раздел, в данном случае http://www.dmoz.org/Computers/Internet/Searching/ При переключении на другие языки в этом же разделе получаем список нужных нам запросов на региональных языках Например, для поисковых машин и каталогов получаем: Русский Поисковая машина Каталог Итальянский Motori di ricerca Directory Французский Moteur de recherche Repertoires Немецкий Shuchenmashinen Verzeichnisse Испанский Motores de busqueda Directorios Шведский Sokmotorer Kataloger Польский Wyszukiwarki Katlogi stron Украинский Пошукова машина Каталог Португальский Motores de busca Directorios К сожалению, что касается поисковых машин, на этом польза от Открытого Каталога заканчивается. Для примера приведу на скриншоте ссылки, которые он дает для Украины, и которые явно не дают объективной картины поискового рынка Украины. Разделы совершенно не структурированы, присутствуют как лидеры рынка, так и малоизвестные проекты, и нет никакой возможности отделить одни от других. Это еще поправимая беда, но вот некоторые игроки рынка попросту отсутствуют. В русском разделе, для сравнения, есть Лупа.ру и Вебальта, но нет Mail.ru. В украинском нет БигМира, Яндекса и Рамблера. Наверняка, подобные неточности есть и для других стран. Поэтому пользуемся своими навыками в поиске и формируем список региональных поисковиков самостоятельно и плавно переходим к пункту 6 6. Шаг 6. Определение долей регионального рынка поисковых запросов Наверное, все-таки стоило поставить этот пункт 5. Потому что я предвижу уже возникший некоторый скепсис в отношении региональных, в частности европейских поисковиков. Есть глобальные поисковики Google, Yahoo!, MSN, которые в любом случае «отъедают» большую часть рынка поисковых запросов, и на региональные, вроде бы, не стоит тратить времени. Доля здравого смысла в этих рассуждениях есть. Но если подойти с такой меркой к российскому рынку мы «промахнемся» мимо 90% аудитории. А если к украинскому – мимо 54%, что тоже, в принципе, не мало. Сотрудники Яндекса любят ссылаться также на опыт Чехии, где региональный поисковик успешно сопротивляется экспансии Гугля. Хотелось бы воодушевить их еще больше, успешно конкурируют также некоторые другие страны. Например, как будет показано ниже, - Италия. На этапе 5 мы все таки получили некоторый список региональных поисковиков. Пользуемся своими навыками в поиске и находим полный их список. Скорее всего вы попадете на сайт коллеги-оптимизатора. На скиншоте вверху указаны доли региональных доменов глобальных поисковиков и некоторых региональных поисковиков (например французского Voila) в общем мировом трафике. Тут есть опредленные сложности. Он-лайновой статистики, подобной российскому LiveInternet или украинскому BigMir, которая дает доли поисковых машин в «реальном времени», западный сегмент Сети лишен. Приходится искать отчеты специализированных исследовательских компаний за возможно более близкий период времени. Очень хорошо, если в стране есть филиал Нильсен Нет Рейтинг. Если его нет, нужно искать местные компании аналогичного профиля, имеющие свою исследовательскую панель. Данные могут выводиться в нестандартном формате. Вот, например, данные по Италии за май 2005 года. Даются не доли поискового трафика а доли посещений пользователями. Это необходимо пересчитывать в привычный для нас формат, однако о популярности региональных поисковиков можно судить и по таким данным. Как видим, мнение сотрудников Яндекса об исключительности России и Чехии слишком пессимистично для самого Яндекса: региональные поисковики Италии также успешно конкурируют с глобальными монстрами поиска. Dominio Utenti unici (000) Reach % google.it 11138 64,91 libero.it 8506 49,57 virgilio.it 8025 46,77 msn.com 6280 36,6 microsoft.com 5735 33,42 msn.it 5455 31,79 tiscali.it 4461 26 yahoo.it 4458 25,98 ebay.it 4180 24,36 google.com 3283 19,13 yahoo.com 3211 18,71 passport.com 2906 16,93 supereva.com 2864 16,69 kataweb.it 2352 13,71 passport.net 2281 13,29 paginebianche.it 2208 12,87 trenitalia.com 2129 12,41 repubblica.it 2075 12,09 rossoalice.it 1946 11,34 lycos.it 1900 11,07 Главная цель поисков на этом этапе – найти долю регионального отделения Yahoo! в поисковом трафике страны. 7. Шаг 7. Изучение поискового трафика с помощью статистики регионального отделения Yahoo! С помощью он-лайновых словарей составляем список ключевых фраз на нужном языке. Пользуемся для этого также сервисом подбора ключевых фраз Google Adwords, который учитывает синонимы и ассоциации. С полученным списком проверяем популярность ключевых фраз на нужном «рынке» на нужном языке. Общий спрос по ключевой фразе пересчитываем через долю регионального Yahoo! в поисковом трафике страны. И вот только после этого можно определиться, стоит ли приглашать контент-райтеров на избранном языке. Т.е. можно определиться с ожидаемым количеством запросов и переходов по ним, и таким образом с целесообразностью конкретной языковой версии. По собственному опыту. Для континентальной Европы спрос на национальных языках на порядки превосходит количество англоязычных запросов. 8. Украина, как частный случай Смысл методик, подобных этой, в том, чтобы потратить один день на ее составление, чтобы в последующем тратить не более часа для ответа на интересующие нас вопросы. Было бы итересно проверить ее на украинском сегменте Сети. Пропустим те ее части, которые нам известны и без справочных сайтов – а именно количество пользователей, доли поисковых машин, употребимые в офлайне языки. Первый неоднозначный вопрос, на который мы наталкиваемся – соотношение различных языков в домене UA. У каждого из нас свои предубеждения и сложившиеся представления о языках Уанета, причем зачастую нам сложно объяснить, на основании чего они сложились. Бесспорно, что русский является доминирующим языком в Уанете. Однако, какова мера этого доминирования, до сих пор никто не знает. Проверим количество документов, известных Google как “сторінки з України” по запросам «и» на разных языках. Помним при этом, что Гугл идентифицирует сайты как украинские не только по доменам, но и по IP. Получаем Русский 5.650.000 Украинский 4.240.000 Английский 2.770.000 Французский 235.000 Немецкий 111.000 Итальянский 602 (данные на 10.03.2006) Первое, на что стоит обратить внимание, - количество украинских документов гораздо больше ожидаемого (уж не знаю, кем ожидаемого, у каждого свои ожидания и сложившиеся стереотипы) и относится к русским как 2:3. И второе – смехотворно малое количество документов на европейских языках. Вспомним данные по количеству итернет пользователей. Заслуживает ли такого невнимания (602 документа), скажем, Италия, у которой интернет-пользователей на 5 миллионов больше, чем в России? Проверить количество проиндексированных документов по подобному принципу можно было бы и в региональных поисковиках. Однако, у Яндекса, например, к украинским сайтам относятся: описанные в Яндекс-Каталоге как украинские сайты на украинском языке сайты в украинских доменах, т.е. украинские сайты в доменах первого уровня остаются за бортом. И к иноязычным сайтам у него стойкое предубеждение, либо он не относит их к украинским. Запрос «and» не дает результатов Поэтому – только русскоязычные страницы по запросу «и» и украиноязычные по запросу «і | й | та» Русский 36 155 757 Украинский 11 898 787 Как видим, соотношение русский/украинский 3:1 В силу некоторого периода дискриминации украинских сайтов не на русском языке, свойственного Яндексу до открытия филиала в Украине, многие украиноязычные сайты могли остаться за бортом. Также расхождения можно списать на разную процедуру идентификации украинских сайтов. Внести ясность могла бы «Мета», редакционная политика которой предусматривает добавление только украинских сайтов, или сайтов, имеющих отношение к Украине. Однако, применение подобной методики к Мете принесло неожиданность. По версии Меты в Уанете больше всего документов с союзом and , а не и или і . Сказывается любовь Меты к техописаниям и инструкциям на английском языке. К счастью, есть возможность, узнать данные о количестве проидексированных Метой документов, не прибегая к запросам «и» . По данным, любезно предоставленным Алексеем Чуксиным, на март 2006 года в индексе находятся 23 311 034 уникальных документов, из них Русский 16 423 508 Украинский 3 473 711 Английский 3 213 247 Или соотношение русский/украинский 5:1 Это также можно рассматривать как неожиданность. Больше всего украинских документов известно Яндексу, а вовсе не Мете или Гуглю. Возражения. Кластерная архитектура поисковиков не дает возможности быть уверенным, что задавая запросы «и», мы получаем действительно полное количество документов. В момент запроса некоторые кластеры могут быть недоступны. Так, проверка запроса “і\й\та” в Гугле непосредственно перед публикацией этого доклада дало уже совесем другие результаты. Нужно при этом отметить, что прошло 2 месяца и индекс мог увеличиться естественным образом. Русский 13 400 000 Украинский 8 690 000 Однако, соотношение 3:2 осталось неизменным. Такие запросы, предполагающие большое количество результатов, могут обрабатываться иначе, чем обычные. Так, в Мете срабытывает блокировка по тайм-ауту на обработку одного запроса, и пользователю выдает количество результатов, которые успели найтись за это время. Подобные блокировки могут применять и другие поисковики. Т.е. данные нельзя использовать для сравнений индексов разных поисковиков, а только для сравнений количества страниц на разных языках внутри индекса одного поисковика. «Та» является также русским местоимением, и его желательно исключить из запроса. Запрос в Яндекс без «та» дает на 2 млн. украинских страниц меньше, или 9 млн. Однако, все вышеприведенные цифры касаются только количества страниц на разных языках в Украине – т.е. предложения информации, а не спроса на нее. Соотношение же количества запросов на разных языках пока не определял никто, т.к. зачастую однозначно определить язык запроса попросту невозможно. Запрос “банк” – это на каком языке? 9. Определение соотношения языков (русский/украинский) в запросах пользователей Совпадение написания слов в разных языках филологи называют межъязыковой омонимией. Снимать ее автоматически пока не научились. Следовательно, задача не имеет решения? Однако, беглый анализ рубрик Реестра Меты, существующего в двух языковых версиях, показал, что совпадают в русском и украинском языках не более 12% рубрик. Т.е., если использовать названия рубрик в качестве поисковых запросов, украинская и русская выдача в результатах поиска будет пересекаться достаточно нечасто. Совпадающие же запросы можно заменить синонимами или производными словами (чаще всего – прилагательными). Например, уже упоминавшиеся «банки» можно заменить на пару «банковский»/ «банківський» и т.п. В Реестре Меты описано более 40 тысяч живых украинских сайтов, и рубрикация его складывалась «по мере поступления» заявок. В настоящее время он содержит 515 рубрик и подрубрик, и если пренебречь существованием рубрики «Другое», тематически охватывает все возможные тематики сайтов в принципе. Т.е. если сформировать зональную выборку запросов с зонами, сформированными по категориям Реестра, мы охватим практически все существующие тематики и избежим перекосов за счет разной популярности разных тематик на русском/украинском языках. Был составлен список из 1030 запросов (по два на каждую категорию) в двух языках (т.е. суммарно – 2060 запросов) и сняты данные по количеству запросов с этими ключевыми фразами за март 2006 года. При этом учитывались все вхождения ключевой фразы в реальные запросы. Т.е. в запросе «рефераты» учитывались также запросы «украинские рефераты», «банк рефератов» и подобные, и снималась их суммарная частота. В украинском запросе «реферати» учитывались вхождения «банк рефератів», «реферати з соціології» и подобные. Омоформ «реферат» учитывался и в одном, и в другом случае, т.к. выдача по этому запросу смешанная. Данные сведены в таблицу, фрагмент которой приведен ниже Тематика ключевые частота ключові частота авиация и космос авиация 620 авіація 465 авиация и космос космический 223 космічний 178 Авто Мото автомобиль 17819 автомобіль 1974 Авто Мото автомобильный 4687 автомобільний 981 Автоинфо номерной 176 номерний 68 Автоинфо ГАИ 1744 ДАІ 699 Автоматизация Автоматизация 600 Автоматизація 515 Автоматизация автоматический 1116 автоматичний 58 автоматизация производства автоматизация производства 14 Автоматизація виробництва 27 автоматизация производства полуавтомат 212 напівавтомат 19 автосервис автосервис 512 Автосервіс 49 автосервис автомеханик 85 автомеханік 5 автоспорт ралли 164 раллі 8 автоспорт уличный 200 вуличний 30 автохимия смазки смазки 468 мастила 40 автохимия смазки автохимия 95 автохімія 3 автошколы вождение 832 водіння 9 автошколы водитель 975 водій 236 автоэлектроника автоэлектроника 28 автоелектроніка 0 автоэлектроника зажигание 240 запалювання 8 Агентства агентство недвижимости 954 агентство/агенція нерухомості 105 Агентства риэлтор 87 ріелтор 25 Адреса Телефоны ул 3214 вул 982 Адреса Телефоны индекс 3487 індекс 1731 Азовское море Азовское 964 Азовське 179 Азовское море Бердянск 1128 Бердянськ 57 ..... ..... ВСЕГО 1672068 895547 Также учитывались возможные синонимы (прежде всего – в украинском языке, которому характерна избыточность синонимических рядов) Примеры – агентство/агенція, журнал/часопис и т.п. «Суржиковые» запросы, когда часть запроса идет на русском, часть на украинском, относились к языку, к которому относится ключевое слово. Пример: «мер Киева» , а не «мэр Киева» или «мер Києва» Суммарная частота обработанных запросов составила 2.567.615, что дает погрешность меньше 1%. Соотношение русский/украинский в запросах пользователей Меты – 65,1% против 34,9% . Или 2:1. За март Мета обработала 4.885.632 запроса. Каждый третий из них был украинским. Для тех, кто сомневается в точности данных, полученных на основании нашей выборки, нелишне будет напомнить, что социологические службы используют для мониринга 48-ми милионного населения Украины выборки из 2 тысяч респондентов. А стандартная лингвистическая выборка обычно составляет 200 тыс. словоупотреблений. Отличается ли это от той языковой картины Уанета, которая сформировалась у вас до этого времени? От картины, на которую ориентировалась сама Мета, основываясь на косвенных данных, отличатеся прилично. Год назад озвучивалась цифра 12% украинских запросов. Мета при этом ориетировалась, похоже, на количество переключений интерфейса на украинский язык при стартовой версии русской. Конечно, интересно было бы также обозначить тематики, где украинский преобладает. Приведу только первую 20-ку. Всего же таких тематик набралось 173. Тематика рус укр Рефераты Рефераты 46180 Реферати 57274 Организации совет 4861 рада 13083 Бизнес управление экономика 3136 економіка 7228 Госорганы верховный совет 427 верховна рада 4452 Политика Политика 2643 Політика 6561 Финансы финансовый 3620 фінансовий 7492 Социальные Социальные 3551 Соціальні 6891 Промышленность предприятие 12999 підприємство 15559 Госорганы кабинет министров 1872 кабінет міністрів 4374 Страна министерство 4448 міністерство 6855 Учреждения Учреждения 615 Заклади 2959 Региональные органы власти мэр 5454 мер 7548 Бухгалтерия Аудит учет 6822 облік 8894 Политические Политические 2293 Політичні 4333 Госучереждения налоговая 3657 податкова 5628 Международные организации международный 6040 міжнародний 7980 Охрана Охрана 3465 Охорона 5321 Наука Учеба учеба 828 навчання 2658 Базы данных информационный 2314 інформаційний 4011 Даже при взгляде на этот топ-20, отсортированный по наибольшей разнице между украинскими и русскими запросами, есть некоторые неожиданности. Помимо ожидаемых образовательных тематик и государственных органов власти, в нем присутствуют Финансы, Промышленность, Базы данных, Бухгалтерия и пр. Что несколько не соответствует сложившимся стереотипам. Но как бы там ни было, на все это есть резонное возражение, что это статистика Меты – наиболее «украинского» из поисковиков. По крайней мере, Мета последовательно позиционировала себя как «Украинский поисковик» долгие годы и сумела в подобном качестве закрепиться в сознании пользователей. В поисковом трафике Украины Мета составляет 10,6% по данным БигМир. Понятно, что Яндекс и Рамблер содержат меньше украинских запросов, что и проверять не нужно. Часто пользователь даже не догадывается, что эти поисковики ищут по-украински. По оценкам Александра Садовского, правда, тоже достаточно давним, запросы на украинском языке в Яндексе составляют около 15% от всех запросов с Украины. Однако, следует помнить, что и долю они в поисковом трафике Украины занимают более скромную, чем в России.11,6% - Рамблер и 16,9% - Яндекс (данные за год). На кого же похож в этом отношении Google, обрабатывающий 46,9% украинского поискового трафика, остается только догадываться, потому что свою статистику запросов он не показывает даже ФБР. При известном попустительстве модераторов AdWords есть достаточно простой способ это проверить: прокрутить контекстную рекламу по 2060 запросам с фокусировкой на Украину. Однако простой не всегда значит дешевый. По нашим ощущениям, полученным в результате анализа логов сайтов, которые по тем или иным причинам имели только украинскую версию, «україномовний» трафик Гугля больше, чем в Рунетовских поисковиках. Однако оценить его процент на таких неполных данных не представляется возможным: как. оказалось уже после этого исследования, сайты совершенно случайно попали в тематики, в которых преобладают украинские запросы. К счастью, в случаях конкретных продвигаемых сайтов, глобальные тенденции касаются нас постольку-поскольку. Я надеюсь, всего вышесказанного достаточно для того, чтобы потратить лишних 15 минут для изучения украинского спроса в тематике конкретного сайта. В среднестатистическом случае, как следует из полученных данных, простое создание украинской версии сайта равносильно «прописыванию» в поисковике, равноценном Гуглю, т.е. способно увеличить поисковый трафик на 30%. Не говоря о том, что конкуренция в украиноязычном сегменте гораздо меньше, и продвинуть его пока еще очень легко. 10. Заключение Тем, кому уже показалось, что данные проблемы актуальны исключительно для Украины, как страны с непростой языковой картиной, хочется сообщить историю «осознания проблемы». Касалась она вопроса пользователя на форуме, касающегося того, почему Яндекс не поддерживает расширенную кириллицу, необходимую для поиска на татарском языке. Над пользователем, как водится на форумах, поиздевались всяческие «эксперты», но внятного ответа на вопрос, есть ли спрос и предложение на татарском никто из них, как водится, дать не смог. Все больше ориентировались на убеждения россиянина, ходящего в интернет изнутри московской кольцевой автодороги. Тогда автору пришлось вспомнить о методике Катерины Кирсановой, перевести союз «и» на татарский (hәм, белән), и попробовать оценить количество документов на татарском объективно, с помощью Гугля, который невниманием к регинальным языкам не страдает. Поиск по союзу «hәм» дал 80.900 документов внутри России и 88.400 во всех доменах. Т.е. предложение имеет место быть, ирония москвичей неуместна. А там, где есть предложение, должен появиться и спрос. От просьбы пользователей, подкрепленной таким количеством документов, разработчики Яндекса, по личному опыту автора, никогда не отмахиваются. Т.е. на самом деле Рунет только подходит к осознанию языковых проблем, которые в Уанете уже давно решаются, и хочется верить, будут решены успешно. Мечта автора этого доклада – с помощью языков развести коммерчекие и некоммерческие запросы, что пользователи Украины, похоже, и делают сейчас. Оставалось только генерализировать проблему и проверить ее на более-менее доступных автору европейских языках. Благодарности Автор благодарит Алексея Чуксина и Александра Садовского за время, потраченное на консультации и критику. Главная О Компании Услуги Клиенты Новости Статьи Успехи Контакты Портфолио Карта сайта © Antanta.net MMV