Корпусна група БрУК
Завдання
На принципах Браунського корпусу створити анотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань
Репозитарій
https://github.com/brown-uk
Склад:
Василь Старко
Андрій Рисін
Ольга Гавура
Наталія Олішкевич
На різних етапах до роботи також долучалися:
Наталія Чейлитко
Мар’яна Романишин
Настасія Осідач
Катерина Альошкіна
Катерина Бобровник
Христина Кулак
Оксана Кунікевич
Тетяна Матвєєва
Ірина Возна
Ян Бутельський
Зв’язок
bruk.group@gmail.com
Публікації
1. Старко В., Чейлитко Н. Концепція створення Браунського корпусу української мови
«Комп’ютерна лінгвістика: сучасне та майбутнє». Матеріали Міжнародної науково-практичної конференції. – К.: КНЛУ, 2012. – С. 45-46.
http://www.mova.info/zbirnyk.pdf
2. Старко В., Чейлитко Н. Параметризація корпусу як спосіб підвищення його репрезентативності та збалансованості
"Українське мовознавство", випуск 43, 2013, С. 87-94
http://philology.knu.ua/library/zagal/Ukr_movoznavstvo_2013_43/87-94.pdf
3. Cheilytko, N., Starko, V., Galkin, A. The Ukrainian Brown Corpus and Dependency Tree Modeling
Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці: Матеріали XII Міжнародної науково-технічної конференції CADSM 2013. – Львів: Вид-во Нац. ун-ту «Львівська політехніка», 2013. – C. 58- 60.
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6543167
4. Старко В. Формування Браунського корпусу української мови
Мовні і концептуальні картини світу. - 2014. - Вип. 48. - С. 415-421.
http://philology.knu.ua/files/library/movni_i_konceptualni/48/40.pdf
Категорії текстів у БрУК
Загалом тексти поділяються на два види – інформативні (призначені поінформувати читача) і художні (описують вигаданих персонажів і події). Інформативний вид охоплює категорії А-H, художній – лише I.
А. Преса - 25% (репортажі, огляди, редакційні статті, листи до редакції; національні й регіональні видання; тематично - політика, спорт, суспільство, економіка й фінанси, короткі новини, культура - театр, література, музика, танці)
B. Релігійна література - 3% (книжки, періодика, брошури).
С. Професійно-популярна література - 7% (книжки й періодика; домоводство, ремесла, «сад і город», хобі, ремонт і будівництво, конструювання, музика й танці, домашні тварини, спорт, їжа й вино, подорожі, фермерство, робочі професії тощо).
D. «Естетичні інформативні» тексти - 7% (інформативні тексти, що не потрапляють в інші категорії, зокрема, біографії, мемуари, есеї, передмови, особисті листи, художня й мистецтвознавча критика, рекламні тексти)
E. Адміністративні документи - 3% (закони, урядові акти, звіти організацій/фондів/компаній, офіційні листи)
F. Науково-популярна література - 5% .
G. Наукова література - 10% (книжки й періодика; природничі й гуманітарні науки, техніка й інженерна справа).
H. Навчальна література - 15% (підручники, посібники тощо, гуманітарні й природничі науки та інше)
I. Художні тексти - 25% (романи, повісті, оповідання, новели, за тематикою – загальна, детективи, фантастика, пригодницька, любовна, гумористична тощо)
Метаінформація в корпусі БрУК
<id></id>
<author_surname></author_surname>
<author_name></author_name>
<title></title>
<publ_in></publ_in>
<url></url>
<publ_part></publ_part>
<publ_place></publ_place>
<publisher></publisher>
<year></year>
<pages></pages>
<length></length>
<alt_orth></alt_orth>
<errors></errors>
<comments></comments>
Загальні вимоги до текстів БрУК
– оригінальні (неперекладні)
– зредаговані
– прозові (діалогів не більше ніж 50%)
– написані й вперше опубліковані в Україні в період 2010-2016 рр.
– обсяг кожного уривка 250-2000 слововживань
– помилки виносити в зону помилок
– тексти зберігати в кодуванні UTF-8
Вимоги до якості текстів
– без найменших ознак машинного чи людського перекладу
– грамотність - відсутність орфографічних, пунктуаційних, граматичних помилок тощо
– стиль - відсутність росіянізмів, активних дієприкметників, невдалих синтаксичних конструкцій тощо
– початковий етап оцінювання якості тексту – застосування засобу LanguageTool на https://r2u.org.ua/check
Екосистема
Інші українські НЛП проекти
ВЕСУМ - Великий електронний словник української мови
https://github.com/brown-uk/dict_uk
LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови https://languagetool.org/uk/
Mova.info - лінгвістичний портал КНУ http://www.mova.info
Граматичний словник української літературної мови (словозміна) відділу структурно-математичної лінгвістики Інституту української мови НАНУ
http://www.mova.info/Page.aspx?l1=222