O‘zbek tili milliy korpusining dasturiy ta’minoti yaratildi
Uning axborot tizimidan foydalanish uchun internet tarmog‘iga ulanib, brauzer ochiladi hamda http://uzbekcorpora.uz/ yoki http://www.uzbekcorpora.uz/ havolasi orqali dasturga o‘tiladi.
Jahon tilshunosligi taraqqiyotida har bir xalq o‘z tilining milliy mavqeini oshirish, uning asl holatini saqlash, kelajak avlodga butunligicha yetkazish maqsadida milliy til korpuslarini yaratmoqda. Chunki til korpuslari nafaqat elektron jamlanma, balki til o‘rganuvchilarga, turli lingvistik tadqiqotlarni olib boruvchilarga qo‘llanma hamda leksikografik manbadir.
Zamonaviy tilshunoslikning asosiy yo‘nalishlaridan bo‘lgan kompyuter lingvistikasi va korpus lingvistikasi rivojlanib, yurtimizda ham milliy til va uning sofligini saqlashga keng e’tibor qaratilmoqda. Bunda milliy til korpusining dasturiy ta’minotini yaratish, uning internet tarmog‘ida ishlashini ta’minlash, milliy tilni kompyuter yordamida lingvistik aspektda tadqiq etish muhim masala hisoblanadi.
Mamlakatimizda keyingi yillarda o‘zbek tilining sofligini saqlash, uni dunyoga tanitish masalasi ko‘tarilmoqda. Binobarin, Prezidentimizning “O‘zbek tilining davlat tili sifatidagi nufuzi va mavqeini tubdan oshirish chora-tadbirlari to‘g‘risida”gi farmonida davlat tilining axborot va kommunikatsiya texnologiyalari, xususan, internet jahon axborot tarmog‘ida munosib o‘rin egallashini ta’minlash, o‘zbek tilining kompyuter dasturlarini yaratish zarurligi ko‘rsatilgan. Shuningdek, “2020-2030 yillarda o‘zbek tilini rivojlantirish va til siyosatini takomillashtirish konsepsiyasi”da o‘zbek tiliga oid barcha ilmiy, nazariy va amaliy ma’lumotlarni o‘zida jamlagan elektron ko‘rinishdagi o‘zbek tili milliy korpusini yaratish vazifasi qo‘yilgan.
Bu borada “O‘zbek tilining milliy korpusini loyihalash va dasturiy majmua ishlab chiqish” loyihasi doirasida Samarqand davlat universiteti va Toshkent axborot texnologiyalari universiteti Samarqand filialining 10 nafarga yaqin ilmiy va texnik xodimlari bilan birgalikda amaliy ishlarni boshlaganmiz.
Xususan, mavjud xorijiy milliy korpuslarni tahlil qilish, o‘zbek tili milliy korpusini yaratish tamoyillarini aniqlash, dasturiy ta’minot talablarini shakllantirish, loyihalash, dasturiy ta’minot uchun algoritmlarni ishlab chiqish, sinovdan o‘tkazish va tasdiqlash kabi loyihamizning asosiy vazifalarini belgilab, o‘zbek tili milliy korpusining dasturiy ta’minotini ishlab chiqdik. Korpus ma’lumotlar bazasini tahrir qilishga mo‘ljallangan uzbekcorpora.uz dasturiy ta’minoti onlayn rejimda ishlaydigan bepul platforma bo‘lib, tilni tadqiq qilishda o‘rganuvchiga istalgan joyda, istalgan kompyuterda ishlash imkonini beradi.
O‘zbek tili milliy korpusi axborot tizimidan foydalanish uchun internet tarmog‘iga ulanib, brauzer ochiladi hamda http://uzbekcorpora.uz/ yoki http://www.uzbekcorpora.uz/ havolasi orqali dasturga o‘tiladi. Tadqiqot natijalarining amaliy ahamiyati o‘zbek tili milliy korpusini yaratish va boshqarishga mo‘ljallangan uzbekcorpora.uz dasturiy ta’minotidan so‘z va iboralarni korpus bo‘ylab qidirish (konkordans), razmetkasini aniqlash (so‘z morfologiyasi), lemmalash, tokenlash mumkinligi bilan izohlanadi.
Korpus yaratishda turli xil razmetkaning bo‘lish yoki bo‘lmasligini va agar bo‘lsa, uning aniqlik darajasini hisobga olish maqsadga muvofiq. Korpus dasturiy ta’minoti tarkibida avtomatik razmetkalash dasturlari, albatta, bo‘lishi kerak. Razmetkaning yuqori aniqlikda bo‘lishini faqat filolog mutaxassis ta’minlashi mumkin. Chunki mutaxassis har bir matnning razmetkalanishini so‘zma-so‘z sinchiklab tekshirishi, avtomatik razmetka xatolarini tuzatishi va omonim holatlarni bartaraf qilishi kerak.
Korpusdan foydalanishga mo‘ljallangan dasturlarga korpusdan qidiruv tizimi, konkordans hosil qilish, kontekstlarni tuzish va chiqarish, kalit so‘zlarning statistik ma’lumotlarini aniqlash, metarazmetka va razmetka ma’lumotlarni taqdim etish, kengaytirilgan kontekstni hosil qilish kabi jarayonlarni o‘z ichiga oladi.
Korpus tarkibida matnlar bilan ishlash uchun tuziladigan dasturning umumiy strukturaviy modeli ishlab chiqilishi lozim bo‘lib, hozircha o‘zbek tili milliy korpusiga matn yuklashdan toki uni ma’lumotlar bazasida saqlangungacha bo‘lgan jarayon uchun model ishlab chiqildi.
Jumladan, “Tegger” dasturidan matnlarni korpusga kiritishda foydalaniladi. Matnlarni korpusga kiritish jarayonida matnga grammatik ishlov beriladi. Matndagi so‘zlarga grammatik ma’lumotlar yarimavtomat tarzida to‘ldiriladi va grammatik ma’lumotga ega bo‘lgan so‘zlarning rangi qizil rangga o‘zgaradi va foydalanuvchiga razmetkalanmagan so‘zlar hamda razmetkalangan so‘zlar yaqqol ajralib ko‘rinadi.
Til korpuslarida minglab matnlar joylashgan bo‘lib, kerakli so‘zni topish va uning lingvistik xarakteristikasini olish uchun qidiruv tizimidan foydalaniladi. Boshqa korpuslar singari uzbekcorpora.uzda ham bu tizim faol ishlaydi. Qidiruv tizimi natijasida nafaqat so‘zning grammatik razmetkasi, balki o‘sha so‘z ishtirok etgan jumlalar to‘plami – konkordansi ham taqdim etiladi.
Konkordans – matnni o‘rganishning an’anaviy, uzoq vaqtdan beri ma’lum bo‘lgan, ammo hali ham matnni o‘rganishning yetarlicha o‘rganilmagan usuli. U bevosita va kengaytirilgan kontekstdagi so‘zlarning to‘liq indeksini beradi. Konkordans – korpusga kiritilgan matnlardagi o‘rganilayotgan so‘zning konteksti va ularning ro‘yxati, u o‘rganilayotgan so‘zni uni o‘rab turgan boshqa so‘zlar bilan taqdim etadi. Korpus tilshunosligida o‘rganilayotgan so‘z odatda “kontekstdagi kalit so‘zlar” deb tushuniladi. uzbekcorpora.uz tizimida konkordans tuzish uchun “Tilshunoslik tadqiqotlari” menyusidan “konkordans” bo‘limiga kiriladi.
Uzbekcorpora.uz o‘zbek tili milliy korpusining yana bir noyob xususiyatidan biri, bu - mualliflik korpusni yaratishdir. Dasturiy ta’minot “Alpomish” dostoni matnlari asosida korpus yaratish yo‘li bilan sinovdan o‘tkazilgan va foydalanishga tayyor holatga keltirilgan bo‘lib, har bir tadqiqotchi o‘zining mualliflik korpusini yaratish va shu orqali ob’yektini tadqiq qilishi mumkin. Bunda mualliflik korpusini yaratish uchun foydalanuvchiga shaxsiy kabinet ochib beriladi. O‘zining kabinetida tanlangan matnlar bo‘yicha lingvistik tahlillari va tadqiqotlarini bajarishi mumkin. Bu esa milliy korpus bazasini parallel ravishda matnlar bazasi bilan to‘ldirish imkoniyatini beradi.
Suyun KARIMOV,
Samarqand davlat universiteti professori.