Ўзбек тилининг миллий корпуси яратилади

Ўзбек тили туркий тиллар оиласига мансуб энг йирик тиллардан бири бўлиб, дунё бўйича 50 миллионга яқин киши шу тилда сўзлашади. Кейинги йилларда давлат тилининг халқаро миқёсдаги ўрни ва нуфузи, бошқа тиллар билан алоқалари истиқболини белгилаш, ўзбек тилининг миллий корпусини яратиш, хорижда истиқомат қилувчи ватандошлар ва ўзбек тилини ўрганиш истагида бўлган чет эл фуқаролари учун ўзбек тили дарсликлари, электрон дастурларни ишлаб чиқиш ва ўзбек тилини ўргатиш бўйича амалий ишлар қилинмоқда.

 “2020-2030 йилларда ўзбек тилини ривожлантириш ва тил сиёсатини такомиллаштириш концепцияси”да давлат тилининг замонавий ахборот технологиялари ва коммуникацияларига фаол интеграциялашувини таъминлаш устувор йўналиш сифатида белгиланган. Концепцияда ўзбек тилига оид барча илмий, назарий ва амалий маълумотларни ўзида жамлаган электрон кўринишдаги ўзбек тили миллий корпусини яратиш ва уни жаҳон ахборот тармоғида оммалаштириш вазифаларининг кўрсатиб берилиши биз, мутахассисларга катта масъулият юклади.

Замонавий ахборот технологиялари тилнинг функционал имкониятларидан фойдаланиш борасида бениҳоя имкониятлар эшигини очди. Компьютер таржимаси, автоматик таҳрир ва таҳлил, ёзма матнни овозлаштирувчи нутқ синтезаторлари, оғзаки нутқни ёзма матнга айлантирувчи нутқни таниш дастурлари, электрон луғатлар, лингвистик мобил иловалар, тезауруслар ва тил онтологияси фикримизнинг далилидир. Айниқса, замонавий электрон луғатлар тузиш ва ундан фойдаланиш маданиятини шакллантириш тил имкониятини эгаллашда самарадор эканлиги ўз исботини топган. Хусусан, тилнинг имкониятини намоён қилиш ва эгаллаш борасида дунё миқёсида тез суръатларда яратилаётган тил корпусларининг роли беқиёс.

Бу борада “Ўзбек тилининг миллий корпусини лойиҳалаш ва дастурий мажмуа ишлаб чиқиш” мавзусида 9 нафар илмий ва техник ходимларимиз билан биргаликда амалий ишларни бошладик.

Даставвал, мавжуд хорижий миллий корпусларни таҳлил қилиш, ўзбек тили миллий корпусини яратиш тамойилларини аниқлаш, дастурий таъминот талабларини шакллантириш, лойиҳалаш, дастурий таъминот учун алгоритмларни ишлаб чиқиш, синовдан ўтказиш ва тасдиқлаш каби лойиҳамизнинг асосий вазифаларини белгилаб олдик.

Ушбу амалий тадқиқот давомида айни пайтга қадар  мавжуд хорижий миллий корпусларни таҳлил қилиш асосида ўзбек тили миллий корпуси модели яратилди. Матнларни автоматик қайта ишлаш, токенлаш, леммалаш ва грамматик разметкалаш моделлари ва алгоритмлари ишлаб чиқилди. Интернет орқали ўзбек тили миллий корпусидан фойдаланиш учун uzbekcorpora.uz веб-сайти ишга туширилди.

Тадқиқотнинг асосий натижаси ўзбек тили миллий корпусини яратиш учун ишлаб чиқилган дастурий мажмуадан иборат бўлади. Ушбу дастурий мажмуа корпус лингвистикаси мутахассисларига мўлжалланган бўлиб, замонавий интернет технологиялари асосида ўзбек тилининг танланган матнлар жамланмаси бўйича муаллифлик ёки тематик корпуслар ҳамда ўзбек миллий корпусини яратишга имконият беради. Дастурий таъминот “Алпомиш” достони матнлари асосида корпус яратиш йўли билан синовдан ўтказилган ва фойдаланишга тайёр ҳолатга келтирилган.

Ушбу йўналишда олиб борилаётган амалий ишлар самарасида хорижий ва маҳаллий журналларда 10 га яқин, анжуманларда 24 та мақола эълон қилиниб, 5 та дастурий гувоҳнома олинди. Амалий тадқиқот ишларининг келгуси босқичларида ўзбек тилининг танланган матнлар жамланмаси бўйича корпус шакллантирилади ва корпусга киритилган матнлар устида турли илмий тадқиқотлар ўтказишга имконият берадиган дастурлар яратилади.

Суюн КАРИМОВ,

филология фанлари доктори, Шароф Рашидов номидаги СамДУ профессори.