Ўзбек тили миллий корпусининг дастурий таъминоти яратилди

Унинг ахборот тизимидан фойдаланиш учун интернет тармоғига уланиб, браузер очилади ҳамда http://uzbekcorpora.uz/ ёки http://www.uzbekcorpora.uz/ ҳаволаси орқали дастурга ўтилади.

Жаҳон тилшунослиги тараққиётида ҳар бир халқ ўз тилининг миллий мавқеини ошириш, унинг асл ҳолатини сақлаш, келажак авлодга бутунлигича етказиш мақсадида миллий тил корпусларини яратмоқда. Чунки тил корпуслари нафақат электрон жамланма, балки тил ўрганувчиларга, турли лингвистик тадқиқотларни олиб борувчиларга қўлланма ҳамда лексикографик манбадир.

Замонавий тилшуносликнинг асосий йўналишларидан бўлган компьютер лингвистикаси ва корпус лингвистикаси ривожланиб, юртимизда ҳам миллий тил ва унинг софлигини сақлашга кенг эътибор қаратилмоқда. Бунда миллий тил корпусининг дастурий таъминотини яратиш, унинг интернет тармоғида ишлашини таъминлаш, миллий тилни компьютер ёрдамида лингвистик аспектда тадқиқ этиш муҳим масала ҳисобланади.

Мамлакатимизда кейинги йилларда ўзбек тилининг софлигини сақлаш, уни дунёга танитиш масаласи кўтарилмоқда. Бинобарин, Президентимизнинг “Ўзбек тилининг давлат тили сифатидаги нуфузи ва мавқеини тубдан ошириш чора-тадбирлари тўғрисида”ги фармонида давлат тилининг ахборот ва коммуникация технологиялари, хусусан, интернет жаҳон ахборот тармоғида муносиб ўрин эгаллашини таъминлаш, ўзбек тилининг компьютер дастурларини яратиш зарурлиги кўрсатилган. Шунингдек, “2020-2030 йилларда ўзбек тилини ривожлантириш ва тил сиёсатини такомиллаштириш консепцияси”да ўзбек тилига оид барча илмий, назарий ва амалий маълумотларни ўзида жамлаган электрон кўринишдаги ўзбек тили миллий корпусини яратиш вазифаси қўйилган.

Бу борада “Ўзбек тилининг миллий корпусини лойиҳалаш ва дастурий мажмуа ишлаб чиқиш” лойиҳаси доирасида Самарқанд давлат университети ва Тошкент ахборот технологиялари университети Самарқанд филиалининг 10 нафарга яқин илмий ва техник ходимлари билан биргаликда амалий ишларни бошлаганмиз.

Хусусан, мавжуд хорижий миллий корпусларни таҳлил қилиш, ўзбек тили миллий корпусини яратиш тамойилларини аниқлаш, дастурий таъминот талабларини шакллантириш, лойиҳалаш, дастурий таъминот учун алгоритмларни ишлаб чиқиш, синовдан ўтказиш ва тасдиқлаш каби лойиҳамизнинг асосий вазифаларини белгилаб, ўзбек тили миллий корпусининг дастурий таъминотини ишлаб чиқдик. Корпус маълумотлар базасини таҳрир қилишга мўлжалланган uzbekcorpora.uz дастурий таъминоти онлайн режимда ишлайдиган бепул платформа бўлиб, тилни тадқиқ қилишда ўрганувчига исталган жойда, исталган компьютерда ишлаш имконини беради.

Ўзбек тили миллий корпуси ахборот тизимидан фойдаланиш учун интернет тармоғига уланиб, браузер очилади ҳамда http://uzbekcorpora.uz/ ёки http://www.uzbekcorpora.uz/ ҳаволаси орқали дастурга ўтилади. Тадқиқот натижаларининг амалий аҳамияти ўзбек тили миллий корпусини яратиш ва бошқаришга мўлжалланган uzbekcorpora.uz дастурий таъминотидан сўз ва ибораларни корпус бўйлаб қидириш (конкорданс), разметкасини аниқлаш (сўз морфологияси), леммалаш, токенлаш мумкинлиги билан изоҳланади.

Корпус яратишда турли хил разметканинг бўлиш ёки бўлмаслигини ва агар бўлса, унинг аниқлик даражасини ҳисобга олиш мақсадга мувофиқ. Корпус дастурий таъминоти таркибида автоматик разметкалаш дастурлари, албатта, бўлиши керак. Разметканинг юқори аниқликда бўлишини фақат филолог мутахассис таъминлаши мумкин. Чунки мутахассис ҳар бир матннинг разметкаланишини сўзма-сўз синчиклаб текшириши, автоматик разметка хатоларини тузатиши ва омоним ҳолатларни бартараф қилиши керак.

Корпусдан фойдаланишга мўлжалланган дастурларга корпусдан қидирув тизими, конкорданс ҳосил қилиш, контекстларни тузиш ва чиқариш, калит сўзларнинг статистик маълумотларини аниқлаш, метаразметка ва разметка маълумотларни тақдим этиш, кенгайтирилган контекстни ҳосил қилиш каби жараёнларни ўз ичига олади.

Корпус таркибида матнлар билан ишлаш учун тузиладиган дастурнинг умумий структуравий модели ишлаб чиқилиши лозим бўлиб, ҳозирча ўзбек тили миллий корпусига матн юклашдан токи уни маълумотлар базасида сақлангунгача бўлган жараён учун модель ишлаб чиқилди.

Жумладан, “Tegger” дастуридан матнларни корпусга киритишда фойдаланилади. Матнларни корпусга киритиш жараёнида матнга грамматик ишлов берилади. Матндаги сўзларга грамматик маълумотлар яримавтомат тарзида тўлдирилади ва грамматик маълумотга эга бўлган сўзларнинг ранги қизил рангга ўзгаради ва фойдаланувчига разметкаланмаган сўзлар ҳамда разметкаланган сўзлар яққол ажралиб кўринади.

Тил корпусларида минглаб матнлар жойлашган бўлиб, керакли сўзни топиш ва унинг лингвистик характеристикасини олиш учун қидирув тизимидан фойдаланилади. Бошқа корпуслар сингари uzbekcorpora.uzда ҳам бу тизим фаол ишлайди. Қидирув тизими натижасида нафақат сўзнинг грамматик разметкаси, балки ўша сўз иштирок этган жумлалар тўплами – конкорданси ҳам тақдим этилади.

 Конкорданс – матнни ўрганишнинг анъанавий, узоқ вақтдан бери маълум бўлган, аммо ҳали ҳам матнни ўрганишнинг етарлича ўрганилмаган усули. У бевосита ва кенгайтирилган контекстдаги сўзларнинг тўлиқ индексини беради. Конкорданс – корпусга киритилган матнлардаги ўрганилаётган сўзнинг контексти ва уларнинг рўйхати, у ўрганилаётган сўзни уни ўраб турган бошқа сўзлар билан тақдим этади. Корпус тилшунослигида ўрганилаётган сўз одатда “контекстдаги калит сўзлар” деб тушунилади. uzbekcorpora.uz тизимида конкорданс тузиш учун “Тилшунослик тадқиқотлари” менюсидан “конкорданс” бўлимига кирилади.

Uzbekcorpora.uz ўзбек тили миллий корпусининг яна бир ноёб хусусиятидан бири, бу - муаллифлик корпусни яратишдир. Дастурий таъминот “Алпомиш” достони матнлари асосида корпус яратиш йўли билан синовдан ўтказилган ва фойдаланишга тайёр ҳолатга келтирилган бўлиб, ҳар бир тадқиқотчи ўзининг муаллифлик корпусини яратиш ва шу орқали объектини тадқиқ қилиши мумкин. Бунда муаллифлик корпусини яратиш учун фойдаланувчига шахсий кабинет очиб берилади. Ўзининг кабинетида танланган матнлар бўйича лингвистик таҳлиллари ва тадқиқотларини бажариши мумкин. Бу эса миллий корпус базасини параллель равишда матнлар базаси билан тўлдириш имкониятини беради.

 Суюн КАРИМОВ,

 Самарқанд давлат университети профессори.