Корпус жасау тәжірибесінің тіл білімі саласындағы тиімділігі

Корпус жасау тәжірибесінің тіл білімі саласындағы тиімділігі
жеке
блог

Алғаш 1969 жылы АҚШ-тың Лос-Анджелес штатында ойлап табылып, 1973 жылы халықаралық сипат алған web-орта яғни интернет – бүгінде адам өмірінің бөлінбес бөлшегіне айналып отыр. Интернет арқылы  ақпарат алу, сақтау, бөлісу,  онлайн қызмет көрсету түрлерін пайдалану, қарым-қатынас жасау сияқты әрекеттер жүзеге асырылуда. Бұл үдеріс ғылым салаларында да цифрлі технологияларды қолданудың маңызын арттырып, жаңа міндеттер жүктеді. Виртуалды кеңістікте қазақ тілінің компьютерлік базасын жасау – қазіргі таңда тілші ғалымдардың алдында тұрған маңызды  міндеттердің бірі. Бұл базаны басқаша «корпус» деп атауға  болады. Қазақ тіл білімінің тәжірибелік мәселелерін қарастыратын ғылым салаларының бірі «корпустық лингвистика» аталған «базаны» құрастырумен айналысады. Бұл бағытта А.Қ. Жұбанов, А.А. Жаңабекова  Г.Б. Мадиева, Ж.М.Уматова, Қ.Г.Рысалды, А.С.Сейітбек, Э.Д.Сүлейменова, Н.Т.Мейірман, А.Н.Исмайлова сынды қазақ ғалымдары  зерттеу жұмыстарын жүргізіп, көпшілік назарына ұсынып жүр. Ғалымдар атқарған еңбектің нәтиежесінде «Қазақ тілінің ұлттық корпусы», «Алматы қазақ тілі корпусы» құрастырылған болатын. Бүгінде аталған корпустар  әлі де жетілдірілу үстінде. Дамыған елдердің барлығы  үшін корпус жасау мен оны дамытып отыру мемлекеттік маңызы бар іс. Сондықтан елдіктің белгісі болып саналатын ту, елтаңба сияқты  рәміздер қатарына «Қазақ тілінің ұлттық корпусын» кіргізуге болады. Себебі корпус – цифрлі кеңістікте тілдің бар байлығын бір «жәшікке» жинақтайтын  маңызды  ресурс. Корпусты құрастырудың тілдегі ауызша, жазбаша, аралас мәтіндер базасын түзіп, лингвистикалық белгіленімдер бойынша ақпарат енгізуден бөлек  пайдалы тұстары да бар. Мәселен, корпусты құрастыруда маңызды болып табылатын корпустық менеджерлердің «іздеу тілі» түрлерін (RegExp, регулярные выражение) пайдалану арқылы тек мәтін іздеудің белгілі шарттарын орнатып қана қоймай, өзге де мақсаттарға пайдалануға болады.  «PHP8», «MySQL», «C++», «Python», т.б. программалау тілдерінде (регулярные выражение) қолданып (орыс тіліндегі термины балета, словарь повара, словарь пожарных, музыкальный словарь...) іспеттес қазақ тіліндегі техникалық терминдер сөздігі, ассоцациялық сөздіктер, тілді үйретуге арналған қосымшалар, сайт, бот бағдарламасын жазуға немесе кез келген құжат ішіндегі сан немесе символдық белгілерді жылдам табуға мүмкіндік туғызады. (регулярные выражение) қарапайым түрлері  «EmEditor», «Notepad++» сынды әмбебап мәтіндік редакторларда орнатылған.Суретте «EmEditor» әмбебап мәтіндік редакторына (регулярные выражение) қызметтерін қосуды таңдау жолы көрсетілген. Бұл қызмет іске қосылғаннан кейін мәтіндік құжат ішіндегі ақпаратты жол басынан, жол соңынан іздеу немесе тек белгілі бір символды  іздеу сынды шарттарды орнатуға болады. Аталмыш әмбебап мәтіндік редакторлар кез келген адамға қолжетімді. Яғни, корпус құрастырушылар мен тілші ғалымдардан бөлек, өзге салада қызмет жасайтын тұлғалалар да  өз мақсатына сай пайдалана алады. Бұл ресурстарды көптеген мақсатта қолдануға болатын корпустың қосымша пайдаларының қатарына жатқызуға болады. Жалпы корпусты – тіл десек, сол тілдің көмегімен түрлі сөйлемдер құрап, шығармалар жазуға болатынындай, корпустың ақпараттық базасын пайдалану арқылы да тіл білімінің тәжірибелік мәселелерін шешу де сондай-ақ қосымша қазақ тіліндегі қызмет көрсетудің әр бағытына арналған қосымшалар жасау ісі де  жеңілдейді.