Корпус — белгілі бір тілдегі мәтіндердің электронды нұсқада жинақтауға бағытталған ақпараттық-анықтамалық жүйе. Ұлттық корпустарды лингвисттер сол тілде зерттеу жұмыстарын жүргізу үшін құрады. Әлемдегі көптеген танымал тілдердың онлайн корпустары бар. Мысалы Британдық Ұлттық корпусы (BNC) — ең алғашқы құрылған тіл платформасы. Қазақ тілінің әзірге ұлттық корпусы құрылмаса да, оның Алматыдағы бастапқы нұсқасы өз жұмысын бастап жіберген.
Корпус жобасы бойынша жұмыс әл-Фараби атындағы Қазақ ұлттық университетінің ректоры Ғ.М. Мұтановтың қолдауымен және ҚазҰУ-дың Филология, әдебиеттану және әлем тілдері факултеті жалпы тіл білімі және шетел филологиясы кафедрасының күшімен, кафедра меңгерушісі Г. Б. Мадиеваның жетекшілігімен және ҰЗУ ЭЖМ (Мәскеу) Филология факультеті қызметкерлерінің қатысуымен 2012 жылдың мамыр айында басталды. Аталмыш корпус Шығыс армян ұлттық корпусының (EANC) іздеу жүйесіне бейімделіп жасалған.
Бұл сайтта Алматы қазақ тілі корпусының бастапқы нұсқасы орналастырылған. Қазіргі таңда корпустың көлемі 1 миллионға жуық сөз қолданыстарынан тұрады. Корпус мәтіндері автоматты морфологиялық талдағыш көмегімен белгіленген, корпус сөз формаларының 80%-ының грамматикалық талдауы бар. Корпуста омонимия алынған жоқ, яғни әрбір сөз форма талдауының барлық мүмкін деген нұсқалары контексті ескермей тіркелген.
Бұл Қазақстан Республикасының мемлекеттік тілі қазақ әдеби тілінің тіркелген кең көлемді мәтіндер қоры негізіндегі анықтамалық-ақпараттық жүйе — Ұлттық қазақ тілі корпусының (ҰҚТК) алғашқы нұсқасы. Корпустың толықтырылатындығы, сандық және сапалық тұрғыдан жаңартылатындығы сөзсіз, сондай-ақ келешекте корпустың іздеу жүйесінің қолданысы айтарлықтай жетілдіріледі.
ҰҚТК-нің келешектегі негізгі даму бағдары төмендегідей:
– лингвистикалық тұрғыдан көрнекті корпус;
– күрделі лексика-морфологиялық сұрақтарды жүзеге асыруға арналған пәрменді іздеу аппараты;
– сөзформаларының басым көпшілігіне лексика-морфологиялық талдау және орыс/ағылшын тілдеріне аударма баламалары берілетін қазақ тілін өз бетінше үйренуге арналған ыңғайлы құрал;
– қазіргі қазақ тілі тарихының әртүрлі кезеңдерін қамтитын диахрониялық тұрғыдан бағдарланған корпус;
– әртүрлі жанрлы жазбаша және ауызша мәтіндердің түрлі типтерін қамтитын әртарапты корпус;
– грамматикалық және библиографиялық белгімен жабдықталған аннотациялық корпус;
– қолжетімді ашық корпус;
– қазақ әдебиетінің 100-ден аса классикалық шығармаларынан тұратын электронды кітапхана.
Жобаға ҰЗУ ЭЖМ (Мәскеу) Филология факультетінің қызметкерлері Михаил Даниэль, Светлана Толдова, Ольга Ляшевская, Тимофей Архангельский жетекішілік еткен. Сонымен қатар, Жалпы тіл білімі және шетел филологиясы кафедрасының оқытушы-профессорлар құрамы мен докторанттары, магистранттары және студенттері қатысқан.
Әл-Фараби атындағы Қазақ ұлттық университетінің Кітапханасы және Ақпараттық технологиялар департаменті ғылыми және көркем мәтіндердің электронды қорын жинауға көмек білдірген. Олар 650 мың сөз қолданысының морфологиялық және семантикалық талдауын жасаған.