Язма корпус татар телендә иҗат ителгән электрон текстлар җыелмасын тәшкил итә.
Татар теленең язма корпусын төзүгә караган эшләрнең башлануы 2010 елга карый. Авторларның фәнни юнәлеш сайлауга караган фикер алышуларында түбәндәге ике тема карала:
- татарча текстларны башка бер тугандаш телгә һәм, киресенчә, кайсыдыр кардәш телдәге текстларны татарчага машина ярдәмендә тәрҗемә итү системасын булдыру,
- аерым темага караган татарча сөйләмне танучы (язәма формага күчерүче) автоматлаштырылган система төзү.
Әдәбият белән танышулар дәвамында бүгенге автоматик машина тәрҗемәсе һәм сөйләм тану системаларының эше милли тел корпусларын – “гипотеза – ачыклау” алымын файдалануга корылганлыгы мәгълүм булды. Бу хәл безне татар теленең милли корпусын төзүгә ныклап алынырга мәҗбүр итте.
Язма корпус, нигездә, web-ресуслар материалында төзелде. Татар теленең язма корпусына теркәлүче текстларга башлангыч автоматик эшкәртү ясалды – html тегыларыннан чистарту, чит телдә язылган җөмләләрдән азат итү, utf-8 гә күчерү, җәмлә чикләрен рәвештә тамгалау һ.б. эшләр үтәлде.
Бүгенге халәтендә татар теленең язма корпусы репрезентативлык һәм төрле стильләрне телгә бәрабәр күләмдә чагылдыру таләпләренә җавап бирә дияргә мөмкин. Татар теленең язма корпусында теркәлгән текстлар, нигездә, өч стильгә – публицистика (аларның күләме якынча 60%), сәнгатьле чәчмә әдәбият (35% чамасы) һәм гуманитар юнәлештәге фәнни стильгә (5% чамасы) карый.
Хәзерге вакытта материал җыю, электрон корпуска теркәү өчен аларны эшкәртү дәвам итә. Кайбер язучыларның, фән хезмәткәрләренең татар теле корпусы төзелүен белеп, үз китапларының электрон версиясен безгә тәкъдим итү мисаллары да бар. Бу материалларның күләме 5 – 6 миллион сүзгә җитү белән алар текстлар корпусына теркәлә. Бер уңайдан язма корпусның функциональ мөмкинлекләре дә баетыла.
Кем дә булса язган китапларының, мәкаләләренең, документларының электрон версиясен җибәрә алса (адрес күрсәтелгән) без аны рәхмәтләр әйтеп кабул итәр идек. Бу материаллар татар теле корпусын һичшиксез баетачак.
Әйтергә кирәк, Татар теленең язма корпусы – ул татар тел дөньясын бер тәртиптә тасвирлаучы гаять зур сүзлек-белешмә тәшкил итә.
Татар теле корпусының төп вазыйфасы – татар теле лексикасын фәнни планда өйрәнүгә булышлык күрсәтү. Моннан тыш электрон корпус телгә өйрәтүдә, шулай ук сүзлек-белешмәлек буларак төрле документлар язуда зур ярдәм күрсәтергә мөмкин.
Язма корпусның программалар системасы шәхескә түбәндәге мөмкинлекләр ача:
- кирәкле сүзләрне эзләп табу һәм аның телдә файдаланылу ешлыгы белән танышу,
- аерым сүздән соң һәм алда килергә мөмкин булган (ул сүзнең сул һәм уң контекстлары) сүзләр белән танышу, аларның сүзтезмәләр буларак очрау мөмкинлекләрен ачыклау,
- телне өйрәнүче күзлегеннән мөһим үзенчәлеккә ия булган сүзне табу,
- корпуста эзләнүче сүз яки сүзформаның телдә файдаланылуын раслаучы мисаллар табу, җөмләгә кергән сүзләрнең мәгънәсен ачыклау.
Санап үтелгән чаралар фән хезмәткәрен түбәндәге мәсьәләләрне чишү мөмкинлекләре белән тәэмин итә:
- татар теленең төрле типтагы ешлыклар сүзлеген төзү,
- телнең ихтимал-статистик моделен төзүгә караган фәнни эзләнүләр башкару,
- лексик һәм синтаксик берәмлекләрнең сүзтезмәләр төзү мөмкинлекләрен һәм чикләрен ачыклау,
- телнең морфологик системасын өйрәнү өчен мөһим булган кире алфавиттагы ешлыклар сүзлеген төзү.
Электрон корпусның кулланылу мөмкинлекләре әйтелгәннәргә караганда байтак киң һәм күптөрле. Мәгълүм ки, “автоматик сөйләм тану”, “машина тәрҗемәсе” системалары бүгенге көндә корпуслы лингвистика кысаларында төзеләләр.
Исегезгә төшерәбез, текстлар язма корпуста җөмләләр буларак сакланалар, ягъни текстларны бер бөтен басма документ формасында файдалану мөмкин түгел (авторлык хокукларына зыян килмәячәк). Сезнең тексттан алынып татар теленең язма корпусына кертелгән һәр җөмлә аның кайсы әсәрдән алынуын һәм ул әсәрнең авторын күрсәткән сылтама белән тәэмин ителәчәк.
Интернет челтәренә htth//corpus.tatar/ адресы белән урнаштырылган, Татар теленең язма корпусында файдаланылган барлык интеллектуаль эш нәтиҗәләре (1274 ГК РФ статьясына тугрылыкта) коммерциягә кагылышы булмаган, бары тик фәнни-тикшерү һәм уку-укыту максаты белән куллануны күздә тота.
Аларны шулай ук уку да (карап чыгу да), күчереп алу да, башка формаларда файдалану да рөхсәт ителми. Аларны бары тик кайсыдыр тел күренешен мисаллар белән җөпләүдә, эзләү режимында мисаллар (цитаталар) чыганагы буларак файдаланырга мөмкин.
Татар теленең язма корпусы ярдәмендә табылган цитаталар китерелгәндә "Татар теленең язма корпусы"на һәм мисал чыганагына сылтау ясау зарур.
Татар теле корпусыннан файдалану түләүсез.