ТАТАР ТЕЛЕНЕҢ ЯЗМА КОРПУСЫ
Проект турында

Язма корпус татар телендә иҗат ителгән электрон текстлар җыелмасын тәшкил итә.

Татар теленең язма корпусын төзүгә караган эшләрнең башлануы 2010 елга карый. Авторларның фәнни юнәлеш сайлауга караган фикер алышуларында түбәндәге ике тема карала:

Әдәбият белән танышулар дәвамында бүгенге автоматик машина тәрҗемәсе һәм сөйләм тану системаларының эше милли тел корпусларын – “гипотеза – ачыклау” алымын файдалануга корылганлыгы мәгълүм булды. Бу хәл безне татар теленең милли корпусын төзүгә ныклап алынырга мәҗбүр итте.

Язма корпус, нигездә, web-ресуслар материалында төзелде. Татар теленең язма корпусына теркәлүче текстларга башлангыч автоматик эшкәртү ясалды – html тегыларыннан чистарту, чит телдә язылган җөмләләрдән азат итү, utf-8 гә күчерү, җәмлә чикләрен рәвештә тамгалау һ.б. эшләр үтәлде.

Бүгенге халәтендә татар теленең язма корпусы репрезентативлык һәм төрле стильләрне телгә бәрабәр күләмдә чагылдыру таләпләренә җавап бирә дияргә мөмкин. Татар теленең язма корпусында теркәлгән текстлар, нигездә, өч стильгә – публицистика (аларның күләме якынча 60%), сәнгатьле чәчмә әдәбият (35% чамасы) һәм гуманитар юнәлештәге фәнни стильгә (5% чамасы) карый.

Хәзерге вакытта материал җыю, электрон корпуска теркәү өчен аларны эшкәртү дәвам итә. Кайбер язучыларның, фән хезмәткәрләренең татар теле корпусы төзелүен белеп, үз китапларының электрон версиясен безгә тәкъдим итү мисаллары да бар. Бу материалларның күләме 5 – 6 миллион сүзгә җитү белән алар текстлар корпусына теркәлә. Бер уңайдан язма корпусның функциональ мөмкинлекләре дә баетыла.

Кем дә булса язган китапларының, мәкаләләренең, документларының электрон версиясен җибәрә алса (адрес күрсәтелгән) без аны рәхмәтләр әйтеп кабул итәр идек. Бу материаллар татар теле корпусын һичшиксез баетачак.

Әйтергә кирәк, Татар теленең язма корпусы – ул татар тел дөньясын бер тәртиптә тасвирлаучы гаять зур сүзлек-белешмә тәшкил итә.

Татар теле корпусының төп вазыйфасы – татар теле лексикасын фәнни планда өйрәнүгә булышлык күрсәтү. Моннан тыш электрон корпус телгә өйрәтүдә, шулай ук сүзлек-белешмәлек буларак төрле документлар язуда зур ярдәм күрсәтергә мөмкин.

Язма корпусның программалар системасы шәхескә түбәндәге мөмкинлекләр ача:

Санап үтелгән чаралар фән хезмәткәрен түбәндәге мәсьәләләрне чишү мөмкинлекләре белән тәэмин итә:

Электрон корпусның кулланылу мөмкинлекләре әйтелгәннәргә караганда байтак киң һәм күптөрле. Мәгълүм ки, “автоматик сөйләм тану”, “машина тәрҗемәсе” системалары бүгенге көндә корпуслы лингвистика кысаларында төзеләләр.

Исегезгә төшерәбез, текстлар язма корпуста җөмләләр буларак сакланалар, ягъни текстларны бер бөтен басма документ формасында файдалану мөмкин түгел (авторлык хокукларына зыян килмәячәк). Сезнең тексттан алынып татар теленең язма корпусына кертелгән һәр җөмлә аның кайсы әсәрдән алынуын һәм ул әсәрнең авторын күрсәткән сылтама белән тәэмин ителәчәк.

Интернет челтәренә htth//corpus.tatar/ адресы белән урнаштырылган, Татар теленең язма корпусында файдаланылган барлык интеллектуаль эш нәтиҗәләре (1274 ГК РФ статьясына тугрылыкта) коммерциягә кагылышы булмаган, бары тик фәнни-тикшерү һәм уку-укыту максаты белән куллануны күздә тота.

Аларны шулай ук уку да (карап чыгу да), күчереп алу да, башка формаларда файдалану да рөхсәт ителми. Аларны бары тик кайсыдыр тел күренешен мисаллар белән җөпләүдә, эзләү режимында мисаллар (цитаталар) чыганагы буларак файдаланырга мөмкин.

Татар теленең язма корпусы ярдәмендә табылган цитаталар китерелгәндә "Татар теленең язма корпусы"на һәм мисал чыганагына сылтау ясау зарур.

Татар теле корпусыннан файдалану түләүсез.

Проектта катнашучылар исемлегенә күчү.