ПИСЬМЕННЫЙ КОРПУС ТАТАРСКОГО ЯЗЫКА
О проекте

Письменный корпус татарского языка представляет собрание электронных текстов на татарском языке.

Начало работ по созданию Письменного корпуса татарского языка относится к 2010 году. Авторами рассматривались два направления исследований:

При знакомстве с литературой выяснилось, что современные системы МП и автоматического распознавания речи работают при поддержке национального корпуса языка – с применением метода «гипотеза – проверка». Данное обстоятельство заставило нас вплотную заняться построением национального корпуса татарского языка.

Письменный корпус татарского языка создавался, в основном, на базе материалов web-ресурсов. До внесения в корпус татарского языка тексты подвергались предварительной автоматической обработке, которая включала очистку html-тегов, удаление предложений на иностранных языках, конвертация в utf-8, разметку границ предложений и т.д.

В настоящее время данный письменный корпус татарского языка удовлетворяет требованиям репрезентативности и сбалансированности. Вошедшие в письменный корпус тексты в большинстве своем относятся к трем стилям – публицистике (≈ 60%), художественной литературе (≈ 35%) и научной литературе гуманитарного профиля (≈ 5%).

В настоящее время сбор материала, обработка его для включения в корпус татарского языка продолжается. Есть примеры, когда отдельные писатели и научные работники, узнав о существовании корпуса, предоставляют нам электронные версии своих книг. По достижении объема в 5 – 6 млн. словоформ эти материалы включаются в текстовый корпус. Одновременно обогащаются и функциональные возможности корпуса.

Мы будем признательны всем, кто сочтет возможным направить нам электронные версии своих книг, статей, документов. Эти материалы несомненно обогатят корпус.

Отметим, что Письменный корпус татарского языка – это огромный словарь-справочник, дающий упорядоченное представление о мире татарского языка.

Основное назначение электронного корпуса татарского языка – содействие проведению научных исследований по лексике татарского языка. Кроме того, письменный корпус может использоваться при обучении языку, а также в качестве справочника при составлении различного рода документов.

Программные ресурсы текстового корпуса татарского языка позволяют проводить следующие операции:

Указанные операции позволяют решать задачи, такие как:

Область применения электронного корпуса татарского языка значительно шире и более многообразна по сравнению с приведенным перечнем. Так, задачи вида «автоматическое распознавание речи» и «машинный перевод» сегодня решаются в рамках корпусной лингвистики.

Отметим, что тексты в корпусе татарского языка хранятся в виде отдельных предложений, т.е. использование текстов в качестве самостоятельной печатной продукции посторонними невозможно (авторские права не будут нарушены). Каждое внесенное в письменный корпус предложение из Вашего материала будет снабжено ссылкой на произведение и его автора.

Все результаты интеллектуальной деятельности, используемые в Письменном корпусе татарского языка и размещаемые в сети Интернет по адресу http://corpus.tatar/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ).

Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.

При цитировании примеров, полученных с помощью Письменного корпуса татарского языка, необходимо ссылаться на Письменный корпус татарского языка и источники примеров.

Пользование корпусом татарского языка бесплатное.

Перейти к списку участников проекта.