Письменный корпус татарского языка представляет собрание электронных текстов на татарском языке.
Начало работ по созданию Письменного корпуса татарского языка относится к 2010 году. Авторами рассматривались два направления исследований:
- разработка системы машинного перевода (МП) текстов с татарского на один из родственных языков и обратно - с данного родственного языка на татарский язык,
- создание системы автоматического распознавания татарской речи определенной тематики.
При знакомстве с литературой выяснилось, что современные системы МП и автоматического распознавания речи работают при поддержке национального корпуса языка – с применением метода «гипотеза – проверка». Данное обстоятельство заставило нас вплотную заняться построением национального корпуса татарского языка.
Письменный корпус татарского языка создавался, в основном, на базе материалов web-ресурсов. До внесения в корпус татарского языка тексты подвергались предварительной автоматической обработке, которая включала очистку html-тегов, удаление предложений на иностранных языках, конвертация в utf-8, разметку границ предложений и т.д.
В настоящее время данный письменный корпус татарского языка удовлетворяет требованиям репрезентативности и сбалансированности. Вошедшие в письменный корпус тексты в большинстве своем относятся к трем стилям – публицистике (≈ 60%), художественной литературе (≈ 35%) и научной литературе гуманитарного профиля (≈ 5%).
В настоящее время сбор материала, обработка его для включения в корпус татарского языка продолжается. Есть примеры, когда отдельные писатели и научные работники, узнав о существовании корпуса, предоставляют нам электронные версии своих книг. По достижении объема в 5 – 6 млн. словоформ эти материалы включаются в текстовый корпус. Одновременно обогащаются и функциональные возможности корпуса.
Мы будем признательны всем, кто сочтет возможным направить нам электронные версии своих книг, статей, документов. Эти материалы несомненно обогатят корпус.
Отметим, что Письменный корпус татарского языка – это огромный словарь-справочник, дающий упорядоченное представление о мире татарского языка.
Основное назначение электронного корпуса татарского языка – содействие проведению научных исследований по лексике татарского языка. Кроме того, письменный корпус может использоваться при обучении языку, а также в качестве справочника при составлении различного рода документов.
Программные ресурсы текстового корпуса татарского языка позволяют проводить следующие операции:
- организовать поиск нужных слов, выявить частоту их употребления,
- определить, какие слова могут следовать впереди и за заданным словом (определить левый и правый контексты заданного слова), частотность встречи слов,
- находить слова с нужным для изучающего язык свойством,
- находить примеры, подтверждающие употребление данного слова или данной формы в языке.
Указанные операции позволяют решать задачи, такие как:
- построение частотного словаря слов татарского языка,
- проведение исследований по вероятностно-статистческому моделированию татарского текста,
- изучение сочетаемостных возможностей и ограничений лексических и синтаксических единиц языка,
- построение обратного частотного словаря, который необходим при исследовании морфологической системы языка.
Область применения электронного корпуса татарского языка значительно шире и более многообразна по сравнению с приведенным перечнем. Так, задачи вида «автоматическое распознавание речи» и «машинный перевод» сегодня решаются в рамках корпусной лингвистики.
Отметим, что тексты в корпусе татарского языка хранятся в виде отдельных предложений, т.е. использование текстов в качестве самостоятельной печатной продукции посторонними невозможно (авторские права не будут нарушены). Каждое внесенное в письменный корпус предложение из Вашего материала будет снабжено ссылкой на произведение и его автора.
Все результаты интеллектуальной деятельности, используемые в Письменном корпусе татарского языка и размещаемые в сети Интернет по адресу http://corpus.tatar/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ).
Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление.
При цитировании примеров, полученных с помощью Письменного корпуса татарского языка, необходимо ссылаться на Письменный корпус татарского языка и источники примеров.
Пользование корпусом татарского языка бесплатное.
Перейти к списку участников проекта.