Русско-китайский параллельный корпус НКРЯ

Национальный корпус русского языка (НКРЯ) — одно из самых больших и качественных семейств корпусов для русского языка. В корпусе существует большое количество т.н. подкорпусов — небольших баз данных, посвященных конкретной области исследования языка (синтаксису, ударению и т.д.). Один из таких подкорпусов — параллельный; он, в свою очередь, сам делится на двадцать русско-иноязычных корпусов.

О том, что такое параллельные корпуса, вы можете узнать здесь.

Немного истории

Наш корпус появился именно внутри НКРЯ в 2016 году. В 2019 году он стал доступен на двух страницах — есть его “старая” версия на сайте НКРЯ, и “новая” — на сайте корпусов НИУ ВШЭ.

В 2020 году мы получили поддержку от ВШЭ на развитие нашего проекта.

Мы не отрываемся от наших корней и по-прежнему ассоциируем себя с НКРЯ; однако по ряду причин нам намного легче обновлять версию Корпуса на сайте ВШЭ. Поэтому в первую очередь мы будем рассказывать о новостях, алгоритмах, составе и команде той версии Корпуса, которая расположена на сайте корпусов ВШЭ.

Сегодняшнее состояние Корпуса

Объем Корпуса - больше 2,3 миллионов слов. Он состоит из 30 художественных текстов русских и китайских авторов XIX-XXI вв., среди которых Лю Чжэньюнь, Ф.М. Достоевский, Л.Е. Улицкая, Лу Синь и другие.

Сегодня у Корпуса есть русский и английский интерфейс; мы работаем над созданием китайской версии сайта.

О том, что именно можно делать в нашем корпусе, вы можете прочитать в инструкции на странице поиска: нажмите на оранжевый значок вопроса вверху страницы.

Чем мы примечательны?

Сейчас наш проект — единственный разрабатываемый в России параллельный корпус, обладающий сразу четырьмя полезными свойствами:

  1. он представляет пару языков - русский и путунхуа;
  2. он доступен в Интернете;
  3. он обладает удобной для юзера системой поиска;
  4. он размечен грамматически.

Мы знаем лишь об одном аналоге нашего проекта, разрабатываемом сейчас в Пекине.

Наша команда

В нашем проекте задействованы студенты, преподаватели и научные сотрудники следующих институтов:

Над корпусом работают десятки человек. Но у нас еще огромное количество нерешенных задач, на которые не хватает активных и смелых участников. Поэтому если вас заинтересовал наш проект — обязательно посмотрите наши вакансии!

Контакты

Вы можете связаться с нами по любым вопросам следующими способами: