Ссылки для упрощенного доступа

Языковой активизм заставил нейронную сеть овладеть башкирским языком


Борис Орехов
Борис Орехов

Лингвист и программист Борис Орехов создал нейронную сеть, которая пишет стихи на башкирском языке. Поэтические опыты, созданные искусственным интеллектом, были напечатаны в номере журнала "Ватандаш".

Интерес к башкирскому со стороны ученого не случаен. Борис родился в Уфе, закончил филологический факультет Башкирского государственного университета, работал несколько лет преподавателем в вузе, потом переехал в Москву в 2012 году и начал работать в Высшей школе экономики. В 2007 году он решил изучить основы программирования и вскоре создал нейронную сеть, которая может писать стихи на русском языке. Сборник этих стихов под названием "Нейролирика" вышел в свет осенью прошлого года. В интервью корреспонденту "Idel.Реалии" программист-филолог рассказал, как обучал компьютер писать стихи на башкирском языке.

— Расскажите, с чего все началось?

— 8 лет назад мы вместе с доцентом Башкирского государственного университета Азаматом Галлямовым оцифровали книги 100 башкирских поэтов. И потом обучали нейронную сеть как ребенка башкирскому поэтическому языку. Процесс не быстрый, нужно потратить много времени, за этим стоят сложные вычислительные процессы. Первые стихи были написаны 3 года назад, а публикация об этом событии в журнале "Ватандаш" появилась совсем недавно. Это не новость, что нейросеть пишет стихи на башкирском языке. Новость в том, что продукты этой нейросети вошли в некоторое особенное культурное пространство, консервативное по своей сути.

—​ Почему так долго не писали об этом? Целых три года прошло с момента создания нейронной сети, которая способна писать стихи на башкирском?

— Нельзя так просто взять и напечатать стихи, написанные нейронной сетью. К этим текстам нужно пояснение, предисловие. Я написал на русском, и нужно было его перевести на башкирский язык. Мне не сразу удалось найти переводчика, многие отказывались по непонятным причинам, и, наконец, согласился преподаватель БашГу Искандер Саитбатталов.

Так выглядят стихи, написанные нейронной сетью на башкирском
Так выглядят стихи, написанные нейронной сетью на башкирском

—​ Планируете ли вы выпустить книгу со стихами на башкирском языке?

— Был об этом разговор, но это не должен делать я от начала до конца. Есть активисты. Языковой активизм — очень уважаемая мною область приложения человеческих усилий. Активисты как-то об этом задумывались, но доведут это до конца или нет, не знаю.

—​ А достаточно компьютер насочинял стихов для книги?

— Как это происходит с компьютером? Он не ждет вдохновения. Ты нажал на кнопочку — и он породил тебе стихотворение. Если хочешь, чтобы он тебе породил 15 стихотворений, то нажал на одну кнопочку, если хочешь два тома собрания сочинений, то нажал на другую кнопочку.

—​ Какое значение это имеет для статуса башкирского языка?

Я говорю в целом про стихи, написанные нейронной сетью. Они, конечно, совершенно инопланетянские

— На мой взгляд — это важное социальное действие. Те языки, с которыми делаются вот такие цифровые эксперименты, они показывают свой престиж, современность, они достойны того, чтобы выживать в современную цифровую эпоху. На мой взгляд, башкирский язык именно такой. И вот этот факт почему-то не был упомянут в СМИ. Сначала были компьютерные поэтические опыты на русском языке. Потом — стихи на башкирском языке, созданные нейросетью — и это первый подобный проект среди языков народов России. Это, конечно, не великий вклад в историю башкирской литературы. Это скорее — поддержка престижа и социального капитала башкирского языка. Именно языка, а не поэзии.

Как башкирские лингвисты оценивают художественные достоинства этих стихотворений?

— Что касается художественных достоинств, они, конечно, сомнительные. Я сейчас не говорю конкретно про стихи, напечатанные в журнале "Ватандаш". Я говорю в целом про стихи, написанные нейронной сетью. Они, конечно, совершенно инопланетянские. То есть все написано как-то очень непривычно, но интересно. У нас есть какие-то привычные нам образы, ходы, сравнения, рифмы. Нейронная сеть их немножко модифицирует и делает из них такой текст, который мы совсем не ожидали. Это нечто среднеарифметическое — это маленькая модель всей башкирской поэзии.

Борис, вы планируете проделывать подобные опыты еще с какими-то языками?

В последнее время очень активно развивается башкирская википедия. Ее пишут очень заинтересованные люди, переводят с русского, просто пишут статьи

— Не планирую, а уже сделал. Я обучил нейросеть писать стихи на хорватском языке. А что касается языков других народов России, то это очень сложно. Для того, чтобы это получилось, нужно много оцифрованных поэтических текстов. Это проблема. Русская поэзия, понятно, хорошо оцифрована. Башкирскую оцифровали мы сами. Разве что татары, возможно, над этим тоже работают. И потом, современное общество не очень интересуется поэзией. Я провел эксперимент: показал студентам БашГу стихи, написанные нейронной сетью и реальным поэтом. Интуитивно они смогли отличить одни от других, но объяснить не смогли.

Есть ли в открытом доступе результаты вашей работы?

— Есть башкирский поэтический корпус — оцифрованная коллекция поэзии. С другими языками я не думаю, что дело обстоит также хорошо. Нужны языковые активисты, которые могли бы заняться оцифровкой литературного наследия своего народа.

Как вы думаете, представители власти должны как-то принимать в этом участие, поддерживать такие начинания?

— На практике это работает так. Лучше всего ситуация там, где силен языковой активизм, а не какая-то поддержка со стороны администрации. Когда есть активисты, которые заинтересованы в продвижение собственной культуры, вот тогда ситуация лучше всего, даже если народ малочисленный. У меня был еще проект — Языки народов России в интернете. Это был учебный эксперимент, который я делал вместе со своими студентами. Я разработал методику, как искать тексты на языках народов России в интернете. Мы автоматически нашли их, оценили количество. И я запомнил историю про горный марийский и луговой марийский языки. Один сравнительно маленький, другой побольше по количеству носителей. В одном случае — это 1000 человек, в другом десятки тысяч. Так вот википедия больше на том языке, на котором говорит малочисленный народ. Это определенно следствие языкового активизма. Кстати, по поводу башкирского языка, в последнее время очень активно развивается башкирская википедия. Ее пишут очень заинтересованные люди, переводят с русского, просто пишут статьи. Занимается этим уже много лет Рустем Нуреев. Так вот, он пригласил пенсионерок — их называют "башкирские бабушки". Они пишут тексты в википедию, и у них периодически бывают конференции, собрания. Они приезжали и в Москву в своих национальных костюмах, рассказывали о своих статьях, о чем им интересно писать.

Бойтесь равнодушия — оно убивает.​ Подписывайтесь на наш канал в Telegram.

XS
SM
MD
LG