Как устроен бот-художник МТС

Объясняет Дмитрий Сошников, доцент МАИ и НИУ ВШЭ, автор канала облачный адвокат и создатель телеграм-галереи Experient.Art.

В последние годы искусственный интеллект становится всё более интеллектуальным, и может претендовать на работу в таких творческих профессиях, как живопись и литература. Но значит ли это, что он заменит собой художника?

На самом деле, в основе современного искусственного интеллекта лежат нейронные сети - упрощённые компьютерные модели мозга человека. Такие модели принимают на вход огромные массивы данных, и в процессе обучения подстраивают свои внутренние параметры, чтобы научиться выполнять ту или иную задачу. Подробнее об этом читайте в статье.

Настоящий нейронИскусственный нейрон
Model of a NeuronModel of a Neuron

В результате, показав нейросети множество изображений с подписями, мы можем научить её рисовать картины по нашему описанию. Такие модели называются диффузионными, поскольку их основной принцип - научиться предсказывать процесс диффузии, или распада изображения. Начиная с исходной картинки, мы на каждом шаге подвергаем её диффузии (зашумлению), и учим нейросеть восстанавливать качественное изображение из зашумлённого.

В результате такая нейросеть может увидеть в белом шуме знакомые ей образы, и нарисовать какое-то новое изображение. Можете прочитать подробнее про нейросетей-художников и их влияние на будущее искусства, а также про совместное творчество нейросети и человека.

Чат-бот МТС, который рисует картину в стиле известных художников по вашему предварительному наброску, использует внутри себя такую диффузионную нейросеть, знающую стили разных художников, а также продвинутую технологию ControlNet, позволяющую ей создавать изображения, похожие на нарисованные вами наброски. В результате нейросеть при рисовании учитывает, с одной стороны, отправленное вами боту изображение, а с другой - текстовый запрос, который указывает ей на необходимый стиль рисования. В результате за один проход генерируется в среднем 2-3 изображения.

Чтобы ускорить процесс рисования, для запуска нейросети используется виртуальная машина с графическим ускорителем NVidia, работающая в облаке МТС. На мощном графическом ускорителе процесс рисования занимает около 30 секунд на 2-3 варианта изображения по одному исходному наброску. Облако также позволяет, в случае необходимости, увеличивать доступные боту вычислительные ресурсы, чтобы уменьшить время ожидания в часы пиковой нагрузки.

Если вас интересует тема нейросетей и искусства - приглашаю вас в свой телеграм-канал Облачный адвокат.