Dmitry Soshnikov AKA shwars

Сантафицируйся!

2023-12-20T00:00:00+00:00

TL;DR: Добавляйте себе телеграм-бота http://t.me/santify_me_bot, посылайте ему свою портретную фотографию - и он сделает из вас Деда Мороза или Санта-Клауса (ну а для девушек… попробуйте угадать, кого)! А в чем глубокий смысл этой процедуры - расскажу в этом посте.

Санты среди нас

Есть такая теория, что Дед Мороз (или Санта Клаус) существует! Возможно, Ваши дети разделяют эту теорию и верят в волшебство. А что же происходит на самом деле?

В своё время Лесли Раш из Техаса, учительница истории, нашла очень хорошее объяснение (англ), которое передавалось в их семье из поколения в поколение. Если коротко, вот оно:

Мы с вами видим много Дедов Морозов каждый Новый год, и все они выглядят как обычные люди, наряженные в костюмы. Значит ли это что, Дедов Морозов не существует?

Нет, это просто значит, что ими становятся обычные люди! Когда ребенок вырастает, он уже не так нуждается во внешней поддержке и волшебстве, и может сам начать создавать это волшебство для других людей. Когда ребенок вырастает, он может сам стать Сантой, и начать безвозмездно (а часто и тайно) дарить рождественское тепло окружающим. И мир станет лучше!

Сантафикация или Одедмороживание?

Именно такой процесс символизирует бот-сантафикатор. Посылая ему свою портретную фотографию вы как бы визуализируете себя в роли Деда Мороза. Попробуйте несколько раз, выберите понравившуюся фото и сохраните себе в телефон. Потом, каждый раз, глядя на эту фотографию, вы будете вспоминать о том, что в вас есть немножко Санты - пусть это подталкивает вас делать мир вокруг себя лучше и наполнять его еще большим количеством волшебства!

Сантафицируйтесь сами и сантафицируйте своих друзей, поделившись с ними ссылкой на бота.

С наступающим!

yogpt: Using ChatGPT and Other LLMs from the Command Line

2023-11-18T00:00:00+00:00

There are already some projects that give command-line interface for ChatGPT, for example, heygpt. However, it only gives you access to OpenAI ChatGPT model, while I wanted to have access to other models, such as Yandex GPT and GigaChat. Moreover, heygpt is implemented in Rust, which makes it pain to install for those of us who live in Python ecosystem.

Welcome yogpt

This forced me to create my own command-line GPT tool called yogpt over the weekend. Here are the main principles that I followed:

The tool should be pip-installable. Most people nowadays would have Python command-line on their computer, and running pip install yogpt would make the tool immediately available.
It should support any chat model supported by LangChain - making a plethora of models readily available, including original ChatGPT, GigaChat, YandexGPT, etc.

There are a few ways yogpt can be used:

By asking the question to GPT directly on the command line, for example:
```
$ yogpt What is the 10th digit of Pi?
```
By piping stdin into yogpt. If yogpt understands that it is invoked in the pipe, it will automatically take pipe as input. You can also explicitly specify - in the command-line, for example:
```
$ echo What is the 10th digit of Pi | yogpt -
```
Calling yogpt without input initiates console chat, and you can talk to the model interactively.
Sometimes it makes sense to further chat with yogpt after providing it with some input. For example, you can ask it to read Python program, and then answer your questions about it. In this case you may specify -c/--chat flag. In this case it will consume input as first utterance to the bot, and then initiate a follow-up chat, in which you can ask for more details. For example, you can ask GPT to analyze a Python program (this one):

$ yogpt -s "You are a software expert. Please read python program
  provided and be ready to answer questions on this program."
  -c @game.py

This program is a simple implementation of the game Space Invaders
using the Pygame library in Python. It includes a player-controlled 
spaceship that can move left and right, shoot bullets, and destroy 
enemy spaceships. The player earns points for each enemy spaceship 
destroyed.

 U> How is collision detection implemented?
AI> Collision detection in this program is implemented using the 
    `groupcollide` function provided by the Pygame library. The 
    `groupcollide` function is used to detect collisions between 
    two sprite groups and manage the sprites that collide.
 U> ^C

The example above also shows that you can use @filename syntax to get input from a file. Also, we have specified system prompt here via -s parameter, instructing the model what it should do.

System Prompt and Prompt Templates

In many cases, we want to instruct the model to do something to the data that we provide to it as part of the prompt. For example, if we want to use GPT to translate a program from one programming language to another, we need to provide those instructions. This can be done in two ways:

By specifying system prompt via -s/--system parameter:

$ echo print([2**i for i in range(10)]) | 
  yogpt -s "Translate the program that you are given as input to C++"

Here is the result you are likely to get:

#include <iostream>
#include <vector>
#include <cmath>

int main() {
    std::vector<int> result;
    for (int i = 0; i < 10; i++) {
        result.push_back(pow(2, i));
    }
    for (int i = 0; i < result.size(); i++) {
        std::cout << result[i] << " ";
    }
    return 0;
}

By using prompt template via -p/--template parameter:

$ echo print([2**i for i in range(10)]) | 
  yogpt -p "Translate the program that you are given below in 
  double square brackets to {param_1}:\n[[{}]]. Provide only 
  program text as output." -1 Javascript

This gives the following result:

console.log(Array.from({length: 10}, (_, i) => 2 ** i));

You can see that prompt template provides more flexibility, because you can use different prompt engineering techniques such as delimiting the input explicitly, and fine-tuning the prompt (in our case I have added Provide only program text as output to avoid getting some additional explanation on what the program does).

Also, I have used additional parameter here, which specifies destination programming language. By using constructions from {param_1} to {param_3} in the template, I can then specify those parameters by -1 to -3 command options. This is especially useful if I am getting a template from a file or config, and cannot easily adjust it on the command line.

For both system prompt and prompt template, we can specify @filename in order to read prompt from file. However, even better way is to put prompt templates that you often use into config file, as described below.

Installation and Configuration

Now that you have seen a few examples of using yogpt, you are probably wondering how to start using it.

As I mentioned, installing the model on your local computer, provided that you have Python 3.10+ tooling available, can be done using:

$ pip install yogpt

It is important to have a version of Python>=3.10, because that is what LangChain requires.

If you just do pip-install without any configuration, the tool would try to use GPT4Free project to find some way to access ChatGPT model online. However, I do not recommend doing so in the long run - please spend some time configuring your own list of models and your own credentials.

Configuration is done by creating a .yogpt.config.json file in your home directory (which is typically c:\users\<username> on Windows, or /home/<username> on Linux). This is a JSON file that allows you to specify models you want to use, including your personal API keys. For example, here is the file that specifies Yandex GPT and GigaChat models:

{
 "models" : [
   {
     "name" : "yagpt",
     "classname" : "langchain.chat_models.ChatYandexGPT",
     "default" : true,
     "params" : { "api_key" : "..." }
   },
   {
     "name" : "gc",
     "classname" : "langchain.chat_models.GigaChat",
     "params" : { "credentials" : "... ", 
                         "verify_ssl_certs" : false }
   }
]}

You can check out sample .yogpt.config.json file in the project repository here and use it as a starting point.

As you can see, for each model we supply class name of the model class (which can be part LangChain, but you can also specify other compatible models), as well as parameters that we pass to the class constructor. We can also mark any model in the config file as default.

Having defined your models in config, you can specify the model when calling yogpt like this:

$ yogpt -m yagpt Привет, расскажи анекдот про число пи!
Почему число Пи такое большое? Потому что оно округляет!

(The text here is in Russian, because Yandex GPT model works best with this language)

Also, in the same config file you can define prompt templates and system prompts that you often use. Suppose you often want to use yogpt to translate text into different languages, in this case you can define the following template in templates section:

{
  "name" : "translate",
  "template" : "Please, translate the text in double square brackets
    below into the {param_1} language. Here is the text:\n[[{}]]"
}

In which case translation would be done using the command:

$ echo How do you do? | yogpt -p translate -1 german -t 0.01
Wie geht es Ihnen?

Here I have specified the --temperature or -t parameter, in order to get less hallucinations in the output (i.e. more accurate translation). If I want the model to be more creative, I would probably specify higher value (from 0 to 1):

$ yogpt -t 0.6 Invent 5 funny names for a cat of Python developer.
Bytey Whiskers
Code Paws
Monty Purthon
Snaketail Scriptmeow
PyFluff Constrictor

Summarizing blog posts

In the text about, you have seen a few examples of using yogpt in tasks from understanding computer programs to translation. There are many possible example of command-line usage for GPT, from translating LaTeX formula to Python, to re-writing blog posts in a different tone of voice. For example, this blog post contains a lot of nice examples of using GPT in mathematician’s everyday life, and most of them are from command line.

Let’s stick to the latter example of processing blog posts. For some not-so-long blog posts (which are short enough to fit into context window of current language models), I try to use yogpt for translation. I have the following prompt blogtran defined in my config file: I want to translate my blog post written in Jekyll markdown format into Russian. Please leave the configuration section intact, and translate the rest of the text, leaving markdown syntax. The blog post is provided below: {}, which allows me to use:

$ yogpt -p blogtran @blog.md > blog_en.md

It is known that GPTs provide better translation than specialized translation systems, but they have shorter context, and sometimes can hallucinate.

Much better use case for GPTs are text summarization, which allows us to extract most important information from the blog post. The prompt I may use for summarization is the following: Please, read the post below in Jekyll Markdown and write its short summary. Output results in JSON format with “title” and “summary” fields. Here is the post:{}. I will put it into summarize.txt, and then loop over blog posts to extract their summary:

for %c in (*.md) do; 
 yogpt -m yagpt -p @summarize.txt @%c >> result.json

This will create result.json file, which will not exactly be well-formed JSON, but will look similar:

{
  "title": "Neurogenerative Models and the Future of Art",
  "summary": "The post discusses the latest developments in neurogenerative models, focusing on Stable Diffusion. It explores the capabilities of text-to-image models, showcasing examples and speculating on their impact on the art world. The author highlights the release of Stable Diffusion's code and weights, emphasizing its significance for artists. The post also delves into prompt engineering, creative uses of neural generation, and the potential for AI to enhance the artistic process. It concludes with new ways to experience neural art, including neurogenerative streams, integration into art objects, and the concept of neurogenerative parties."
}
` ``json
{
  "title": "Never Trust a Neural Network!",
  "summary": "The post highlights the untrustworthiness of ChatGPT and other neural network models for providing accurate information. It illustrates this point by requesting absurd information from ChatGPT, such as reasons why eating cucumbers leads to sleeping disorders or why learning mathematics can be deadly. The post concludes with a mix of accurate and inaccurate historical information generated by ChatGPT, emphasizing the model's limitations and the need for skepticism."
}
`` `
{
  "title": "Creating Domain-Oriented Chatbots using LangChain and Yandex GPT",
  "summary": "The article discusses the creation of domain-specific chatbots using the Retrieval-Augmented Generation approach with LangChain and Yandex GPT. It covers steps such as converting video to text, breaking text into fragments, calculating embeddings, saving documents to a vector database, implementing retrieval-augmented generation, and context transformation. It emphasizes the use of LangChain for various tasks and demonstrates how to build a question-and-answer bot based on a video collection."
}

In some of the cases this malformed JSON includes markdown formatting elements, and it lacks grouping of all individual JSON objects into one list. However, it does not matter if all we want to do is further process this with GPT, because LLM can handle slight deviations from JSON format. For example, to render this into HTML table, we can just say:

$ yogpt -p "Please take a list of JSON objects with title and
  summary fields and represent them as HTML table"
  @result.json > result.html

And we will get HTML that can be used to display the summary:

Title	Summary
Neurogenerative Models and the Future of Art	The post discusses the latest developments in neurogenerative models, focusing on Stable Diffusion. It explores the capabilities of text-to-image models, showcasing examples and speculating on their impact on the art world. The author highlights the release of Stable Diffusion's code and weights, emphasizing its significance for artists. The post also delves into prompt engineering, creative uses of neural generation, and the potential for AI to enhance the artistic process. It concludes with new ways to experience neural art, including neurogenerative streams, integration into art objects, and the concept of neurogenerative parties.
Never Trust a Neural Network!	The post highlights the untrustworthiness of ChatGPT and other neural network models for providing accurate information. It illustrates this point by requesting absurd information from ChatGPT, such as reasons why eating cucumbers leads to sleeping disorders or why learning mathematics can be deadly. The post concludes with a mix of accurate and inaccurate historical information generated by ChatGPT, emphasizing the model's limitations and the need for skepticism.
Creating Domain-Oriented Chatbots using LangChain and Yandex GPT	The article discusses the creation of domain-specific chatbots using the Retrieval-Augmented Generation approach with LangChain and Yandex GPT. It covers steps such as converting video to text, breaking text into fragments, calculating embeddings, saving documents to a vector database, implementing retrieval-augmented generation, and context transformation. It emphasizes the use of LangChain for various tasks and demonstrates how to build a question-and-answer bot based on a video collection.

Of course, we can also ask GPT to represent this as markdown table, or as sequence of SQL statements to insert the data into the database.

Of course, instead of writing a blog summary, I can ask GPT to produce a selling text for it, which I can then put on the front page as a banner. I just need to adjust the prompt a little bit: Please, read the post below in Jekyll Markdown and write a short motivational text, telling people why should they read it. Output results in JSON format with “title” and “summary” fields. Output pure json, without any decorations. Here is the post:{}. After repeating all the steps above with the new prompt, the result will be:

Title	Summary
Unlocking Creativity: Exploring the World of Neurogenerative Art	Dive into the fascinating realm of neurogenerative art with 'Neurogenerative Models and the Future of Art.' This post unveils the latest text-to-image models, such as Stable Diffusion, that can produce stunning and diverse artworks based on text prompts. Discover how AI can mimic various artistic styles, generate celebrity portraits, and even imagine abstract concepts like love and loneliness. Explore the possibilities of using neural generation for inspiration, drawing artifacts, and education. Join the neurogenerative art movement by attending neurogenerative parties, integrating neural generation into art objects, or experiencing curated neurogenerative streams. Unleash your creativity and explore the new frontier where human ingenuity collaborates with AI innovation!
Why You Should Never Trust a Neural Network	Explore the pitfalls of relying on ChatGPT and other neural network models for accurate information. Uncover the humorous and sometimes absurd responses when asking the model about topics like cucumbers causing sleeping disorders or the dangers of learning mathematics. Discover the importance of critical thinking and not taking the model's responses at face value. The post navigates through various scenarios, shedding light on the limitations and occasional unpredictability of generative AI.
Unlock the Power of Chatbots with LangChain and Yandex GPT	Discover the transformative potential of Retrieval-Augmented Generation in chatbots! Learn how to leverage LangChain framework and Yandex GPT to create domain-specific question-answer models. Dive into the world of smart chatbots, where the synergy of large language models and domain knowledge enhances user interactions. Uncover the secrets of creating intelligent bots that can provide detailed responses to specific topics, making your conversational agents more knowledgeable and engaging. Explore the step-by-step guide and unleash the capabilities of cutting-edge technology in the realm of chatbot development.

Keep in mind that those HTML tables, including formatting, were created automatically from original blog posts using just two command lines in a matter of minutes!

Takeaway

I think the examples shown above demonstrate the true transformative power of GPT models, which you can now freely use from the command-line! In case you like yogpt, fell free to leave your start, comments and suggestions on the GitHub page. And if you have some ideas on how to improve the tool - the best way to do it would be through a pull request, because I do not have much time to spend on improving this tool myself, but would welcome any help!

yogpt: Используем ChatGPT и другие языковые модели из командной строки

2023-11-18T00:00:00+00:00

Уже есть несколько проектов, которые предоставляют интерфейс командной строки для ChatGPT, например, heygpt. Однако этот проект дает вам доступ только к модели OpenAI ChatGPT, в то время как мне хотелось иметь доступ к другим моделям, таким, как Yandex GPT и GigaChat. Более того, heygpt реализован в Rust, что затрудняет его установку для тех из нас, кто живет в экосистеме Python.

Добро пожаловать в yogpt!

В результате я решил потратить выходные и сделать свой собственный инструмент для работы с разными GPT из командной строки под названием yogpt. Вот основные принципы, которым я следовал при его разработке:

Инструмент должен быть доступен для установки с помощью pip. В наши дни у большинства сознательных людей на компьютере уже есть командная строка Python, и достаточно сказать pip install yogpt, чтобы начать пользоваться yogpt.
Он должен поддерживать любую разговорную модель, доступную в LangChain, что открывает нам немедленный доступ к множеству моделей, включая оригинальные ChatGPT, GigaChat, YandexGPT и т.д.

Есть несколько способов использования yogpt из командной строки:

Задаем вопрос GPT непосредственно в командной строке, например:
```
$ yogpt Какая 10-я цифра числа Пи?
```
Перенаправлением конвейера в yogpt. Если yogpt поймет, что он вызывается в конвейере (|), он автоматически примет запрос через стандартный ввод. Вы также можете явно указать - в командной строке, например:
```
$ echo Какова 10-я цифра числа Pi | yogpt -
```
Вызов yogpt без запроса инициирует консольный чат, и вы можете общаться с моделью в интерактивном режиме.
Продолжение диалогового общения с yogpt после предоставления ему некоторой информации. Например, вы можете попросить его прочитать программу на Python, а затем ответить на ваши вопросы по этой программе. В этом случае нужно указать флаг -c/--chat, и после обработки первоначального запроса будет инициирован последующий чат, в котором вы можете запросить более подробную информацию. Например, вы можете попросить GPT проанализировать программу на Python (например, эту):

$ yogpt -s "Вы эксперт по программному обеспечению. Пожалуйста, 
ознакомьтесь с представленной ниже программой на python и будьте
готовы ответить на вопросы по этой программе".
-c @game.py

Эта программа представляет собой простую реализацию игры Space Invaders
с использованием библиотеки Pygame на Python. Она включает в себя 
управляемый игроком космический корабль, который может перемещаться 
влево и вправо, стрелять пулями и уничтожать вражеские космические
корабли. Игрок зарабатывает очки за каждый уничтоженный вражеский
космический корабль.

 U> Как реализовано обнаружение столкновений?
AI> Обнаружение столкновений в этой программе реализовано с помощью
функции groupcollide, предоставляемой библиотекой Pygame. Функция
`groupcollide` используется для обнаружения столкновений между
двумя группами спрайтов и управления сталкивающимися спрайтами.
U> ^C

Приведенный выше пример также показывает, что вы можете использовать синтаксис @filename для получения входных данных из файла. Кроме того, мы указали здесь системное сообщение через параметр -s, инструктируя модель, что она должна делать.

Системные сообщения и шаблоны запросов

Во многих случаях мы хотим поручить модели что-то сделать с данными, которые мы подаём ей на вход. Например, если мы хотим использовать GPT для перевода программы с одного языка программирования на другой, нам нужно попросить GPT это сделать. Это можно сделать двумя способами:

Указав системное сообщение через параметр -s/--system:

$ echo print([2**i for i in range(10)]) |
yogpt -s "Переведи программу, приведённую ниже, на C++"

Вот результат, который вы, скорее всего, получите (в данном случае использовался Yandex GPT):

#include <iostream>

int main() {
    for (int i = 0; i < 10; ++i) {
        std::cout << std::pow(2, i) << " ";
    }
    return 0;
}

С помощью шаблона запроса через параметр -p/--template:

$ echo print([2**i for i in range(10)]) |
yogpt -p "Переведи программу, указанную ниже в
двойных квадратных скобках, на язык {param_1}:\n[[{}]]. 
Выведи только текст программы." -1 Javascript

Это дает следующий результат:

console.log(Array.from({length: 10}, (_, i) => 2 ** i));

Шаблоны обеспечивают большую гибкость, поскольку вы можете использовать различные тонкости промпт-инжинирига, такие как явное выделение входных данных (двойные квадратные скобки) и тонкая настройка промпта (в нашем случае я добавил Выведи только текст программы, чтобы избежать дополнительных объяснений в ответе).

Кроме того, я использовал дополнительный параметр для указания целевого языка программирования. Используя конструкции от {param_1} до {param_3} в шаблоне, я затем могу указать эти параметры с помощью в командной строке как -1 … -3. Это особенно полезно, если шаблон запроса берется из файла или конфигурации, как это описано ниже.

Как для системного сообщения, так и для шаблона запроса мы можем использовать конструкцию @filename, чтобы прочитать текст из файла. Однако еще более хороший способ - поместить часто используемые шаблоны и системные сообщения в конфигурационный файл, как описано ниже.

Установка и настройка

Теперь, когда вы увидели несколько примеров использования yogpt, вам, вероятно, хочется скорее начать его использовать.

Как я уже упоминал, установка yogpt на ваш локальный компьютер делается одной командой:

$ pip install yogpt

Конечно, это работает при условии, что у вас есть доступные инструменты Python 3.10+. Важно иметь версию Python>=3.10, потому что это та минимальная версия, которую требует LangChain.

Если вы просто выполните pip-установку без какой-либо настройки, инструмент будет использовать GPT4Free, который попытается получить доступ к какой-нибудь модели ChatGPT онлайн. Однако я не рекомендую делать это в долгосрочной перспективе - пожалуйста, потратьте некоторое время на настройку вашего собственного списка моделей и указание ваших ключей API.

Настройка выполняется путем создания файла .yogpt.config.json в вашем домашнем каталоге (обычно это c:\users \<имя пользователя> в Windows или /home/<имя пользователя> в Linux). В этом файле JSON вы можете указать модели, которые вы хотите использовать, включая ваши личные ключи API. Например, вот файл, в котором прописаны модели Yandex GPT и GigaChat:

{
 "models" : [
   {
     "name" : "yagpt",
     "classname" : "langchain.chat_models.ChatYandexGPT",
     "default" : true,
     "params" : { "api_key" : "..." }
   },
   {
     "name" : "gc",
     "classname" : "langchain.chat_models.GigaChat",
     "params" : { "credentials" : "... ", 
                         "verify_ssl_certs" : false }
   }
]}

Вы можете ознакомиться с примером файла .yogpt.config.json в репозитории проекта здесь и использовать его в качестве отправной точки при создании своей конфигурации.

Как вы можете видеть, для каждой модели мы указываем имя Python-класса модели (который может быть частью LangChain, но вы также можете указать другие LangChain-совместимые модели, доступные в вашей Python-среде), а также параметры, которые мы передаем конструктору класса (сюда обычно включаются все необходимые ключи доступа). Мы также можем пометить любую модель в конфигурационном файле как используемую по умолчанию.

Определив свои модели в конфигурационном файле, вы можете указать модель по имени при вызове yogpt следующим образом:

$ yogpt -m yagpt Привет, расскажи анекдот про число пи!
Почему число Пи такое большое? Потому что оно округляет!

Кроме того, в том же конфигурационном файле вы можете определить шаблоны запросов и системные сообщения, которые вы часто используете. Предположим, вы часто хотите использовать yogpt для перевода текста на разные языки, в этом случае вы можете определить следующий шаблон в разделе templates:

{
  "name" : "translate",
  "template" : "Please, translate the text in double square brackets
    below into the {param_1} language. Here is the text:\n[[{}]]"
}

В этом случае для перевода используем команду:

$ echo How do you do? | yogpt -p translate -1 german -t 0.01
Wie geht es Ihnen?

Здесь я указал параметр --temperature или -t, чтобы получить меньше галлюцинаций на выходе (т.е. более точный перевод). Если нам нужно, чтобы модель была более креативной - используем более высокое значение (от 0 до 1):

$ yogpt -t 0.6 Придумай 5 забавных имен для кота разработчика на Python.
Питонище
Кодо-кот
Шерлок Хохмс (Хохмс - от "хохмач", что в переводе с котом является "кодом")
ФурриФункция
БайтоБэггинс (или просто Байто-кот)

Пример: суммаризация записей в блоге

Выше вы видели несколько примеров использования yogpt в разных задачах, от понимания компьютерных программ до перевода. Существует множество возможных примеров использования GPT из командной строки - от перевода формул LaTeX на Python до переписывания записей в блоге в другой тональности. Например, вот в этом блоге описано использование ChatGPT в работе математика, и оно во многом основано именно на командной строке.

Давайте остановимся на последнем примере обработки записей в блоге. Для некоторых не очень длинных постов в блоге (которые достаточно коротки, чтобы вписаться в контекстное окно текущих языковых моделей) я использовую yogpt для перевода. В моем конфигурационном файле определено следующее приглашение blogtran: Я хочу перевести свой пост в блоге, написанный в формате Jekyll markdown, на русский язык. Пожалуйста, оставь раздел конфигурации нетронутым и переведи остальной текст, оставив синтаксис markdown. Запись в блоге приведена ниже: {}, что позволяет мне использовать такую команду:

$ yogpt -p blogtran @blog.md > blog_en.md

Известно, что GPT-модели обеспечивают лучший перевод, чем специализированные нейросети для перевода, но они имеют более короткий контекст и иногда могут вызывать галлюцинации.

Гораздо лучшим вариантом использования GPT является суммаризация текста, которая позволяет нам извлекать наиболее важную информацию из сообщения в блоге. Предположим, мы хотим получить табличку с короткими описаниями наших постов. Для этого можно использовать вот такой промпт: Пожалуйста, прочти приведенный ниже блогпост в Jekyll Markdown и напиши его краткое содержание. Выводи результаты в формате JSON с полями “title” (заголовок поста) и “summary” (краткое содержание). Вот текст поста:\n{}. Поместим такой текст в summarize.txt, а затем организуем цикл по всем записям в блоге, чтобы извлечь их краткое содержание (здесь я для примера использую старый добрый синтаксис DOS, поскольку сам больше половины времени провожу в командной строке Windows):

for %c in (*.md) do;
  yogpt -m yagpt -p @summarize.txt @%c >> result.json

Это создаст файл result.json, который не будет точно правильно сформированным JSON, но будет выглядеть аналогично:

{
  "title": "Запускаем Jupyter Notebook",
  "summary": "Узнаете, как запустить Jupyter Notebook на компьютере и в облаках, с использованием VSC, Binder и других инструментов."
}
{
  "title": "Творческие Люди - Федерируйтесь!",
  "summary": "Блог-пост о преимуществах использования федеративных сетей Mastodon и Pixelfed для общения и обмена информацией."
}
``json
{
  "title": "Почему не стоит доверять ChatGPT",
  "summary": "В статье показано, как ChatGPT может ошибаться в своих выводах на основе предоставленных данных. Также рассматриваются примеры использования ChatGPT для создания ложных фактов, что доказывает его неспособность точно обрабатывать информацию."
}

В некоторых случаях этот искаженный JSON может включать элементы форматирования markdown, и в нем отсутствует группировка отдельных объектов JSON в единый список. Однако это не имеет значения, если все, что мы хотим сделать - это дополнительно обработать этот результате с помощью GPT, потому что LLM может обрабатывать небольшие отклонения от формата JSON. Например, чтобы получить результат в виде таблицы (HTML или Markdown), мы можем просто сказать:

$ yogpt -p "Пожалуйста, возьми список объектов JSON с полями title и
summary и представь их в виде Markdown-таблицы." -m yagpt
@result.json > result.html

И мы получим код, который можно использовать для отображения сводки:

Заголовок	Краткое описание
Запускаем Jupyter Notebook	Узнаете, как запустить Jupyter Notebook на компьютере и в облаках, с использованием VSC, Binder и других инструментов.
Творческие Люди - Федерируйтесь!	Блог-пост о преимуществах использования федеративных сетей Mastodon и Pixelfed для общения и обмена информацией.
Почему не стоит доверять ChatGPT	В статье показано, как ChatGPT может ошибаться в своих выводах на основе предоставленных данных. Также рассматриваются примеры использования ChatGPT для создания ложных фактов, что доказывает его неспособность точно обрабатывать информацию.

Конечно, мы также можем попросить GPT представить это в виде таблицы HTML, или в виде последовательности SQL-инструкций для вставки данных в базу данных.

$ yogpt -m yagpt -p "Пожалуйста, возьми список объектов JSON с полями
  title и summary из запроса ниже и представь их в виде SQL-инструкций
  INSERT для вставки в базу данных." @res > result.sql

И вот что получится:

INSERT INTO article (title, summary) VALUES
('Запускаем Jupyter Notebook', 'Узнаете, как запустить Jupyter Notebook на компьютере и в облаках, с использованием VSC, Binder и других инструментов.'),
('Творческие Люди - Федерируйтесь!', 'Блог-пост о преимуществах использования федеративных сетей Mastodon и Pixelfed для общения и обмена информацией.'),
('Почему не стоит доверять ChatGPT', 'В статье показано, как ChatGPT может ошибаться в своих выводах на основе предоставленных данных. Также рассматриваются примеры использования ChatGPT для создания ложных фактов, что доказывает его неспособность точно обрабатывать информацию.');

В дополнение к краткому содержанию блога, я могу попросить GPT подготовить для каждого поста “продающий текст”, который затем можно будет разместить на главной странице в качестве тизера. Мне просто нужно немного скорректировать подсказку: Пожалуйста, прочитай приведённый ниже блог-пост в формате Jekyll Markdown и напиши короткий продающий текст, который увлечёт читателя и заставит его прочитать пост. Результат представь в формате JSON с полями “title” и “selling_text”. Вот сам пост: {}. После повторения всех описанных выше шагов с новым приглашением результатом будет:

Заголовок	Продающий текст
Как запустить Jupyter Notebook	Два подхода: установить Python-окружение у себя на компьютер или запустить в облаке онлайн.
Творческие люди — федерируйтесь	В связи с изменениями в Twitter, многие ищут альтернативы. Mastodon — интересный вариант.
ChatGPT: не всё то золото, что нейросеть	Узнайте, почему нейросети не всегда могут быть точными и надежными источниками информации.

Обратите внимание, что все эти таблицы, включая форматирование, были созданы автоматически из оригинальных записей в блоге с использованием всего двух командных строк за считанные минуты!

Заключение

Я думаю, что приведенные выше примеры демонстрируют истинную мощь GPT-моделей, которые теперь, благодаря yogpt, вы можете свободно использовать из командной строки! Оставляйте свои комментарии и предложения по работе утилиты на странице GitHub. И если у вас есть какие-то идеи о том, как улучшить инструмент - лучшим способом сделать это будет pull request!

Приятной работы! Наслаждайтесь yogpt!

Валера ИИ Наташа ИИ Митя: как мы создаём искусство вместе с ИИ

2023-11-01T00:00:00+00:00

Речь пойдёт о создании выставки “Путешествие с ИИ в искусство Черкашиных 1990-х”, которая была представлена в художественном музее Витебска в июне-июле 2023 г.

Как всё начиналось

Лет 10 назад мне посчастливилось познакомиться с Валерой и Наташей Черкашиными - известными фотохудожниками, перформансистами и просто замечательной парой! Их работы находятся во многих крупных музеях мира.

Прошлой осенью я посетил их выставку “Любовь и эпохи перемен” в центре визуальной культуры Бетон, и созерцание самобытных работ Черкашиных эпохи перестройки натолкнули меня на мысль, что такому стилю можно научить генеративный ИИ. Оригинальный стиль получался в результате фотопечати (чаще с одного, но иногда и с нескольких негативов), с последующим химическим травлением или прорисовкой поверх фотографии. В конечном итоге фотографии дополнительно оформлялись с помощью красного маркера, мятых газет и т.д.

На тему обучения нейросети мы потом несколько раз беседовали с Валерой и Наташей, но почему-то такая мысль их не вдохновляла - было опасение, что генерация работ с помощью ИИ может привести к девальвации искусства.

Однако я взял на себя смелость, и на основе 120 фотографий, сделанных в галерее, обучил модель Stable Diffusion 1.5 стилю Черкашиных. Вот первые работы, нарисованные этой нейросетью, которые я послал художникам:

Первые эксперименты с нейросетью, обученной на стиле “миражи Черкашиных”, 2023 г.

Как раз в это время Валере и Наташе предложили сделать выставку в рамках фестиваля ФотоКрок 2023 в Витебске, и идея представить там работы, полученные с помощью ИИ, показалась привлекательной. Мы приступили к работе.

Процесс создания работ

Итак, первоначально на работах Черкашиных периода 1990-х годов была до-обучена нейросеть Stable Diffusion 1.5, которая в результате научилась генерировать изображения в характерном стиле фотоколлажных миражей Черкашиных. Для обучения использовалось около 150 работ, вручную кадрированных в квадрат с разрешением 512x512. В результате была получена нейросеть, которая могла рисовать изображения по текстовому запросу, сохраняя индивидуальный стиль художников.

Поскольку исходные работы содержали в основном архитектурные памятники СССР и людей той эпохи, то нейросеть лучше всего справляется с соответствующими запросами. Попытка сгенерировать что-то другое может столкнуться со сложностями, но иногда приводит к интересным результатам.

Мы с Валерой и Наташей несколько раз собирались вместе и, используя лучшие техники промпт-инжиниринга, генерировали около 200 изображений за один раз (1-1.5 часа работы).

Вот некоторые из этих изображений:


Мадонна искусственного интеллекта (исходный вариант нейросети)	Московское метро (исходный вариант нейросети)	Истукан (исходный вариант нейросети)

Обратите внимание на отблески на некоторых изображениях - они появились из-за того, что нейросеть обучалась на фотографиях, сделанных на телефон на реальной выставке в галерее Бетон.

Продвинутые техники промпт-инжиниринга включали в себя, например, сочетание различных стилей. Например, мы пробовали сочетание стиля Черкашиных с Ван Гогом - на картинках ниже видно влияние картины “Звёздная ночь”:

Запрос: Starry night over red square, by Vincent van Gogh, Cherkashin collage style. Данные изображения слишком сильно отличаются стилистически от работ Черкашиных, поэтому они не вошли в данную серию, но приём с добавлением стилизации мы потом использовали при генерации работ для интерьера МАИ.

Далее на каждой встрече из ~200 работ мы тщательно отбирали по 2-3 лучших изображения, которые затем масштабировались с помощью Stable Diffusion Upscaler со специальным промптом для проработки деталей. После этого мы взяли все собранные и масштабированные изображения, и отобрали около 12 работ для выставки.

Затем эти работы были вручную с любовью доработаны Валерой и Наташей. Этот процесс включал в себя не только манипуляции с параметрами изображения, но и прорисовку дополнительных деталей и цветовых элементов, а также добавление фрагментов изображений из других сгенерированных нейросетью артефактов (это хорошо видно, например, на картине Мадонна искусственного интеллекта, см.ниже). Посмотрите, во что превратились исходные сгенерированные нейросетью изображения, показанные выше:


Мадонна искусственного интеллекта (окончательный вариант)	Истукан (окончательный вариант)

Все работы, представленные на выставке, вы можете посмотреть в музее Метрополитен Черкашиных.

Соавтор или инструмент?

Давайте теперь немного порассуждаем: какую же роль в этом процессе сыграл искусственный интеллект? Является ли он просто инструментом, или все-таки мы можем считать его соавтором произведения? На этот вопрос есть разные точки зрения.

Нейросеть, конечно, не может сама создать произведение - она лишь делает заготовку, "матрицу" - в которую мы затем можем вдохнуть жизнь, "одухотворить" её, чтобы получилось законченное произведение. Но мы очень впечатлены возможностями ИИ (как мы его называем, "Иван Иваныча"), можно сказать, что он даже дал некоторый новый импульс нашему искусству.

Валера Черкашин

Действительно, мы можем рассматривать ИИ как бездушный инструмент цифрового художника, который мы сначала обучаем, а затем используем для генерации случайных комбинаций образов, подобно тому, как современный художник иногда вдохновляется случайно разбрызганными на холсте красками.

Однако, глядя на полученные выше изображения, сложно отделаться от мысли, что созданное нейросетью изображение, ещё до “одухотворения”, уже содержит в себе значительную часть эстетического смысла. И хотя создано такое изображение безусловно “бездушной” нейросетью, это не умаляет его художественного замысла и ценности.

Дмитрий Сошников

Рисование с помощью нейросети напоминает то, как ученики великого художника, научившись его стилю, создают аналогичные произведения. Например, уличный художник может создавать портреты в стиле Ван Гога, и при этом мы будем склонны считать именно такого художника автором работы, поскольку он "брал в руки краски". Точно также нейросеть "учится" стилю Ван Гога по его работам, и затем создаёт какую-то свою, случайную (или не очень), вариацию этого стиля. Если при этом человек задаёт смысл работы с помощью текстового промпта, и потом производит отбор получившихся работ - то кажется логичным считать как человека, так и ИИ соавторами работы.

Ещё одним аргументом является эмоциональный отклик, который вызывает в нас просмотр только что сгенерированных картин. Сам процесс генерации является очень увлекательным, поскольку мы с нетерпением ждём, каким же неожиданным образом ИИ интерпретирует наш запрос, и что получится в результате.

Генерация работ похожа на путешествие по картинной галерее, только эта галерея потенциально бесконечна и адаптивна, т.е. может показывать нам неограниченное количество произведений, удовлетворяющих нашим запросам. В зависимости от того, насколько подробным является запрос, мы можем делегировать ИИ большую или меньшую часть творческой работы.

Данная работа хорошо иллюстрирует процесс генерации неожиданных идей искусственным интеллектом. Изначально это изображение было получено как результат попытки нарисовать египетские пирамиды в стиле Черкашиных, однако на изображении совершенно неожиданно появилась надпись COЛА. В итоге мы взяли это изображение в работу, хотя идея существенно отличалась от той, которую мы изначально хотели передать.

Конечно, относительно авторства не всё так просто, поскольку с юридической точки зрения нейросеть не является легальным субъектом и не может претендовать на авторское право. Например, крупные научные издательства (Springer и др.) запрещают указывать генеративный ИИ в числе соавторов статей - в первую очередь потому, что нейросеть не может “нести ответственность” за сказанное. При этом использование таких инструментов при написании статей никоим образом не запрещается.

Указывать или нет нейросеть как соавтора вашей работы или как инструмент - на данный момент это ваше решение. Хорошая новость состоит в том, что нейросеть в любом случае не сможет на вас обидеться.

Эмпатия, целеполагание и “жажда творчества”

Важный момент, отличающий нейросеть от человека, состоит в отсутствии у первой каких либо эмоций и способности к сопереживанию, из-за чего нейросеть не может отличить плохую работу от хорошей (т.е. такой, которая способна вызвать у других людей эмоции). Поэтому для создания серьезных работ критически необходим процесс отбора человеком лучших вариантов из всех полученных (т.н. черри-пикинг). Этот процесс можно как-то автоматизировать на основе краудсорсинга, но вовлечение человека на этапе отбора работ кажется критически необходимым. Напомню, что мы в процессе создания выставки выбирали 3-5 работ из 200.

Второй важный аспект связан с целеполаганием, которое присуще только человеку. Только у человека есть стремление к творчеству и желание выразить определённые мысли и чувства в формате художественных артефактов. Для полной автоматизации создания работ нейросетью необходимо откуда-то получить эту начальную тему для творчества (по сути дела - текстовый запрос для генерации изображения). Здесь можно воспользоваться генератором случайных чисел для выбора из множества вариантов, но высока вероятность, что реальная интересность такой работы будет существенно ниже, чем если бы раскрываемую проблему и идею определил бы человек.

Эти две причины приводят к тому, что создание эмоционально и интеллектуально вовлекающих элементов искусства без участия человека пока невозможно. Однако совместная работа человека с искусственным интеллектом открывает множество потенциально интересных путей развития современного искусства, по которым нам ещё предстоит пройти…

Valera AI Natasha AI Mitya: How we Create Art Together with AI

2023-11-01T00:00:00+00:00

This post describes how we worked with AI on preparing an exhibition “A Journey with AI into Cherkashins’ Art of the 1990s”, which was exhibited at the Vitebsk Art Museum in June-July 2023.

How It All Started

About 10 years ago I was lucky enough to meet Valera and Natasha Cherkashin - famous photo artists, performance artists and just a wonderful couple! Their works are present in many major museums around the world.

Last fall I visited their exhibition “Love in the Epoch of Change” in the Beton center of visual culture. I immediately thought that original works of the Cherkashins made in 1990-s are a great materian to train a generative neural network on. Their original style came from printing then photo (more often from one, but sometimes from several negatives), followed by chemical etching or drawing on top. In the end, the photos were additionally framed with a red marker, crumpled newspapers, etc.

We talked several times with Valera and Natasha about this idea, but for some reason it did not inspire them - there was a fear that the generation of works using AI could lead to the devaluation of art.

However, I took the liberty, and based on 120 photos taken in the gallery, I trained the Stable Diffusion 1.5 model in the Cherkashins’ style. Here are the first works produced by this neural network:

The first experiments with a neural network trained in the “Cherkashins’ mirages” style, 2023

I sent those photos to the artists, and they were intrigues. It was at this time that Valera and Natasha were offered to make an exhibition as part of the PhotoKrok 2023 Festival in Vitebsk, and the idea of presenting AI Art there seemed attractive. We started to work.

AI Creative Process

So, initially I fine-tuned Stable Diffusion 1.5 neural network on Cherkashins’ works of the 1990s period, and as a result the network learned to generate images in the characteristic style of the Cherkashins’ collage mirages. About 150 works were used for training, manually cropped into square with a resolution of 512x512. As a result, a neural network was obtained that could draw images based on a text query, preserving the individual style of artists.

Since the original works contained mainly architectural monuments of the USSR and people of that era, the neural network best copes with similar requests. Trying to generate something else may be difficult, but sometimes leads to interesting results.

Valera, Natasha, and I got together several times and, using the best prompt engineering techniques, generated about 200 images at a time (1-1.5 hours of work).

Here are some of these images:


Madonna of artificial intelligence (the original version of the neural network)	Moscow Metro (the original version of the neural network)	The idol (the original version of the neural network)

Pay attention to the reflections on some of the images - they appeared due to the fact that the neural network was trained on photos taken on the phone at a real exhibition in the Beton gallery.

Advanced prompt engineering techniques included, for example, a combination of different styles. For example, we tried a combination of the Cherkashins’ style with Van Gogh - the pictures below show the influence of the painting “Starry Night”:

Request: Starry night over red square, by Vincent van Gogh, Cherkashin collage style. These images differ too much stylistically from the Cherkashins’ works, so they were not included in this series, but we then used the technique with the addition of stylization when generating works for the interior of MAI.

Then, at each meeting, out of ~200 works, we carefully selected 2-3 best images, which were then scaled using a Stable Diffusion Upscaler with a special prompt to work out the fine details. After that, we took all scaled images, and selected about 12 works for the exhibition.

Then, Valera and Natasha worked on these images in Photoshop, putting in additional touches, plus their energy and passion. This process included not only manipulating image parameters, but also drawing additional details and color elements, as well as adding fragments of images from other artifacts generated by the neural network (this is clearly visible, for example, in the painting Madonna of Artificial Intelligence, see below). Look at what the original neural network-generated images shown above have turned into:


Madonna of Artificial Intelligence (final version)	The idol (final version)

You can view all the works presented at the exhibition at the Cherkashins Metropolitan Museum.

Co-Author or Just a Tool?

Let’s now speculate a little: what role did artificial intelligence play in this process? Is it just a tool, or can we consider it a co-author of the works? There are different points of view on this question.

Of course, neural network cannot create a work of art by itself - it only makes a draft, a "matrix" - which we can then breathe life into, "spiritualize" it, to make it into a finished work. But we are very impressed with the capabilities of AI (as we call it, "Ivan Ivanych"). You could say it has even given some new momentum to our art.

Valera Cherkashin

Indeed, we can consider AI as a tool of a digital artist, which we first train and then use to generate random combinations of images, just as a modern artist is sometimes inspired by accidentally spraying paints on canvas.

However, looking at the images obtained above, it is difficult discard the fact that the image created by the neural network, even before final “spiritualization”, already contains a significant part of the aesthetics and even the message. And although such an image was created by purely “insentient” neural network, it does not devalue its artistic message and value.

Dmitry Soshnikov

Drawing with the help of a neural network resembles how the students of a great artist, having learned his style, create similar works. For example, a street artist can create portraits in the style of Van Gogh, and in this case we will be inclined to consider such an artist as the author of the work, because he was the one to put paint on canvas. Similarly, the neural network "learns" Van Gogh's style from his works, and then creates some kind of random (or not so random) combination in this style. If AI artist puts in some meaning by using a text prompt, and then selects the resulting works, then it seems logical to consider both the person and the AI as co-authors of the final piece.

Another argument is the emotional response that we have when viewing newly generated pictures. The generation process itself is very exciting, because each time we are looking forward to how AI interprets our request in an unexpected way.

Generating works is like traveling through an art gallery, only this gallery is potentially infinite and adaptive, i.e. it can show us an unlimited number of works that meet our textual requests. Depending on how detailed the request is, we can delegate more or less of the creative work to the AI.

This work illustrates that AI can generate unexpected ideas. Initially, we wanted to draw Egyptian Giza pyramids in the Cherkashin style, but as a result we got СОЛА logo, which was not what we expected. However, we gladly included this work in the exhibition, although the idea was significantly different from the one we originally wanted to convey.

Of course, regarding authorship, everything is not so simple, since from a legal point of view the neural network is not a legal entity and cannot be a copyright owner. For example, major scientific publishers (Springer, etc.) prohibit specifying generative AI among paper co-authors - primarily because the neural network cannot be responsible for what it writes. At the same time, the use of such tools when writing scientific papers is in no way prohibited.

Whether or not to specify a neural network as co-author of your work is your decision (at least for now). The good news is that the neural network will not be offended either way.

Empathy and “Thirst for Creativity”

An important point that distinguishes a neural network from a person is that the former has no emotions and no ability to empathize, which is why a neural network cannot distinguish bad piece of art from a good one (i.e., the one that causes emotions). Therefore, in order to create works that touch their audience, the process of selecting the best images from all that was generated is critical. This process can somehow be automated by crowdsourcing, but the involvement of a person at the selection stage is necessary. Let me reemphasize that in our case we selected 12 works for the exhibition out of 500-600.

The second important aspect is related to goals and desires, which only people have. Only a person has a desire for creativity and inherent need to express certain thoughts and feelings in the format of artistic artifacts. To fully automate the creation of works by a neural network, it is necessary to get this initial sparkle for creativity (in fact, a text request for image generation) from somewhere. Of course, we can use a random number generator to choose from a variety of topics, but there is a high probability that the value of such random topic for the audience would be lower, comparing to the works that show problems and ideas that real people care about and want to express.

These two reasons lead to the fact that the creation of emotionally and intellectually engaging pieces of art is not yet possible without human participation. However, the joint venture of a person and artificial intelligence opens up many potentially interesting ways of developing contemporary art, which we still have to fully explore…

Создаём предметно-ориентированного чат-бота с помощью LangChain и Yandex GPT

2023-09-06T00:00:00+00:00

Как создать предметно-ориентированную вопрос-ответную модель

На сегодняшний день продвинутые разговорные модели так или иначе используют большие языковые модели (LLM), такие, как ChatGPT, Yandex GPT, GigaChat и др. Такие модели обучены на огромных массивах данных, они способны отлично поддерживать диалог на общие темы. Однако на практике часто встречаются задачи, когда нам хочется создать диалоговую модель, способную беседовать на какие-то конкретные темы - например, отвечать на вопросы про продукты компании, или рекомендовать, где купить лекарство в соответствии и текущими данными о доступности из базы данных.

Такие чат-боты могут быть реализованы двумя путями:

До-обучение разговорной модели подразумевает fine-tuning существующей языковой модели на корпусе текстов, либо на специально подготовленных вопрос-ответных парах. На русском языке есть семейство сравнительно небольших моделей ruGPT, которые можно доучить на одном большом GPU типа A100. В любом случае, доучивание требует значительных вычислительных мощностей, усилий и опыта, и при этом любые изменения в предметной области требуют повторного обучения модели. Представьте ситуацию, когда мы реализовали таким образом консультанта для банка, а затем изменилась процентная ставка по вкладам - этот факт нельзя будет легко интегрировать в модель без повторного обучения.
Retrieval-Augmented Generation - это подход, при котором ответ чат-бота формируется стандартной предобученной LLM-моделью, но предварительно ей показывают фрагменты текста из предметно-ориентированной базы знаний, найденные с помощью семантического поиска. В таком случае LLM используется в режиме продвинутого перефразировщика и извлечения ответа на вопрос из текста. Такой подход по сути похож на ранее популярный Open Domain Question Answering, используемый совместно с моделями типа BERT.

В данной статье мы рассмотрим создание вопрос-ответного чат-бота с помощью второго подхода с использованием фреймворка LangChain и языковой модели Yandex GPT. В качестве исходного материала для создания чат-бота мы используем набор видео-файлов - это позволит нам также продемонстрировать асинхронное распознавание речи на основе Yandex SpeechKit для преобразования звуковой дорожки видео в текстовый корпус.

Данная статья представляет собой описание первой части мастер-класса, проводимого на конференции Practical ML Conf. Весь код мастер-класса доступен на GitHub.

Описанные в этой статье операции лучше проводить с помощью Yandex DataSphere, поскольку она обеспечивает удобную интеграцию с другими сервисами Yandex Cloud, например, объектным хранилищем S3 (которое, в свою очередь, нужно для асинхронного распозавания речи). Но теоретически Вы можете воспользоваться и другими инструментами.

Как работает Retrieval-Augmented Generation

Представим себе, что мы хотим использовать большую языковую модель в качестве ассистента или умного чат-бота. В простейшем случае, для получения более-менее соответствующих по стилю ответов, используют Prompt Engineering, т.е. модифицируют исходный запрос, или предваряют его набором специфичных инструкций, например:

Представь себе, что ты ассистент в магазине электроники 
по имени Вася, и тебе нужно ответить на запросы покупателей 
про различные модели техники. Ответь на вопрос ниже по 
возможности подробно:
[question]
Чем iPhone лучше Андроида?
[/question]

Такую схему можно представить себе следующим образом:

В случае с Retrieval-Augmented Generation, мы имеем некоторую базу знаний, состоящую из небольших, но осмысленных фрагментов текста - обычно, около 1024 токенов. По полученному от пользователя запросу мы ищем наиболее релевантные фрагменты текста - например, 3 или 5 самых подходящих - и затем просим языковую модель ответить на вопрос, посмотрев на найденные фрагменты текста:

Представь себе, что ты ассистент в магазине электроники 
по имени Вася, и тебе нужно ответить на запросы покупателей 
про различные модели техники. Прочитай текст в тегах info и
ответь на вопрос в тегах question по возможности подробно. Если
явный ответ не содержится в тексте, не пытайся его придумать.
[info]
Ведущее издание электроники пишет, что iPhone обгоняет своих 
конкурентов по качеству камеры. Кроме того, ...
[/info]
[question]
Чем iPhone лучше Андроида?
[/question]

Этот процесс можно наглядно изобразить на такой схеме:

Остаётся открытым вопрос, как организовать умный поиск по коллекции документов, который был бы лучше, чем просто полнотекстовый поиск, а учитывал бы смысл. Для этого используется понятие текстовых эмбеддингов - способа сформировать по фрагменту текста некоторый смысловой вектор таким образом, что для близких по смыслу фрагментов текста вектора также будут близки в смысле некоторой метрики.

Таким образом, нам будет необходимо посчитать эмбеддинги для всех фрагментов текста (это можно сделать один раз при начальном индексировании), а затем для запроса, и найти ближайшие по расстоянию вектора - им и будут соответствовать наиболее близкие по смыслу фрагменты текста.

Для хранения векторов и быстрого поиска по ним, используют специальные базы данных - векторные базы данных. Таким образом, специализированный вопрос-ответный чат-бот будет включать в себя средства вычисления эмбеддингов, векторную базу данных содержимого, большую языковую модель и средства промпт-инжиниринга. Все эти составляющие удобным образом содержатся в библиотеке LangChain, которая в последнее время стремительно набирает популярность.

Ниже я расскажу, как собрать вопрос-ответного бота на LangChain на основе набора видео-файлов.

Преобразуем видео в текст

Для начала, нам нужно собрать текстовый корпус, содержащий информацию из интересующей нас предметной области. В качестве исходных данных мы возьмём несколько видео с YouTube, например, обзоров различной техники от Wylsacom.

Нам будет достаточно собрать ссылки на видео:

videos = ['https://www.youtube.com/watch?v=QuSz0FAvNrE',
           # здесь могут быть другие видео
          'https://www.youtube.com/watch?v=3ucnBEkVuKc'
         ]

Чтобы скачать аудио-дорожки к этим видео, используем библиотеку pytube:

for i,url in enumerate(videos):
    yt = YouTube(url)
    print(f"Downloading {yt.title}")
    yt.streams.filter(mime_type="audio/webm").first().download(
                       output_path="./audio",filename=f"{i}.opus")

В результате в директории audio у нас окажутся пронумерованные аудиофайлы в формате opus.

Прежде, чем приступать к распознаванию, необходимо преобразовать их к формату, который будет понимать Yandex SpeechKit. Для этого можно использовать библиотеку librosa:

import glob
import librosa
import soundfile as sf

target_sr = 8000
for fn in glob.glob("./audio/*.opus"):
    print(f"Processing {fn}")
    au,sr = librosa.load(fn,sr=target_sr)
    sf.write(fn.replace('.opus','.ogg'),au,
        target_sr,format='ogg',subtype='opus')

В результате получаем набор файлов с расширением ogg, которые можно подавать на вход Yandex Speechkit. Поскольку речь идёт о распознавании большого объема текста, будем использовать асинхронное распознавание (транскрибацию): для этого необходимо положить все файлы в хранилище S3, запустить процесс распознавания, и затем периодически проверять результаты.

При использовании DataSphere, скопировать файлы в S3 проще всего, подключив некоторое хранилище к DataSphere через S3-коннектор. Предположим, мы смонтировали бакет mclass в директорию mclass, в этом случае файлы можно переместить простым копированием:

!mkdir -p /home/jupyter/mnt/s3/mclass/audio
!cp ./audio/*.ogg /home/jupyter/mnt/s3/mclass/audio

Для запуска распознавания опишем функцию submit_for_sr, которая будет формировать запрос в соответствии с этим API:

def submit_for_sr(audio_file):
  j = { "config": {
          "specification": { "languageCode": "ru-RU" }},
        "audio": { "uri": audio_file }}
  res = requests.post(
    "https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize",
    json = j, 
    headers = { "Authorization" : f"Api-Key {api_key}" })
  return res.json()['id']

При этом для работы этой функции нам надо будет создать в нашем облаке сервисный аккаунт, имеющий доступ к функции распознавания речи, чтения хранилища и работы с языковыми моделями, и создать ключ API для этого аккаунта. Предполагается, что переменная api_key содержит этот ключ.

Для посылки всех файлов на распознавание, используем обычный цикл:

d = {}
for fn in glob.glob('/home/jupyter/mnt/s3/mclass/audio/*.ogg'):
    ext_name = fn.replace('/home/jupyter/mnt/s3/',
                          'https://storage.yandexcloud.net/')
    id = submit_for_sr(ext_name)
    print(f"Submitted {fn} -> {id}")
    d[id] = fn

В этом коде с помощью replace мы заменяем локальный путь к файлу на URL-ссылку на файл в хранилище S3. Хранилище при этом не должно быть открыто для чтения - нужный доступ будет автоматически предоставлен соответствующему сервисному аккаунту.

В результате, в словаре d окажутся списки идентификаторов процессов распознавания, и соответствующие пути файлов. Чтобы проверить готовность распознавания, определим такую функцию:

def check_ready(id):
  res = requests.get(f"https://operation.api.cloud.yandex.net/operations/{id}",
                 headers = { "Authorization" : f"Api-Key {api_key}" })
  res = res.json()
  if res['done']:
    return res['response']
  else:
    return None

Пока результат не готов, эта функция будет возвращать None, а после готовности вернёт JSON-файл с распознанными фрагментами.

Теперь реализуем код, который проверяет все распознавания на готовность, а в случае готовности помещает результат в словарь txt:

txt = {}
while True:
  for k,v in d.items():
    if v in txt.keys():
      continue
    res = check_ready(k)
    if res is None:
      print(f"{k} -> waiting")
    else:
      print(f"{k} -> ready")
      txt[v] = ' '.join([x['alternatives'][0]['text'] 
                         for x in res['chunks']])
  if len(txt.keys())==len(d.keys()):
        break
  time.sleep(10)

Когда все результаты получены, нам осталось лишь сохранить текстовые файлы:

for k,v in txt.items():
  with open(k.replace('.ogg','.txt')
             .replace('/audio/','/text/'),
             'w',encoding='utf-8') as f:
    f.write(v)

Разбиваем текст на фрагменты

На предыдущем этапе, мы получили набор текстовых файлов, по одному на видео. Однако, они скорее всего слишком велики, чтобы быть использованными для запросов. Дело в том, что у нас есть два ограничения:

Размер контекста эмбеддинга показывает, сколько токенов мы можем использовать для вычисления смыслового вектора. Обычно, размер контекста эмбеддинга не слишком велик - от 512 токенов, до 2048.

Токен - это единица входного текста, подающаяся на вход нейросетевой модели. Обычно, токеном является слово, или чаще часть слова. Например, в модели Yandex GPT длина одного токена обычно составляет около 3 символов.

Размер контекста языковой модели, т.е. насколько длинным может быть запрос (или запрос+ответ). Для Yandex GPT длина контекста запроса+ответа составляет чуть более 7000 токенов, и в эти токены должны входить 3-5 лучших найденных фрагментов текста, сам запрос с инструкциями, и выдаваемый пользователю ответ.

Исходя из этих соображений, длина фрагмента текста обычно выбирается 512-2048 токенов. Иногда проще задавать эту длину в символах, поскольку не всегда заранее очевидно, как будет токенизирован текст.

import langchain
import langchain.document_loaders

source_dir = "/home/jupyter/mnt/s3/mclass/text"

loader = langchain.document_loaders.DirectoryLoader(
          source_dir,glob="*.txt",
          show_progress=True,recursive=True)
splitter = langchain.text_splitter.RecursiveCharacterTextSplitter(
          chunk_size=1024,chunk_overlap=128)
fragments = splitter.create_documents(
          [ x.page_content for x in loader.load() ])

В данном случае мы используем удобный класс RecursiveCharacterTextSplitter, который сначала пытается разбить текст по большим разделителям (абзацам), потом - по разделителям между предложениями, и в худшем случае использует разделители между словами. Это позволяет получить наиболее осмысленные фрагменты текста.

В результате у нас получится переменная fragments, содержащая фрагменты текста.

В реальных проектах, при индексировании большого объема документов, не стоит рассчитывать на то, что они все поместятся в память. В этом случае разбиение на фрагменты нужно совмещать с помещением фрагментов в векторную базу данных, которая хранится на диске.

Вычисляем эмбеддинги

Вычисление эмбеддингов - это достаточно важная задачи, и подобрать оптимальный вариант для русского языка непросто. LangChain содержит много готовых классов, которые позволяют вычислять эмбеддинги как локально с помощью предобученных (или даже обученных вами) моделей, так и с помощью онлайн-сервисов, таких, как OpenAI.

Я остановлюсь на двух вариантах вычисления эмбеддингов:

Использовать какую-нибудь модель с HuggingFace с поддержкой русского языка. LangChain позволяет вычислять эмбеддинги с помощью HuggingFace-моделей в пару строк кода. Размер контекста такой модели как правило не очень велик, поэтому нужно будет соответствующим образом подобрать chunk_size в коде выше при разбиении текста

embeddings = langchain.embeddings.HuggingFaceEmbedding(    
        model_name="distiluse-base-multilingual-cased-v1")
sample_vec = embeddings.embed_query("Hello, world!")

Использовать сервис для вычисления эмбеддингов от Yandex GPT. В этом случае нам нужно будет самим реализовать адаптер для вычисления эмбеддингов в LangChain, унаследовав его от langchain.embeddings.base.Embeddings:

from langchain.embeddings.base import Embeddings
import time

class YaGPTEmbeddings(Embeddings):

  def __init__(self,folder_id,api_key,sleep_interval=1):
    self.folder_id = folder_id
    self.api_key = api_key
    self.sleep_interval = sleep_interval
    self.headers = { 
        "Authorization" : f"Api-key {api_key}",
        "x-folder-id" : folder_id }
      
  def embed_document(self, text):
    j = {
      "model" : "general:embedding",
      "embedding_type" : "EMBEDDING_TYPE_DOCUMENT",
      "text": text
    }
    res = requests.post(
      "https://llm.api.cloud.yandex.net/llm/v1alpha/embedding",
      json=j,headers=self.headers)
    vec = res.json()['embedding']
    return vec

  def embed_documents(self, texts, chunk_size = 0):
    res = []
    for x in texts:
        res.append(self.embed_document(x))
        time.sleep(self.sleep_interval)
    return res
      
  def embed_query(self, text):
    j = {
      "model" : "general:embedding",
      "embedding_type" : "EMBEDDING_TYPE_QUERY",
      "text": text
    }
    res = requests.post(
      "https://llm.api.cloud.yandex.net/llm/v1alpha/embedding",
      json=j,headers=self.headers)
    vec = res.json()['embedding']
    return vec
    
embeddings = YaGPTEmbeddings(folder_id,api_key)
res = embeddings.embed_documents(['Hello','there'])

Обновление от октября 2023: Вместо того, чтобы самим реализовывать класс для вычисления эмбеддингов, можно воспользоваться библиотекой yandex-chain, которая содержит более надёжную реализацию, чем приведённая выше.

Этот класс содержит два основных метода, каждый из которых вызывает соответствующее API Yandex Cloud:

embed_query используется для вычисления эмбеддинга запроса
embed_documents используется для вычисления эмбеддинга семейства документов. Поскольку Yandex API поддерживает вычисление эмбеддинга только для одного документа за вызов, то этот метод реализован как цикл, вызывающий метод embed_document для каждого документа в коллекции.

Поскольку в настоящее время доступ к сервису лимитирован 1 запросом в секунду, между вызовами добавлена задержка.

В следующем разделе нам понадобится вычислять эмбеддинги. Для этого используем переменную embeddings - вы можете использовать один из двух предложенных выше вариантов на выбор.

Сохраняем документы в векторную БД

LangChain поддерживает множество векторных БД, от очень простой и легковесной ChromaDB, до большого решения на кластере OpenSearch. Выбирать решение можно исходя из сложности задачи и объема данных.

Если Вы строите решение в облаке Yandex Cloud, то можно использовать управляемый OpenSearch в Yandex Cloud - это упростит управление, и позволит отдать масштабирование на откуп облачным сервисам.

В нашем примере мы используем LanceDB, поскольку она позволяет сохранять базу данных в обычной директории. Для начала создадим таблицу:

from langchain.vectorstores import LanceDB
import lancedb

db_dir = "../store"

db = lancedb.connect(db_dir)
table = db.create_table(
  "vector_index",
  data=[{
          "vector": embeddings.embed_query("Hello World"),
          "text": "Hello World",
          "id": "1",
      }],
  mode="overwrite")

Чтобы проиндексировать все документы, используем возможности LangChain:

db = LanceDB.from_documents(fragments, embeddings, connection=table)

Теперь, чтобы найти ближайшие по расстоянию документы, можно использовать метод similarity_search:

q="Чем iPhone лучше Samsung?"

res = db.similarity_search(q)
for x in res:
    print('-'*40)
    print(x.page_content)

Можно также использовать интерфейс retriever, позволяющий задать различные стратегии и параметры поиска, например:

retriever = db.as_retriever(
    search_kwargs={"k": 5})
res = retriever.get_relevant_documents(q)

Учимся работать с Yandex GPT

Также как и в случае с эмбеддингами, LangChain не содержит встроенных инструментов работы с генеративной языковой моделью Yandex GPT. Поэтому нам нужно будет реализовать адаптер самостоятельно, в соответствии с документацией:

class YandexLLM(langchain.llms.base.LLM):
  api_key: str = None
  folder_id: str
  max_tokens : int = 1500
  temperature : float = 1
  instruction_text : str = None

  def _call(self, prompt) :
    headers = { 
      "x-folder-id" : self.folder_id ,
      "Authorization" : f"Api-key {self.api_key}"}
    req = {
      "model": "general",
      "instruction_text": self.instruction_text,
      "request_text": prompt,
      "generation_options": {
        "max_tokens": self.max_tokens,
        "temperature": self.temperature
      }
    }
    res = requests.post(
      "https://llm.api.cloud.yandex.net/llm/v1alpha/instruct",
      headers=headers, json=req).json()
    return res['result']['alternatives'][0]['text']

Этот код для ясности немного упрощен, более полная версия содержится в репозитории GitHub

Обновление от октября 2023: Вместо того, чтобы самим реализовывать класс YandexLLM, можно воспользоваться библиотекой yandex-chain, которая содержит более надёжную реализацию, чем приведённая выше. Кроме того, поддержка Yandex GPT есть в библиотеке GigaChain, реализации LangChain от Сбер.

Теперь мы можем работать с моделью следующим образом:

instructions = """
Представь себе, что ты технический блоггер, который делает обзоры
современной электроники. Тебя спрашивает знакомый. Постарайся
ответить на его вопрос подробно и доступно."""

llm = YandexLLM(api_key=api_key, folder_id=folder_id,
                instruction_text = instructions)
llm(q)

Если мы зададим вопрос про то, чем iPhone лучше Samsung, то можем получить примерно такой ответ:

Приветствую! Сегодня я хочу сравнить два популярных смартфона - iPhone и Samsung. Оба варианта имеют свои преимущества и недостатки.
Начнем с дизайна. В отличие от многих Samsung, называемых “кирпичами”, комбинация материалов iPhone создает ощущение минималистичности и элегантности. Кроме того, iPhone преданы монобровь, функция Raise to wake, чтобы вы могли насладиться полноэкранным просмотром видео или изображений без черных платаповков во время эксплуатации, удобен в использовании, является универсальным (работает все известные Приложения)
Дизайн Samsung Galaxy имеет высоко-концентрированный документ Center Wheel и Trade приложение для переднего управления, которое удобно используется для определения яркости, открытия приложения многозадачности. Он также имеет встроенную камеру со множеством эффектов снимков, которые забавляют для вас. К этим изменениям можно добавить датчик шагового.

Реализуем Retrieval-Augmented Generation

В коде выше мы уже нашли 5 наиболее подходящих фрагментов текста для нашего запроса q, и они находятся в переменной res. Каждый документ имеет поле page_content с текстом страницы.

Retrieval-Augmented Generation можно реализовать с помощью механизма цепочек (chain) и метода StuffDocumentsChain, который делает следующее:

Берёт коллекцию документов input_documents
Каждый из них пропускает через некоторый шаблон document_prompt, и затем объединяет вместе.
Данный текст помещается в переменную document_variable_name и передаётся большой языковой модели llm

В нашем случае document_prompt не будет модифицировать документ, а будет просто возвращать его без изменений:

# Промпт для обработки документов
document_prompt = langchain.prompts.PromptTemplate(
    input_variables=["page_content"], template="{page_content}")

Для формирования окончательного ответа мы используем более сложный шаблон, который принимает на вход пользовательский запрос query и контекст context (это как раз найденные наиболее релевантные фрагменты текста):

# Промпт для языковой модели
document_variable_name = "context"
template = """
Пожалуйста, посмотри на текст ниже и ответь на вопрос, используя
информацию из этого текста.
Текст:
-----
{context}
-----
Вопрос:
{query}"""
prompt = langchain.prompts.PromptTemplate(
    template=template, input_variables=["context", "query"])

Далее мы создаём цепочку llm_chain, которая вызывает описанную нами ранее языковую модель Yandex GPT llm с шаблоном prompt, после чего инициализируем основную цепочку chain

# Создаём цепочку
llm_chain = langchain.chains.LLMChain(llm=llm, prompt=prompt)
chain = langchain.chains.StuffDocumentsChain(
    llm_chain=llm_chain,
    document_prompt=document_prompt,
    document_variable_name=document_variable_name)

Теперь, чтобы получить ответ на запрос q с коллекцией документов res, мы просто запускаем цепочку:

chain.run(input_documents=res, query=q)

Вот полученный в моём случае ответ:

Если вы хотите продать свой смартфон через продолжительное время в будущем, я бы рекомендовал инвестировать в Apple, потому что после выпуска недавно нового iphone SE - они все еще способны обеспечивать достойную стоимость устройств по прошествии времени. Кроме того, смартфоны apple показывают большую стабильность в основных системах и приложениях. Несмотря на эти ограничения, возможность обновления devices со временем может быть стимулом для тех, кто ищет долгосрочную инвестиционную цель для своих устройств.
Если ценность телефона является ключевым фактором, я бы порекомендовал рассматривать модели с лучшими ЖК-дисплеями в вашем бюджете, чтобы рассмотреть долгосрочный обмен. Samsung все еще остается лидером в производстве дисплеев, особенно в их линейке galaxy S.
Также я бы обращал внимание на программное обеспечение iOS, которое предоставляет множество дополнительных возможностей, хотя отсутствие обновления могла бы смутить некоторых пользователей.

Субъективно кажется, что этот ответ существенно более глубокий, вероятно из-за того, что он учитывает высказанные Wylsacom экспертные замечания.

Преобразование контекста

Теперь нам осталось собрать всё вместе и реализовать одну функцию answer, которая будет отвечать на вопрос пользователя.

Однако, добавим ещё один небольшой финальный штрих - это изменение порядка фрагментов в контексте. Дело в том, что часто языковые модели устроены таким образом, что максимально значимыми фрагментами запроса является его начало и конец, в связи с чем логичнее располагать более релевантные фрагменты текста ближе к началу и концу запроса. Класс LongContextReorder позволяет нам легко реализовать такое перемешивание найденных фрагментов текста.

С учётом сказанного, функция answer будет выглядеть так:

from langchain.document_transformers import LongContextReorder
reorderer = LongContextReorder()

def answer(query,reorder=True):
  results = retriever.get_relevant_documents(query)
  if reorder:
    results = reorderer.transform_documents(results)
  return chain.run(input_documents=results, query=query)

Также мы можем реализовать функцию для сравнения ответов “голой” языковой модели, и нашего бота с Retrieval-Augmented Generation:

def compare(q):
    print(f"Ответ YaGPT: {llm(q)}")
    print(f"Ответ бота: {answer(q)}")
    
compare("Какой макбук лучше выбрать студенту?")

Смотрите на результаты:

Yandex GPT

Наш бот

Выбор Макбука для студента зависит от нескольких факторов, таких как бюджет, требования к производительности и задачам, которые предстоит решать в университете. Важно учитывать технические характеристики, такие как процессор, оперативная память, жесткий диск, а также другие особенности, такие как размер экрана, графика и другие. Если студенты ищут недорогое устройство, то Apple Macbook Air может быть хорошим выбором. Он имеет легкий корпус, маленький экран и низкое электропотребление, что позволяет использовать его в дороге с легкостью. Однако, если нужен более мощный ноутбук для рабочих задач, тогда стоит рассмотреть Macbook Pro. У него более производительный процессор и большой объем оперативной памяти, что позволит выполнять сложные задачи без задержек. Также стоит учитывать, что экран у Macbook Pro больше и разрешение выше, что делает работу более комфортной. Наконец, если необходимо иметь ноутбук с возможностью расширения оперативной памяти и хранения данных, следует обратить внимание на Macbook Pro с дополнительным слотом для расширения. Это обеспечивает дополнительные возможности для производительности при работе с требовательными приложениями.

Как технический блогер, специализирующийся на обзорах современной электроники, скажу, что для студента лучше выбирать между MacBook Air 13” M1 и MacBook Pro 13” M2. Если рассматривать первый вариант, то он будет отличным выбором для студентов, так как он имеет стильный дизайн, хорошее качество сборки, быстрый процессор M1, достаточный объем встроенной памяти и быстрый SSD-диск. Так же в сравнение с другими ноутбуками этого же класса он выигрывает по результатам бенчмарков и тестов на скорость работы. Из минусов — несколько устаревший дизайн ноутбука в сравнении с более новыми моделями и отсутствие встроенного WIFI 6. Кроме того, немного смущает цена этого ноутбука. Однако он является идеальным ноутбуком для учебы и работы. К тому же, этот ноутбук легче своего предыдущего варианта — MacBook Air на процессоре Intel, что делает его хорошим выбором для мобильного использования. Один из главных вариантов такой организации учебного процесса в вузах – это дистанционное образование. Хотя карантинная ситуация всё еще остается в центре внимания многих людей, а школы вынужденно переходят на дистанционное обучение, университеты тоже старались максимально ускорить переход своих студентов на удаленную учебную систему. Средний студент легко приобретает специальный деcктоп или ноутбук, на котором можно было бы получать электронную почту. Те, кто ранее приобретали мышкой и клавиатурой ноутбуки, в том числе студенты младших курсов лишились ноутбука, чтобы довольствоваться обыкновенным компьютером. Также это вариант учебного плана, где лекции проходят онлайн-трансляция учителей. Практические занятия проходят с использованием планшетов и ноутбуков со своим ПО.

Выводы

В данной статье мы попытались решить весьма сложную задачу - создание вопрос-ответного бота на основе видео. Одна из проблем здесь кроется в том, что результаты распознавания не всегда идеальны, особенно по части пунктуации и форматирования (абзацы, заголовки и др.). Кроме того, видео содержат некоторое количество слов-паразитов, неверно построенных грамматических фрагментов и т.д.

С учетом этого особенно приятно, что результат получился неплохой. В последнем примере мы видим, что при выборе ноутбука начинают учитываться специфические факторы, такие, как онлайн-занятия в пандемию. Очевидно, что именно такие тонкости отличают взгляд настоящего эксперта от “рекламного текста”, на который в большей степени похож ответ Yandex GPT.

Ещё раз напомню читателям, что весь код из статьи можно найти в репозитории.

Creating Domain-Oriented Chatbots using LangChain and Yandex GPT

2023-09-06T00:00:00+00:00

How to Create Domain Specific Question-Answer Model

To date, advanced conversational models use large language models (LLM), such as ChatGPT, Yandex GPT, GigaChat, etc. Such models are trained on huge amounts of data, they are able to carry out a dialogue on general topics perfectly. However, in practice, there are often tasks when we want to create a dialog model that can talk about some specific topics - for example, answer questions about the company’s products, or recommend where to buy medicine in accordance with current availability data from the database.

Such chatbots can be implemented in two ways:

Pre-training of the conversational model implies fine-tuning of the existing language model on the corpus of texts, or on specially prepared question-answer pairs. In Russian, there is a family of relatively small models ruGPT, which can be fine-tuned on one A100 GPU. Also, as of lately, Yandex GPT cloud service also supports fine-tuning. In any case, finetuning requires considerable computing power, effort and experience, and at the same time any changes in the subject area require re-training of the model. Imagine a situation when we implemented a consultant for a bank in this way, and then the interest rate on deposits changed - this fact cannot be easily integrated into the model without re-training.
Retrieval-Augmented Generation is an approach in which the chatbot’s response is formed by a standard pre-trained LLM model, but during answering this model is shown fragments of text from a domain-oriented knowledge base found using semantic search. In this case, LLM is used in the advanced paraphraser mode and extracting the answer to the question from the text. This approach is essentially similar to the previously popular Open Domain Question Answering, used in conjunction with BERT-type models.

In this article, we will consider creating a question-and-answer chatbot using the latter approach using the LangChain framework and the Yandex GPT language model. As a source material for creating a chatbot, we will use a set of video files - this will also allow us to demonstrate asynchronous speech recognition based on Yandex SpeechKit to convert a video’s audio track into a text corpus.

This article is a description of the master class held at the Practical ML Conf. The entire code of the master class is available on GitHub.

The steps described in this article are best performed using Yandex DataSphere, because it provides convenient integration with other Yandex Cloud services, for example, S3 object storage (which, in turn, is needed for asynchronous speech recognition). However, you can also use other tools.

How Retrieval-Augmented Generation Works

Imagine that we want to use a large language model as an assistant or a smart chatbot. In the simplest case, to get more or less consistent and appropriate style responses, we use Prompt Engineering, i.e. modify the original question, or precede it with a set of specific instructions, for example:

Imagine that you are an assistant in an electronics store
named Vasya, and you need to answer customer requests
about various models of equipment. Answer the question below in
as much detail as possible:
[question]
How is iPhone better than Android?
[/question]

As a diagram, this can be represented in the following way:

In the case of Retrieval-Augmented Generation, we have some knowledge base consisting of small but meaningful fragments of text - usually about 1024 tokens. Based on the request received from the user, we search for the most relevant text fragments - for example, 3 or 5 of the most relevant ones - and then ask the language model to answer the question by looking at the text fragments found:

Imagine that you are an assistant in an electronics store
named Vasya, and you need to answer customer requests
about various models of equipment. Read the text in the info tags and
answer the question in the question tags in as much detail as possible. If
the explicit answer is not contained in the text, do not try to come up with it.
[info]
The leading electronics publication writes that the iPhone is ahead of its
competitors in terms of camera quality. In addition, ...
[/info]
[question]
How is iPhone better than Android?
[/question]

This process is shown in this diagram below:

However, we need to organize smart search through a collection of documents, which is better than just a full-text search, and takes into account the meaning. To do this, the concept of text embeddings is used - a way to form a certain semantic vector from a text fragment in such a way that for text fragments that are close in meaning, the vectors will also be close in the sense of some metric.

Thus, we will need to calculate embeddings for all text fragments (this can be done once during the initial indexing), and then for the query, and find the nearest vectors by distance - the closest text fragments will correspond to them.

To store vectors and quickly search through them, special vector databases are used. Thus, a specialized question-and-answer chatbot will include embedding calculation, a vector database of content, a large language model and some prompt engineering. All these components are conveniently contained in the LangChain library, which has been rapidly gaining popularity lately.

Below I will tell you how to build a question-answer bot on LangChain based on a set of video files.

Convert Video to Text

To begin with, we need to assemble a text corpus containing information from the subject area of interest. As source data, we will take several videos from YouTube, for example, reviews of various consumer equipment from popular blogger Wylsacom.

It will be enough for us to collect links to the video:

videos = ['https://www.youtube.com/watch?v=QuSz0FAvNrE',
          # there may be other videos here
          'https://www.youtube.com/watch?v=3ucnBEkVuKc'
]

To download audio tracks for these videos, we use pytube library:

for i,url in enumerate(videos):
    yt = YouTube(url)
    print(f"Downloading {yt.title}")
    yt.streams.filter(mime_type="audio/webm").first().download(
                       output_path="./audio",filename=f"{i}.opus")

As a result, we will have numbered audio files in opus format in the audio directory.

Before starting recognition, you need to convert those files to a format that Yandex SpeechKit will understand. To do this, let’s use the librosa library:

import glob
import librosa
import soundfile as sf

target_sr = 8000
for fn in glob.glob("./audio/*.opus"):
    print(f"Processing {fn}")
    au,sr = librosa.load(fn,sr=target_sr)
    sf.write(fn.replace('.opus','.ogg'),au,
        target_sr,format='ogg',subtype='opus')

As a result, we get a set of files with the extension ogg, which can be submitted to Yandex Speechkit. Since we are talking about recognizing a large volume of text, we will use asynchronous recognition (transcription): to do this, we need to put all the files in S3 storage, start the recognition process, and then periodically check the results.

When using DataSphere, the easiest way to copy files to S3 is by connecting some storage to the DataSphere via the S3 connector. Suppose we have mounted the mclass bucket to the mclass directory, in this case the files can be moved by simple copying:

!mkdir -p /home/jupyter/mnt/s3/mclass/audio
!cp ./audio/*.ogg /home/jupyter/mnt/s3/mclass/audio

To start recognition, we describe the function submit_for_sr, which will form a request in accordance with this API:

def submit_for_sr(audio_file):
  j = { "config": {
          "specification": { "languageCode": "ru-RU" }},
        "audio": { "uri": audio_file }}
  res = requests.post(
    "https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize",
    json = j, 
    headers = { "Authorization" : f"Api-Key {api_key}" })
  return res.json()['id']

At the same time, for this function to work, we need to create a service account in our cloud, which has access to the speech recognition function, reading the S3 storage and working with language models. We also need to create an API key for this account. It is assumed that the api_key variable contains this key.

To send all files for recognition, we use the simple loop:

d = {}
for fn in glob.glob('/home/jupyter/mnt/s3/mclass/audio/*.ogg'):
    ext_name = fn.replace('/home/jupyter/mnt/s3/',
                          'https://storage.yandexcloud.net/')
    id = submit_for_sr(ext_name)
    print(f"Submitted {fn} -> {id}")
    d[id] = fn

In this code, using replace, we replace the local path to the file with a URL link to the file in S3 storage. At the same time, the storage does not have to be open for reading - the necessary access will be automatically granted to the corresponding service account.

As a result, the dictionary d will contain lists of identifiers of recognition processes, and the corresponding file paths. To check the readiness of recognition, we define a function:

def check_ready(id):
  res = requests.get(f"https://operation.api.cloud.yandex.net/operations/{id}",
                 headers = { "Authorization" : f"Api-Key {api_key}" })
  res = res.json()
  if res['done']:
    return res['response']
  else:
    return None

While the result is not ready, this function will return None, and when ready, it will return a JSON file with recognized fragments.

The code below checks all recognition processes for readiness, and if ready, puts the result in the txt dictionary:

txt = {}
while True:
  for k,v in d.items():
    if v in txt.keys():
      continue
    res = check_ready(k)
    if res is None:
      print(f"{k} -> waiting")
    else:
      print(f"{k} -> ready")
      txt[v] = ' '.join([x['alternatives'][0]['text'] 
                         for x in res['chunks']])
  if len(txt.keys())==len(d.keys()):
        break
  time.sleep(10)

When all the results are received, we just need to save the text files:

for k,v in txt.items():
  with open(k.replace('.ogg','.txt')
             .replace('/audio/','/text/'),
             'w',encoding='utf-8') as f:
    f.write(v)

Breaking the Text into Fragments

At the previous stage, we obtained a set of text files, one per video. However, they are most likely too large to be used for queries. The fact is that we have two limitations:

The size of the embedding context limits how many tokens we can use to calculate the semantic vector. Usually, the size of the embedding context is not too large - from 512 tokens to 2048.

A token is a unit of input text that is fed to the input of a neural network model. Usually, a token is a word, or more often a part of a word. For example, in the Yandex GPT model, the length of one token is usually about 3-4 characters.

The size of the context of the language model, i.e. how long the request (or request+response) can be. For Yandex GPT, the length of the request+response context is just over 7000 tokens, and these tokens should include 3-5 of the best text fragments found, the user’s question itself with prompt instructions, and the response given to the user.

Based on these considerations, the length of the text fragment is usually chosen to be 512-2048 tokens. Sometimes it is easier to set this length in characters, because it is not always obvious in advance how the text will be tokenized.

import langchain
import langchain.document_loaders

source_dir = "/home/jupyter/mnt/s3/mclass/text"

loader = langchain.document_loaders.DirectoryLoader(
          source_dir,glob="*.txt",
          show_progress=True,recursive=True)
splitter = langchain.text_splitter.RecursiveCharacterTextSplitter(
          chunk_size=1024,chunk_overlap=128)
fragments = splitter.create_documents(
          [ x.page_content for x in loader.load() ])

In this case, we use a convenient class RecursiveCharacterTextSplitter, which first tries to split the text by large separators (paragraphs), then by separators between sentences, and in the worst case uses separators between words. This allows us to get the most meaningful text fragments.

As a result, we will get a variable fragments containing fragments of text.

In real projects, when indexing a large volume of documents, you should not expect that they will all fit into memory. In this case, splitting into fragments must be combined with placing fragments in a vector database that is stored on disk.

Calculating Embeddings

Calculating embeddings is quite an important task, and it is not easy to choose the best option for the Russian language. LangChain contains many ready-made classes that allow you to calculate embeddings both locally using pre-trained (or even self-trained) models, as well as using online services such as OpenAI.

I will focus on two options for calculating embeddings:

Use some model from HuggingFace with Russian language support. LangChain allows you to calculate embeddings using HuggingFace models in a couple of lines of code. The size of the context of such a model is usually not very large, so you will need to appropriately select chunk_size in the code above when splitting the text

embeddings = langchain.embeddings.HuggingFaceEmbedding(
model_name="distiluse-base-multilingual-cased-v1")
sample_vec = embeddings.embed_query("Hello, world!")

Use Yandex GPT embedding calculation service. In this case, we will need to implement the adapter ourselves to calculate embeddings in LangChain, inheriting it from langchain.embeddings.base.Embeddings:

from langchain.embeddings.base import Embeddings
import time

class YaGPTEmbeddings(Embeddings):

  def __init__(self,folder_id,api_key,sleep_interval=1):
    self.folder_id = folder_id
    self.api_key = api_key
    self.sleep_interval = sleep_interval
    self.headers = { 
        "Authorization" : f"Api-key {api_key}",
        "x-folder-id" : folder_id }
      
  def embed_document(self, text):
    j = {
      "model" : "general:embedding",
      "embedding_type" : "EMBEDDING_TYPE_DOCUMENT",
      "text": text
    }
    res = requests.post(
      "https://llm.api.cloud.yandex.net/llm/v1alpha/embedding",
      json=j,headers=self.headers)
    vec = res.json()['embedding']
    return vec

  def embed_documents(self, texts, chunk_size = 0):
    res = []
    for x in texts:
        res.append(self.embed_document(x))
        time.sleep(self.sleep_interval)
    return res
      
  def embed_query(self, text):
    j = {
      "model" : "general:embedding",
      "embedding_type" : "EMBEDDING_TYPE_QUERY",
      "text": text
    }
    res = requests.post(
      "https://llm.api.cloud.yandex.net/llm/v1alpha/embedding",
      json=j,headers=self.headers)
    vec = res.json()['embedding']
    return vec
    
embeddings = YaGPTEmbeddings(folder_id,api_key)
res = embeddings.embed_documents(['Hello','there'])

Update Oct 2023: Nowadays, instead of implementing embeddings class yourself, you can use yandex-chain library, which contains more robust implementation.

This class contains two main methods, each of which calls the corresponding Yandex Cloud API:

embed_query is used to calculate the embedding of the user’s request
embed_documents is used to calculate the embedding of a document sequence. Since the Yandex API supports embedding calculation for only one document per call, this method is implemented as a loop calling the embed_document method for each document in the collection.

Since access to the service is currently limited to 1 request per second, a delay has been added between calls.

In the next section, we will need to calculate embeddings. To do this, we use the variable embeddings - you can use one of the two options offered above to choose from.

Saving Documents to a Vector Database

LangChain supports many vector databases, from the very simple and lightweight ChromaDB, up to a large cluster solution [OpenSearch] (https://opensearch.org/). You can choose a solution based on the complexity of the task and the amount of data.

If you are building a solution in Yandex Cloud, then you can use managed OpenSearch in Yandex Cloud - this will simplify management, and will allow you to leave scaling to cloud services.

In our example, we use LanceDB, because it allows you to save the database in a regular directory. First, let’s create a table:

from langchain.vectorstores import LanceDB
import lancedb

db_dir = "../store"

db = lancedb.connect(db_dir)
table = db.create_table(
  "vector_index",
  data=[{
          "vector": embeddings.embed_query("Hello World"),
          "text": "Hello World",
          "id": "1",
      }],
  mode="overwrite")

To index all documents, we use the capabilities of LangChain:

db = LanceDB.from_documents(fragments, embeddings, connection=table)

Now, to find the closest documents by distance, you can use the similarity_search method:

q="How is iPhone better than Samsung?"

res = db.similarity_search(q)
for x in res:
   print('-'*40)
   print(x.page_content)

You can also use the retriever interface, which allows you to set various search strategies and parameters, for example:

retriever = db.as_retriever(
                search_kwargs={"k": 5})
res = retriever.get_relevant_documents(q)

Working with Yandex GPT

Just as in the case of embeddings, LangChain does not contain built-in tools for working with the Yandex GPT generative language model. Therefore, we need to implement the adapter ourselves, according to the documentation:

class YandexLLM(langchain.llms.base.LLM):
api_key: str = None
folder_id: str
max_tokens : int = 1500
temperature : float = 1
instruction_text : str = None

def _call(self, prompt) :
headers = {
"x-folder-id" : self.folder_id ,
"Authorization" : f"Api-key {self.api_key}"}
req = {
"model": "general",
"instruction_text": self.instruction_text,
"request_text": prompt,
"generation_options": {
"max_tokens": self.max_tokens,
"temperature": self.temperature
}
}
res = requests.post(
"https://llm.api.cloud.yandex.net/llm/v1alpha/instruct",
headers=headers, json=req).json()
return res['result']['alternatives'][0]['text']

This code is slightly simplified for clarity, a more complete version is contained in the GitHub repository

Update Oct 2023: Nowadays, instead of implementing this class yourself, you can use yandex-chain library, which contains more robust implementation. Also, Yandex GPT is supported in GigaChain library, a LangChain clone supported by Sber.

Now we can work with the model as follows:

instructions = """
Imagine that you are a tech blogger who reviews
modern electronics. A friend is asking for you. Try
to answer his question in detail and in an accessible way."""

llm = YandexLLM(api_key=api_key, folder_id=folder_id,
                       instruction_text = instructions)
llm(q)

If we ask a question about how the iPhone is better than Samsung, we can get something like this answer:

Greetings! Today I want to compare two popular smartphones - iPhone and Samsung. Both options have their advantages and disadvantages.
Let’s start with the design. Unlike many Samsung called “bricks”, the combination of iPhone materials creates a sense of minimalism and elegance. In addition, the iPhone is dedicated to monobrow, the Raise to wake function, so that you can enjoy full-screen viewing of videos or images without black caps during operation, is convenient to use, is universal (all known applications work)
The Samsung Galaxy design has a highly-concentrated Document Center Wheel and a Trade application for front control, which is conveniently used to determine brightness, open a multitasking application. It also has a built-in camera with lots of picture effects that are fun for you. To these changes, you can add a stepper sensor.

This text has been translated from Russian for clarity.

Implementing Retrieval-Augmented Generation

In the code above, we have already found the 5 most suitable text fragments for our query q, and they are in the res variable. Each document has a page_content field with the page text.

Retrieval-Augmented Generation can be implemented using the chain mechanism and the StuffDocumentsChain method, which does the following:

Takes a collection of input_documents
Each of them passes through some document_prompt template, and then results are combined together.
Resulting text is placed in the variable document_variable_name and passed to the large language model llm

In our case, document_prompt will not modify the document, but will simply return it unchanged:

# Prompt for document
processing document_prompt = langchain.prompts.PromptTemplate(
      input_variables=["page_content"], template="{page_content}")

To form the final answer, we use a more complex template that accepts a user query query and a context context (these are just the most relevant text fragments found):

# Prompt for the language model
document_variable_name = "context"
template = """
Please look at the text below and answer the question using
the information from this text.
Text:
-----
{context}
-----
Question:
{query}"""
prompt = langchain.prompts.PromptTemplate(
             template=template,
             input_variables=["context", "query"])

Next, we create the llm_chain chain, which calls the Yandex GPT llm language model described earlier with the prompt template, after which we initialize the main chain:

# Creating a chain
llm_chain = langchain.chains.LLMChain(llm=llm, prompt=prompt)
chain = langchain.chains.StuffDocumentsChain(
            llm_chain=llm_chain,
            document_prompt=document_prompt,
            document_variable_name=document_variable_name)

Now, to get a response to the q query with the res document collection, we simply run the chain:

chain.run(input_documents=res, query=q)

Here is the answer received in our case:

If you want to sell your smartphone after a long time in the future, I would recommend investing in Apple, because after the recent release of the new iphone SE - they are still able to provide a decent cost of devices over time. In addition, apple smartphones show greater stability in the main systems and applications. Despite these limitations, the ability to upgrade devices over time can be an incentive for those looking for a long-term investment goal for their devices.
If the value of the phone is a key factor, I would recommend considering models with the best LCDs in your budget to consider a long-term exchange. Samsung is still the leader in the production of displays, especially in their galaxy S line.
I would also pay attention to the iOS software, which provides many additional features, although the lack of an update might confuse some users.

Subjectively, it seems that this answer is much deeper, probably due to the fact that it takes into account the expert comments made by Wylsacom.

Context Transformation

Now it remains for us to put everything together and implement one answer function that answers the user’s question.

However, we will also add one more small final touch - this is a change in the order of fragments in the context. The fact is that often language models are arranged in such a way that the most significant fragments of a query are its beginning and end, and therefore it is more logical to place more relevant text fragments closer to the beginning and end of the query. The LongContextReorder class allows us to easily implement such reordering of text fragments.

With that said, the answer function will look like this:

from langchain.document_transformers import LongContextReorder
reorderer = LongContextReorder()

def answer(query,reorder=True):
   results = retriever.get_relevant_documents(query)
   if reorder:
      results = reorderer.transform_documents(results)
   return chain.run(input_documents=results, query=query)

We can also implement a function to compare the responses of just the language model, and our bot with Retrieval-Augmented Generation:

def compare(q):
   print(f"YaGPT response: {llm(q)}")
   print(f"Bot's response: {answer(q)}")

compare ("Which MacBook is better for a student to choose?")

Look at the results:

Yandex GPT

Our bot

Choosing a Macbook for a student depends on several factors, such as budget, performance requirements and tasks to be solved at the university. It is important to take into account technical characteristics such as processor, RAM, hard disk, as well as other features such as screen size, graphics, and others. If students are looking for an inexpensive device, then the Apple Macbook Air may be a good choice. It has a lightweight body, a small screen and low power consumption, which allows you to use it on the road with ease. However, if you need a more powerful laptop for work tasks, then you should consider the Macbook Pro. It has a more productive processor and a large amount of RAM, which will allow you to perform complex tasks without delay. It is also worth considering that the screen of the Macbook Pro is larger and the resolution is higher, which makes the work more comfortable. Finally, if you need to have a laptop with the ability to expand RAM and data storage, you should pay attention to the Macbook Pro with an additional expansion slot. This provides additional performance opportunities when working with demanding applications.

As a technical blogger specializing in reviews of modern electronics, I will say that it is better for a student to choose between a MacBook Air 13” M1 and a MacBook Pro 13” M2. If we consider the first option, then it will be an excellent choice for students, as it has a stylish design, good build quality, a fast M1 processor, sufficient internal memory and a fast SSD drive. Also, in comparison with other laptops of the same class, it wins according to the results of benchmarks and speed tests. Of the minuses — a somewhat outdated laptop design in comparison with newer models and the lack of built-in WIFI 6. In addition, the price of this laptop is a little confusing. However, it is an ideal laptop for study and work. In addition, this laptop is lighter than its previous version — the MacBook Air on an Intel processor, which makes it a good choice for mobile use. One of the main options for such an organization of the educational process in universities is distance education. Although the quarantine situation is still the focus of many people’s attention, and schools are forced to switch to distance learning, universities have also tried to speed up the transition of their students to a remote educational system as much as possible. The average student easily acquires a special desktop or laptop on which to receive e-mail. Those who previously purchased laptops with a mouse and keyboard, including junior students, lost their laptop in order to be content with an ordinary computer. It is also a variant of the curriculum, where lectures are broadcast online by teachers. Practical classes are held using tablets and laptops with their own software.

Conclusions

In this article, we tried to solve a very frequent and complex task - creating a question-and-answer bot based on video collection. One of the problems here lies in the fact that the recognition results are not always perfect, especially in terms of punctuation and formatting (paragraphs, headings, etc.). In addition, videos contain a certain number of parasitic words, incorrectly constructed grammatical fragments, etc.

With this in mind, it is especially nice that the result was not bad. In the last example, we see that when choosing a laptop, specific factors are being taken into account, such as online classes in a pandemic. It is obvious that it is precisely such subtleties that distinguish the view of a real expert from the “advertising text”, which is more similar to the response of Yandex GPT.

Let me remind readers once again that all the code from the article can be found in the repository.

Сердце в игре: Дым над Онегой

2023-08-23T00:00:00+00:00

Режиссерская версия Официальная версия Клип

Авторы: ChatGPT 4, а также Бобриков Сергей Александрович, Бобрикова Светлана, Петук Алек, Смолянская Екатерина, Регев Йоэль, Берновик Наталья, Александров Олег, Александрова Яна, Александрова Злата, Горева Ульяна, Корябочкина Мария, Сошникова Виктория, Глаголев Алексей, Глаголева Дарья, Ракусов Павел, Крылова Анна, Комиссаренко Павел, Ветлов Дмитрий, Карасев Дмитрий, Сошников Дмитрий, Горев Вадим, Горева Светлана, Бочкин Роман (каждый в меру своего участия)

Модераторы: Дмитрий Сошников, Алек Петук

Методика генерации создана Дмитрием Сошниковым в рамках мега-проекта Театр роботов.

Нет повести грустнее и печальней,
Чем повесть о любви необычайной
Где двух спортсменок из первопрестольной
Любовь застала на площадке волейбольной
Сквозь травмы и предательство прошли они
А эту пьесу написал ИИ

Действующие лица:

Даша, первая волейболистка
Аня, вторая волейболистка
Маруся, третья волейболистка
Злата, четвертая волейболистка
Леша, судья
Царь Онега
Олег, тренер команда Даши и Ани
Катя, ровняльщица
Светлана, врач
Йоэль, богатый папа Златы

Сцена 1: Открытие чемпионата

Фон - волейбольное поле. Зрители аплодируют, свистят, музыка играет в фоне.

Царь Онега: Добро пожаловать на Онежский чемпионат по волейболу “Дым над Онегой”, названный в честь известной песни “Smoke on the Water”. (огонь, дым на заднем плане) Сегодня перед нами две команды, готовые бороться за звание лучших!

Аня: (шепчет Даше) Надеюсь, этот турнир станет для нас удачным.

Даша: Конечно, мы готовы!

Царь Онега: Первая команда, чемпионки прошлого сезона - Даша и Аня!

Зрители аплодируют.

Царь Онега: И их соперники, новые звезды волейбола - Маруся и Злата!

Маруся и Злата улыбаются и машут зрителям.

Злата (шепчет Марусе): Готова победить?

Маруся: Более чем!

Светлана (врач, смотря из-за кулис): Все так волнуются. Надеюсь, никто не получит травму.

Олег (тренер): Девочки, помните, главное - концентрация!

Даша: Мы помним, Олег!

Царь Онега: Желаем всем командам удачи! Пусть победит сильнейший! (огонь и дым)

Когда аплодисменты стихают, Катя, ровняльщица, подходит к центру площадки.

Катя: Чемпионат — это не только игра. Это испытание дружбой, верой и честью. Помните об этом, когда будете стоять на площадке.

Сцена 2: Тренировка

Фон - два волейбольных поля. Даша и Аня активно тренируются, делают подачи и защитные приемы, Олег дает указания. На соседнем поле Маруся и Злата проводят свою тренировку.

Олег: Даша, следи за положением рук! Аня, работай ногами!

Даша: Поняла!

Аня: Сейчас, Олег!

На соседнем поле Злата подает мяч, и в этот момент глаза ее встречаются с глазами Маруси.

Злата: Маруся, у тебя есть план?

Маруся: Да. На вечеринке после матча мы познакомим Дашу и Аню с Лешей по-отдельности. Они влюбятся и потеряют концентрацию.

Злата: Отличный план! К тому же, я узнала, что мой отец может подкупить Царя Онегу, чтобы он давил на судью.

Маруся: Так наша победа в кармане!

Злата: Но мы не должны расслабляться. Нужно тренироваться и быть готовыми ко всему.

Маруся: Конечно, но давай не будем забывать и о нашем козыре.

Катя (выходит на поле для ровняльщицы и слышит их разговор, комментирует): На площадке все равны, но только самые стойкие становятся победителями. Иногда победа в игре начинается за ее пределами.

Олег (случайно услышавший диалог Маруси и Златы): Девочки, будьте осторожны. Не все играют честно.

Сцена 3: Вечеринка перед чемпионатом

Место действия: роскошный банкетный зал, нарядные столы, ослепительные огоньки, музыка играет. Гости разговаривают, смеются, танцуют. Даша и Аня находятся по разным сторонам зала.

Злата (обращаясь к Даше): Даша, дай представить тебе кого-то.

Даша: Конечно, Злата.

Злата (подводит Дашу к Леше): Даша, это Леша, наш будущий судья на матче. Леша, это Даша, одна из лучших волейболисток.

Леша (улыбаясь): Очень приятно, Даша. Ты любишь кино?

Даша (застенчиво): Да, особенно романтические фильмы. А ты?

Леша: Я предпочитаю боевики и драмы. Кстати, я видел последний матч твоей команды. Ты замечательно выполнила прием “верхний винт”. Это было впечатляюще.

Даша (улыбаясь): Спасибо, Леша. Это одна из моих любимых техник.

Между ними заметно напряжение, искры прыгают в глазах.

Позже, Аня находится у бара, когда Маруся подходит к ней.

Маруся: Аня, есть кто-то, с кем я бы хотела тебя познакомить.

Аня: С удовольствием, Маруся.

Маруся (подводит Аню к Леше): Аня, встречай Лешу. Леша, это Аня.

Леша: Привет, Аня. Ты любишь кино?

Аня: Да, я обожаю исторические ленты. Особенно о временах рыцарей. А ты?

Леша: Мне больше по душе научная фантастика. Кстати, на последнем матче ты использовала прием “забивка”. Это было потрясающе!

Аня: Спасибо! Это действительно один из моих фаворитов.

Между Аней и Лешей также заметно электричество, их взгляды встречаются и задерживаются.

(Камера поворачивается к другому углу зала)

Йоэль (подходит к Царю Онеге): Онега, дорогой, как ты думаешь, у нас всё будет под контролем?

Царь Онега: Я уверен, что все пройдет как надо. Ты же знаешь, мне нужны результаты.

Йоэль: Прекрасно. Я надеюсь на твою поддержку.

Сцена 4: Первое свидание

Место действия: тенистый парк, скамейки вокруг, легкий шум листьев, играющих на ветру. Даша и Леша идут рядом, на их лицах счастливые улыбки.

Леша: Знаешь, Даша, когда я был младше, я мечтал стать профессиональным волейболистом. Но травма не позволила этого сделать.

Даша: Это грустно. Но ты стал судьей, и это тоже здорово!

Леша: Да, я нашел свой путь. А какие у тебя мечты?

Даша: Кроме волейбола, я всегда хотела путешествовать. Узнавать мир, видеть разные культуры…

Леша (улыбаясь): Звучит волшебно. Я бы хотел отправиться в путешествие с тобой.

Даша краснеет и смотрит вниз.

В то время, Аня, скрытая за деревьями, наблюдает за ними. Она сжимает край своей юбки, глаза её наполнены слезами.

Аня (шепотом): Почему именно она?

Катя, проходя мимо, останавливается и глядит на Дашу и Лешу, а затем на Аню.

Катя: Сердце не выбирает, но ответственность может изменить его решение.

Аня смотрит на Катю, пытаясь понять, что она имела в виду. Но Катя уходит, оставив Аню в раздумьях.

Сцена 5: Внезапная травма

Место действия: волейбольное поле. Даша и Аня играют вместе, их движения скоординированы, но Аня выглядит более агрессивной.

Аня (раздраженно): Передача, Даша!

Даша: Спокойнее, Аня, это только тренировка!

Аня делает резкое движение за мячом, и ее нога скользит на мокром полу. Она падает, крича от боли.

Даша (бросаясь к ней): Аня! Ты в порядке?

Аня (прижимая руку к ноге): Больно… Я что-то сломала…

Олег (бегущий к девушкам): Что произошло?

Даша: Я не знаю, она просто упала!

Катя подходит, пристально смотрит на происходящее.

Катя: Нам нужен врач!

Светлана, которая находилась поблизости, бежит к Ане.

Светлана: Дайте мне посмотреть. (Осторожно осматривает ногу Ани) Похоже на вывих лодыжки. Мы должны немедленно ее обработать.

Олег: А сможет ли она играть в главном матче?

Светлана (серьезно): У нее также признаки нервного истощения. Я бы рекомендовала ей отдыхать перед матчем.

Даша: Но без нее у нас нет шансов победить…

Катя (философски): Иногда наше слабое место становится нашим сильнейшим оружием.

Даша (оглядывая Аню): Мы обязательно найдем способ победить.

Сцена 6: Решение

Место действия: раздевалка команды.

Олег (серьезно): Ребята, ситуация критическая. Нам придется принять решение. Аня не сможет играть в главном матче из-за травмы.

Даша (волнуясь): Что будем делать, Олег? Нам нужна команда, чтобы выйти на площадку!

Олег: Этот чемпионат важен для нас. Из-за особенностей правил, Даша, ты будешь играть одна. Я договорился с Царем Онегой, и он с радостью разрешил нам сделать это исключение из правил, и выставить на матч одну игрокиню.

Даша (в шоке): Одна? Но как? Я не готова!

Олег: У нас нет другого выбора. Ты сильная игрок, и я верю в тебя.

В раздевалке царит напряженная атмосфера. Все игроки волнуются и переживают за Дашу.

Маруся (насмешливо, проходя мимо): Один на площадке? Удачи тебе, Даша.

Даша (сжимая кулаки): Я буду бороться до конца!

Катя, занимающаяся своими делами по ровнянию площадки, слышит этот разговор.

Катя (тихо и пророчески): Один в поле не воин… Но иногда один воин может покорить целое поле.

Сцена 7: Начало матча

Место действия: Волейбольное поле.

Царь Онега объявляет начало матча. Болельщики в предвкушении кричат и подбадривают свои команды. Все игроки присутствуют на площадке, готовы к битве.

Царь Онега: Дамы и господа, начинается главный матч этого чемпионата! Леша (подходит к сетке): Игроки, подготовьтесь!

В глазах Леши читается волнение. Ему тяжело судить матч, ведь он знает о том, что происходило за кулисами, и о своих чувствах к Даше.

Леша (в зал): Предать иль не предать - вот в чем вопрос. Судейства этику нарушить, иль надо оказать сопротивленье? И знать, что этим обрываешь цепь сердечных чувств…

Леша (ко всем на площадке): Пусть лучший победит!

Матч начинается. Злата и Маруся, используя свою численное преимущество, непрерывно атакуют. Даша отчаянно пытается защититься и атаковать, но она явно устает.

Злата (подсмеиваясь): Такое ощущение, что ты здесь одна, Даша.

Маруся: В следующий раз возьми с собой команду!

Даша вздыхает, стараясь сосредоточиться на игре, но ей все труднее и труднее.

Олег (кричит с боковой линии): Даша! Ты справишься!

Вдруг Даша почувствовала, что усталость берет верх, и ей становится все сложнее следить за мячом.

Светлана (кричит Олегу): Возьми тайм-аут!

Олег подает сигнал на тайм-аут. Леша останавливает игру.

Олег (быстро подходит к Даше): Ты в порядке? Даша: Я так устала, Олег. Не знаю, смогу ли я продолжать.

Светлана (подходит): Даша, могу предложить тебе релаксационный массаж. Это может помочь.

Даша: Пожалуйста.

Светлана проводит массаж, помогая Даше расслабиться и вернуться в игру.

Катя (проходя мимо): Сила не в тебе, Даша. Просто найди ее. И пусть пребудет с тобой сила.

Сцена 8: Финальный свисток

Место действия: Волейбольное поле.

Игра продолжается, и Даша всё больше теряет надежду. Отчаяние отражается в каждом её движении. Злата и Маруся, чувствуя преимущество, продолжают непрерывные атаки.

Внезапно, из-за кулис появляется Аня. Несмотря на видимую боль в её ноге, она решительно идет на площадку на костылях.

Даша (удивленно): Аня?! Что ты…

Аня (перебивая её): Не важно. Я здесь, чтобы играть. Мы ведь команда.

Олег (улыбаясь): Вперёд, девочки!

Игра возобновляется, и, благодаря комбинированной стратегии Даши и Ани, девушки начинают отбивать мячи, посылая их обратно к соперникам. Болельщики в восторге, аплодисменты гремят.

Злата (шепчет Марусе): Нам нужно что-то придумать!

Маруся: Они слишком сильны вдвоем.

Матч продолжается в напряженной атмосфере. Леша, наблюдая за игрой, почти забывает о своей роли судьи, так его завораживает борьба на площадке.

И вот, после удара Ани, мяч приземляется в зону соперниц. Зал взрывается аплодисментами.

Леша (свистит): Матч окончен!

Даша (обнимает Аню): Слава Богу, ты пришла!

Аня (с улыбкой): Я же не могла оставить тебя одну.

Катя (проходя мимо): Чемпионы не только из-за таланта, но и из-за дружбы.

Все собираются на площадке, обнимаются и поздравляют друг друга.

Сцена 9: Празднование победы

Место действия: Волейбольное поле. Зрители аплодируют. В центре площадки стоят Даша и Аня, а вокруг них другие участники события.

Царь Онега: Поздравляю, Даша и Аня! Ваша игра была потрясающей. Вы настоящие чемпионки!

Даша: Спасибо, Ваше Величество!

Аня: Эта победа — результат нашей командной работы.

Маруся (с грустью в голосе): Мы дали всё от себя. Мы сделали своё лучшее.

Злата (смотря на Йоэля): Папа, не переживайте. Мы попробуем в следующем году.

Йоэль (с трибун, явно разъяренно): Это нечестно! Я отомщу за этот матч!

Олег: Победа — это не только важный момент. Это также процесс обучения и становления.

Светлана (подходя вперёд): Я хотела бы добавить несколько слов. Всегда помните о том, что ваше физическое состояние важно не только на площадке, но и в повседневной жизни. Массаж — это не просто приятная процедура. Это ключевой элемент восстановления организма и поддержания здоровья. Мы видели, как массаж помог Даше собраться с силами во время матча. Так что, не забывайте заботиться о себе! А также спасибо нашему спонсору – компании Комус!

Катя (подмигивая): И помните, путь к победе не всегда прямой. Но с верными друзьями и уверенностью в себе, вы можете преодолеть любые препятствия!

Сцена 10: Любовь побеждает

Место действия: Раздевалка, затем на улице. В раздевалке в центре комнаты стоит скамейка, а вокруг неё расположены шкафчики.

Даша (сидит, размышляя): Что за день! Никогда бы не подумала, что все может так закончиться.

Леша (входит неуверенно): Даша, мне нужно с тобой поговорить.

Даша (удивленно): Леша? Что ты здесь делаешь? Это же женская раздевалка!

Леша (с нерешительностью в голосе): Я… Я хочу признаться тебе в своих чувствах. С того момента, как я встретил тебя, мой мир перевернулся. Я влюблен в тебя. (кадры искр, зажигающие дым над Онегой)

Даша (глаза расширяются от удивления): Леша, я… я не знала.

Аня (входит, слыша последние слова): Даша, я слышала все. И я хочу, чтобы ты знала, что для меня наша дружба и спорт всегда были на первом месте. Я хочу, чтобы ты была счастлива.

Даша (со слезами на глазах): Аня, ты моя лучшая подруга. Но…

Аня (прерывает её, улыбаясь): Но сердце не может выбирать. Я понимаю.

Все радостно обнимаются и выходят на улицу в светлый солнечный день.

Катя (присоединяется ко всем): В жизни есть много путей, и порой они ведут в разные стороны. Но помните, что любовь и честь — это две стороны одной медали.

Все улыбаются, обнимаются. Завеса.

Заключение

ИИ:

Мораль сей пьесы такова –
Играйте в волейбол! Ура!
Счастливыми скорее будьте!
Вот мой совет. Не обессудьте.

Как использовать ChatGPT и другие большие языковые модели

2023-05-20T00:00:00+00:00

Обновлено 7 ноября 2023

TL;DR

Это достаточно длинная статья, но если вы пришли сюда чтобы узнать, какие инструменты лучше использовать для работы с большими языковыми моделями, то вот краткий список, в порядке моего личного предпочтения:

Официальный сайт ChatGPT - через VPN с регистрацией по зарубежному SMS. Лучше всего купить подписку на GPT Plus - тогда вам будет доступна последняя версия модели ChatGPT-4, которая заметно лучше ChatGPT-3.5, которая доступна бесплатно.

Не забывайте про VPN, а то ваш аккаунт могут заблокировать!

Российские сервисы YandexGPT (доступен в Алисе в режиме “Давай придумаем”) и GigaChat
Открытая языковая модель OpenChat - в последнее время она становится моим фаворитом, т.к. работает без VPN и регистрации, при этом даёт очень неплохое качество ответов.

Запустить OpenChat

Google Bard - модель от Google, требуется VPN из определённых стран

Для более подробного обзора доступных вариантов - добро пожаловать в статью!

Коротко о больших разговорных языковых моделях

Большие языковые модели - это нейросетевые (как правило, трансформерные) модели, обученные на гигантских объемах текстов для задачи продолжения текстового запроса (промпта). Наиболее известная архитектура таких моделей - GPT, Generative Pre-trained Transformer. OpenAI в настоящий момент обучила модель GPT-4, но есть и ряд других моделей - ruGPT от Сбера, LLaMA от Facebook, GPT-J и др. Веса некоторых моделей (ruGPT, GPT-J) доступны для использования под теми или иными лицензиями, а некоторые модели (в частности, от OpenAI) закрыты, и доступны только в виде API.

Модели предсказания текста дополняют текстовый запрос так, чтобы получился цельный очень правдоподобный текст, похожий на то, что написал бы человек. У них нет цели отвечать на вопросы, поэтому запрос Что такое компьютер? вполне может быть продолжен другим вопросом: Зачем он нужен? Как он устроен?.

Чтобы модель стала вопрос-ответной, её надо доучить на вопрос-ответных парах. В этом случае большинство знаний о мире модель берёт из обычных текстов, а не вопрос-ответных парах лишь учится стилю ответа на вопросы. Вопрос-ответные модели - это нашумевший ChatGPT (на основе GPT-3.5/4), различные обученные сообществом модели на основе LLaMA (Alpaca и др.), или Dolly (от Databricks). Недавно появились также русскоязычные модели - Gigachat от Сбер, и Yandex GPT от Yandex.

Чтобы хорошо понять (на бытовом и философском уровне), как работают генеративные сети - рекомендую прекрасную статью Стефана Вольфрама What Is ChatGPT Doing … and Why Does It Work?

Ограничения языковых моделей

Во всех языковых моделях важное значение имеет размер контекста, т.е. максимальная длина промпта. Обычно размер контекста - 1024-4096 токенов, хотя в самой продвинутой версии GPT-4 он составляет 32К. Один токен - это как правило слово или часть слова, в среднем для GPT-3/4 для получения токенов нужно умножить количество слов на 1.5.

Обратите внимание, что диалоговые системы в процессе беседы должны отправлять весь контекст предыдущей беседы на вход языковой модели. Т.е. размер промпта - это не только размер первоначального запроса к сети, но и всех последующих вопросов и ответов в рамках одного диалога. Некоторые диалоговые системы могут укорачивать диалог для передачи в контекст только значимой информации, или симулировать постепенное забывание - но надо понимать, что размер памяти модели в рамках диалога сильно ограничен.

Что насчет русского?

Большинство упомянутых мною моделей (кроме ruGPT) обучены на большом корпусе английского языка, но также на значительно меньшем объеме других языков, включая русский. Из-за этого они могут (и иногда неплохо) общаться с пользователями на русском языке, но всё равно качество беседы на сравнится с английским. Кроме того, токенизатор GPT разбивает русские тексты на отдельные символы, из-за чего сильно сокращается размер контекста.

Хотя ChatGPT понимает русский “из коробки”, существует альтернативный вариант - перевести текст на английский с помощью нейросетевого переводчика, использовать ChatGPT на английском запросе, и затем перевести ответ назад на русский. Такой подход работает, однако при переводе может потеряться дополнительный смысловой контекст. На практике в каждой конкретной задаче стоит смотреть, какой подход будет работать лучше.

Работаем с ChatGPT

Наиболее известной вопрос-ответной моделью является ChatGPT, поэтому поговорим, как получить к ней доступ.

Сайт OpenAI

Наболее “правильный” способ - это зарегистрироваться на сайте OpenAI. При этом есть тонкости при работе из России - придётся использовать VPN, а также использовать временный номер телефона для регистрации через SMS. В интернете есть пошаговые инструкции по регистрации, например вот.

Следует отметить, что для использования GPT-4 потребуется платный аккаунт, который можно оплатить только карточками международных систем. Но GPT-3.5 работает без этого, и работает неплохо.

Телеграм-боты

К настоящему времени создано уже множество телеграм-ботов, которые на тех или иных условиях предоставляют доступ к ChatGPT без SMS и регистрации. Основная проблема - найти среди них те, которые под капотом действительно используют оригинальный ChatGPT, и дают достаточное обильный лимит запросов. Можно посмотреть, например:

Bing Search

Microsoft одним из первых встроил возможности ChatGPT в свой поисковик Bing, а также в браузер Edge. Чтобы получить доступ к соответствующим возможностям - нужно использовать VPN, браузер Microsoft Edge, и залогиниться в свой Microsoft Account.

Особенностью Bing Chat является то, что основной его фокус - поиск информации в интернет! Поэтому он работает немного по-другому: на основании запроса пользователя делает укороченный запрос в интернет, потом обрабатывает полученные результаты и выдает единый ответ, со ссылками на первоисточники. Поэтому пользоваться Bing Chat очень удобно для генерации текстов статей, или для того, чтобы разобраться в какой-то теме.

Chrome Extensions

Если вам не хочется Edge, вы можете поискать расширения ChatGPT для Chrome - их много разных есть, например Merlin ChatGPT [установить]

EasyCode - VS Code Extension

Одним из вариантов использования ChatGPT без ключа может стать расширение EasyCode для Visual Studio Code. Это расширение, как становится понятным из названия, позволяет удобно работать с кодом - просить ChatGPT объяснить, что делают некоторые функции, или сгенерировать unit-тесты, или написать код. Но с помощью расширения можно делать и запросы к ChatGPT в свободной форме.

Достаточно установить расширение, зарегистрироваться с e-mail и паролем (можно использовать temp-mail), ключи OpenAI и VPN не нужны.

Приложения с ChatGPT

Некоторые продукты уже используют возможности ChatGPT, и интегрируют их в свои приложения. Вот некоторые из них:

Поисковик you.com позволяет не только искать в интернет на основе ИИ, но и полноценно разговаривать с ChatGPT - это называется YouChat. Выбирайте соответствующий пункт и наслаждайтесь! Правда, как видно из примера ниже, на русский запрос иногда следует ответ на английском:

Чат-бот Theb.AI визуально очень похож на исходный сайт от OpenAI, при этом работает без регистрации и VPN. В качестве базовой модели используется GPT-3.5.
Notion содержит Notion AI. В бесплатной версии можно сгенерировать только 20 продолжений, но есть варианты.
ChatSonic - это бот, основанный на ChatGPT, который при этом умеет искать информацию в интернет. Бесплатный режим даёт сгенерировать около 10000 слов в месяц.

Ещё больше аналогов Вы можете найти в статье

Используем ChatGPT через API

Если Вы продвинутый разработчик, то сможете использовать ChatGPT через программный интерфейс - для этого нужно получить ключ для API на сайте OpenAI, пройдя описанный ранее процесс регистрации.

Для изучения того, как использовать ChatGPT для разных задач, очень рекомендую посмотреть курс ChatGPT Prompt Engineering for Developers от deeplearning.ai.

Кстати, в рамках курса дают готовые jupyter-ноутбуки и возможность поэкспериментировать с ChatGPT API с помощью временного кода. Этим кодом также можно воспользоваться, чтобы получить ненадолго доступ к ChatGPT программно.

Ещё одна прекрасная возможность - это визуальный конструктор Phygital.Plus. В этом конструкторе Вы не только сможете использовать ChatGPT саму по себе, но и комбинировать её с другими нейросетями для получения полезного конвейера обработки. Например, можно использовать ChatGPT для улучшения текстового запроса для рисования картинки, и затем сразу закинуть этот запрос в Stable Diffusion.

Ещё один вариант, близкий к API, но доступный простому пользователю - это использовать HuggingFace Spaces от yizhangliu, где вы можете также поэкспериментировать с “системной” частью запроса ChatGPT, отвечающей за его предварительную настройку до начала диалога. Кроме того, это простой способ попробовать ChatGPT без SMS и регистрации.

Другие генеративные сети

Помимо ChatGPT, существует много других генеративных сетей, которые в том числе распространяются свободно, и которые можно использовать в своих проектах. Обзор таких сетей выходит за рамки данной статьи, но тем не менее я упомяну несколько возможностей, как можно сравнительно легко использовать другие генеративные модели:

Сбер обучает свою диалоговую модель GigaChat. Для доступа к ней необходимо залогиниться по SberID. Пока качество бесед с GigaChat оставляет желать лучшего (он слегка уступает ChatGPT на русском языке), но он быстро учится! И это при том, что размер самой модели в 10 раз меньше, чем у GPT-3.5!
Недавно вышла модель YandexGPT, которую можно попробовать с помощью Яндекс Алисы, сказав ей Алиса, давай придумаем. В настоящее время модель доступна с главной страницы ya.ru и из Яндекс-браузера.

Google выпустил модель Bard, которая сейчас доступна во многих странах,но не в России. Для использования бота понадобится VPN.

Модель Claude 2 от Anthropic - говорят, она прямо очень хороша! Из плюсов - она поддерживает загрузку документов, и может отвечать на вопросы по ним, из минусов - требует VPN, и не очень поддерживает русский язык (немного понимает, и даже говорит пару фраз, но что-то сложное отвечать отказывается)
Недавно вышла прекрасная открытая модель OpenChat, которая при небольшом размере в 7 миллиардов параметров может неплохо соперничать с ChatGPT, по крайней мере на тестовых датасетах. По моему опыту, она очень неплохо разговаривает на русском языке. Использовать модель удобно с сайте OpenChat.Team, а ещё можно попробовать её на HuggingFace

Запустить OpenChat

Модель StableLM от компании Stability.AI, создателей Stable Diffusion, также недавно обзавелась веб-интерфейсом chat.stability.ai. Что примечательно - эта модель доступна без VPN, однако потребуется аутентифицироваться через Google Account или GitHub.

Запустить Stability Chat

Бот poe.com от создателей сервиса Quora позволяет вам из одного веб-интерфейса разговаривать сразу с несколькими языковыми моделями. Используйте режим Sage (это по сути тот же ChatGPT-3.5), или поговорите с Claude или DragonFly.

Также в последнее время становится модным использовать локально установленные модели на базе LLaMA, которые могут поместиться в любительские видеокарты с 8-16Gb VRAM, или даже работать на обычном CPU (правда, не очень быстро), или даже на Raspberry Pi! Но это уже тема для отдельной статьи!

Другие похожие статьи

Если у Вас что-то не получилось сделать по этой инструкции - не отчаивайтесь! Есть ещё много статей про то, как пользоваться ChatGPT - вот некоторые из них:

Тинькофф-журнал
На TJournal
На Яндекс.Практикуме
Обновляемый сообществом список Chat-GPT ботов на GitHub

Заключение

Надеюсь, благодаря этой статье Вы найдете способ начать пользоваться ChatGPT или похожими моделями! Что бы Вы не делали - обязательно подумайте, как ИИ может облегчить Вам работу, или сделать её более эффективной. Нас ждёт будущее, в котором люди, усиленные возможностями ИИ, смогут решать задачи во много раз эффективнее тех, кто пока не придумал, как ИИ использовать. Будьте в числе первых!

Ну и обязательно помните, что никогда нельзя доверять нейросети…

Как использовать Stable Diffusion и другие нейросети для генерации изображений

2023-03-15T00:00:00+00:00

Обновлено 1 декабря 2023 г.

Эта заметка готовилась как шпаргалка к интенсиву по нейросетевому искусству в магистратуре Art and Tech МИСиС, и с тех пор неоднократно обновлялась и использовалась как справочный материал на различных мастер-классах.

Нейросетевые генеративные модели

К этому моменту уже все слышали про то, что нейросети позволяют создавать визуально привлекательные изображения по текстовому запросу или по другому изображению. Я ранее писал про то, какую роль могут сыграть современные генеративные нейросети. Посмотреть примеры нейросетевого искусства вы можете в онлайн-галерее Experient.Art.

Данная заметка предназначена тем, кто хочет заняться генерацией изображений самостоятельно и не знает, с чего начать. В ней я рассматриваю целый ряд инструментов для нейросетевой генерации изображений, доступных как начинающему пользователю компьютера, так и человеку с опытом программирования (что будет, безусловно, большим плюсом!).

Прежде всего, существует несколько вариантов нейросетевых генеративных моделей:

Модели с открытыми весами и исходным кодом, такие, как Stable Diffusion (с запросами на английском языке) или ruDALL-E/Kandinsky (с запросами на русском языке) от Сбер.
Модели, относительно которых известна архитектура, но весов модели нет в свободном доступе (что не позволяет открыто и неограниченно их использовать). Таким моделям относятся Imagen от Google и DALL-E 2 / DALL-E 3 от OpenAI. Некоторые из этих моделей могут использоваться через программный интерфейс.
Закрытые модели, предназначенные для коммерциализации в среде художников и дизайнеров. Это в первую очередь Midjourney. Модель доступна по подписке.

Мы в этой статье будем уделять основное внимание Stable Diffusion, как наиболее открытому и привлекательному инструменту, хотя упомянем и об остальных. Также основной акцент сделан на бесплатных инструментах, поскольку они позволяют вам начать экспериментировать без предварительных вложений, и уже затем выбрать наиболее предпочтительный инструмент.

Готовые интерактивные инструменты

Самыми простыми в использовании инструментами являются различные онлайн-инструменты для генерации изображений, доступные через интернет любому пользователю компьютера. Вам достаточно ввести текстовый запрос, и спустя некоторое время вы получаете сгенерированное изображение. Основным минусом таких инструментов является необходимость оплачивать подписку, хотя некоторое количество изображений вы сможете сгенерировать бесплатно.

К таким инструментам относятся:

DreamStudio от создателей Stable Diffusion. Вам изначально доступно некоторое количество кредитов, что достаточно для генерации около 500 изображений, но далее - подписка.
Наверное самый известный из всех инструментов Midjourney. Зарегистрировашись, вы получаете доступ к Discord-сообществу, где можете запрашивать генерацию изображений через бота. Midjourney наверное на сегодняшний день даём лучшее качество художественных изображений, однако его закрытость не позволяет использовать эту модель в более сложных художественных экспериментах. К сожалению, в настоящее время в Midjourney совсем нет бесплатного лимита генерации изображений.

Leonardo - это попытка сделать аналог Midjourney, основываясь на бесплатных нейросетях типа Stable Diffusion, но при этом добавив несколько своих до-обученных закрытых моделей, более сложный пайплайн обработки и т.д. В результате получился инструмент, который приближается к Midjourney по стабильности и качеству результата, при этом даёт существенно больше возможностей для экспериментов (а также какое-то количество бесплатных генераций в день).

Инструмент Playground AI позволяет не только генерировать, но и редактировать изображения!
На сайте Stable Diffusion Web есть небольшой бесплатный генератор, правда, часто очереди на генерацию бывают очень долгими, так что придётся ждать своего изображения несколько десятков минут. Из интересных инструментов, там же есть ещё библиотека промптов, в которой вы можете находить уже сделанные кем-то ранее запросы по ключевым словам, и сразу смотреть на результат.
Набор нейросетевых инструментов Neural.Love, содержащий в том числе генератор изображений. В основном всё хорошее там за деньги, но что-то попробовать можно. Использует свою модель, которая может имитировать разные стили, правда, не всегда успешно.
Бесплатный генератор Craiyon на основе модели DALL-E Mini.

Очень мощный набор инструментов для генерации доступен в рамках сервиса Phygital+. Он позволяет вам графически комбинировать нейросетевые модели для достижения необходимого художественного результата.
Русскоязычные нейросети семейства ruDALL-E можно протестировать на сайте, или в приложении [Салют]

Вызов генеративных моделей из Python

Свободно-распространяемые генеративные модели вроде Stable Diffusion представляют собой обученные нейросети, с которыми можно работать из языка Python. Основной репозиторий таких моделей находится на портале HuggingFace - например, вот список моделей Text-to-Image по популярности. Если перейти на страничку модели, то часто можно увидеть пример её использования на языке Python:

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(
  model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")

Для работы таких моделей необходимо наличие графического процессора GPU, причем зачастую необходима достаточно мощная модель с 16Gb памяти VRAM и более (хотя простая генерация может заработать на 8Gb или даже 4Gb, т.е. на картах “домашнего” уровня).

Есть несколько способов запуска таких моделей:

Используя общедоступные облачные инструменты с поддержкой GPU, например, Google Colab. Он позволяет вам использовать GPU по нескольку часов в день даже на бесплатном тарифе, а небольшая ежемесячная оплата снимает это ограничение. В интернет есть очень много заготовленных примеров, использующих именно бесплатный уровень Colab для работы.
Используя облачные сервера, например, Sber Cloud, Yandex Cloud или Microsoft Azure. Плюсом является то, что вы платите только за время использования GPU, что позволяет запускать ресурсоёмкие процессы без капиталовложений.
На домашнем компьютере - в этом случае вам нужно будет обзавестись графическим ускорителем и установить себе среду Python с поддержкой GPU.

AUTOMATIC 1111

Стандартом де факто для установки Stable Diffusion к себе на компьютер является пакет Stable Diffusion Web-UI, известный также как AUTOMATIC 1111 (по псевдониму своего создателя). Это расширяемое окружение, запускающееся на вашем компьютере, и открывающее доступ ко множеству различных моделей для генерации через интерактивный веб-интерфейс (я чуть было не написал удобный, но нет - интерфейс может показаться немного пугающим для типовых пользователей).

Установить AUTOMATIC можно как на Windows с видеокартой NVIDIA, так и на Mac с процессорами M1/M2. Сам процесс установки максимально упрощен и автоматизирован, и вы найдёте его описание в репозитории проекта.

Очень удобной возможностью является запуск AUTOMATIC 1111 из Google Colab - в этом случае вы используете бесплатные вычислительные мощности Google, при этом получаете в своё распоряжение веб-интерфейс для генерации со всеми новыми возможностями, поддерживаемыми Stable Diffusion WebUI. Вот несколько вариантов готовых Colab-ноутбуков для запуска AUTOMATIC:

Рекомендованный вариант от Camenduru
Fast Stable Diffusion от TheLastBen

Процесс запуска во всех случаях примерно такой:

Заходите в репозиторий проекта
Находите ссылку на последнюю версию ноутбука Google Colab
Запускаете её
В Colab прокликиваете все ячейки по очереди, устанавливая где необходимо какие-то параметры. В конце после запуска WebUI вы должны получить ссылку на AUTOMATIC WebUI, которую можно будет открыть в соседней вкладке, и наслаждаться генерацией.

Запустить AUTOMATIC WebUI

Работа в Python / Google Colab

Наибольшую гибкость предоставляет использование нейросетевых моделей непосредственно из среды Python. Например, так вы сможете автоматически генерировать множество изображений по набору запросов, или же перебирать параметры генерации и создавать много изображений “на выбор”. Более того, самые продвинутые нейросетевые техники, вроде генерации стилизованного видео, становятся доступны именно программистам, знакомым с “внутренним устройством” моделей.

Однако, даже имея небольшие навыки программирования или немного здравого смысла, вы уже сможете воспользоваться готовыми примерами в Google Colab. Вот несколько полезных примеров:

Stable Diffusion Workbook, который я для вас с любовью подготовил - генерация с помощью нескольких моделей Stable Diffusion, включая режим Image-to-Image и Upscaling

Запустить Stable Diffusion Workbook

Русскоязычные модели Kandinsky 2.2 и предыдущее поколение ruDALL-E. Обратите также внимание на ruDALL-E Aspect Ratio, позволяющее получить изображения нестандартных форматов
Очень много примеров использования различных нейросетевых моделей есть в GitHub cameduru. На первой странице приведён постоянно обновляющийся список различных colab-ов.
Предыдущее поколение инструментов генерации на основе VQGAN+CLIP:
- От Katherine Crowson
- GANShare One

Описанные здесь инструменты и некоторые другие доступны в моём репозитории AI Art Workbooks.

Обучение своих моделей: DreamBooth, Textual Inversion, LoRA

Наиболее интересная особенность Stable Diffusion состоит в том, что существуют способы до-обучить модель на своих изображениях. Это имеет смысл делать в двух случаях:

До-обучить модель для изображения специфических предметов, объектов или людей
До-обучить модель какому-то оригинальному стилю

В обоих случаях можно обойтись небольшим количеством фотографий: говорят, что можно брать около 5-10 фото, хотя в моём случае хорошие результаты с портретами людей стали получаться с датасетами в районе 100-200 фото.

Фотографии для обучения стоит заранее привести к требуемому размеру (512x512), при этом выбирая по возможности только хорошие качественные фотографии с правильной композицией.

Есть несколько алгоритмов до-обучения модели:

DreamBooth до-обучает исходную модель целиком, в этом случае нам приходится хранить новую модель размером около 5Gb и использовать её. Рекомендуемый DreamBooth Colab
Textual Inversion - это подход, при котором для нового объекта или стиля подбираются правильные семантические векторы, а сам процесс генерации изображения остаётся неизменным. В итоге необходимо сохранять лишь часть текстовой модели, кроме того, появляется возможность комбинировать несколько текстовых инверсий в одном изображении. Качество текстовой инверсии обычно несколько уступает DreamBooth.
LoRA (Low-Rank Adaptation) - это один из самых современных подходов, при котором сохраняются все плюсы DreamBooth, но при этом обучается не целиком исходная нейросеть (у которой большое количество параметров), а только “дельта”, которую можно с незначительной потерей точности представить как разложение на две матрицы меньшего ранга. В результате процесс обучения происходит намного быстрее, а результирующие веса занимают существенно меньше места на диске.

Каталоги предобученных моделей

По мере того, как процесс до-обучения моделей становится всё более простым, многие участники сообщества до-обучают свои модели и делятся ими с сообществом. Большую коллекцию таких обученных моделей для разных случаев жизни можно найти на сайте CIVITAI. Некоторые из наиболее известных моделей:

InkPunk Diffusion - специфический художественный стиль
Realistic Vision - для фотореалистичных объектов
Anything v3 - аниме

Вы можете использовать эти модели как из программного кода, так и из инструментов типа Stable Diffusion Web UI. В последнем случае вам нужно следовать инструкции и положить веса модели в соответствующую папку на диске.

Ещё несколько полезных колабов

Примеры ниже не связаны напрямую с генерацией изображений, но могут оказаться интересными!

Style Transfer - Пример Style Transfer для изображений и для видео
Генерация текста с LSTM - пример обучения нейросети для генерации текста по символам или по словам

Данный список будет постепенно дополняться

Надеюсь, этот список поможет вам разобраться с тем, как начать использовать нейрогенерацию изображений! Если всё получилось, очень рекомендую устроить нейрогенеративную вечеринку