Разработать benchmark для определения скорости работы всех процессоров (обработчиков текста) в TDC

Задача
Добавить возможность использования собственных Python-процессоров в TDC (TextDatasetCleaner – инструмент для очистки текстовых датасетов от мусора https://github.com/TextDatasetCleaner/TextDatasetCleaner )
Кураторы
Веселов Денис
Giraff.io (Python-разработчик)
https://github.com/saippuakauppias
Что вы узнаете?
Какими способами производится очистка текстовых датасетов
Как работают Github Actions
Как работают Python линтеры
Требуемые навыки
Git; Python3; Bash; Github Actions; Docker; навык очистки датасетов своими скриптами