Инструмент для удаления нечётких дубликатов строк

Задача
Реализовать инструмент для удаления нечётких дубликатов строк с возможностью подключить его к TDC (TextDatasetCleaner – инструмент для очистки текстовых датасетов от мусора
https://github.com/TextDatasetCleaner/TextDatasetCleaner).
Кураторы
Веселов Денис
Giraff.io (Python-разработчик)
https://github.com/saippuakauppias
Что вы узнаете?
Какими способами производится очистка текстовых датасетов
Каким образом производится удаление дубликатов
Алгоритмы для быстрого хеширования строк
Требуемые навыки
Владение Python, Git. Знание алгоритмов и структур данных.