Датасеты для Uplift-моделирования

Задача
Для машинного обучения нужны данные, на которых модель будет обучаться, поэтому в популярных библиотеках для машинного обучения есть функционал, который позволяет пользователю скачать датасеты-примеры себе локально и попробовать обучить модели на них.

Наша команда тоже накопила несколько датасетов, которые мы хотим собрать в одном модуле и поделиться ими с сообществом.

Как это можно сделать? Нужно положить датасет в облако, получить ссылку на скачивание. Затем реализовать в библиотеке код на питоне, который позволит пользователю скачать датасет локально. Например, по названию. Детали реализации должны быть скрыты от пользователя.

Если успеем, напишем тесты и настроим CI/CD

Самое приятное, что ваша работа не пойдёт в стол, а ей действительно будут пользоваться люди.
Кураторы
Максим Шевченко
Team Lead Data Scientist в МТС
Ирина Елисова
Data Scientist в МТС
Что вы узнаете?
Узнаете, как контрибьютить в open source
Работа с GIT
Научитесь работать с Git. Узнаете, что такое Merge-request и как его правильно делать.
Познакомитесь с методологией CI/CD
Требуемые навыки
Python, базовое владение командной строкой. Будет плюсом: понимание концепций машинного обучения, опыт использования Git, знание языка разметки Markdown.