Репозиторий с портфолио проектов, выполненных во время обучения в Яндекс Практикуме по программе «Специалист по Data Science. Расширенный»
| Проект | Описание | Ключевые библиотеки и навыки |
|---|---|---|
| Исследование объявлений о продаже квартир | На основе данных о недвижимости был проведен исследовательский анализ данных, географиечкие пропуски заполнены с помощью модуля geopy, определены наиболее важные характеристики, влияющие на цену недвижимости | Pandas, Numpy, Geopy, Seaborn, Matplotlib, EDA, Data Viz |
| Исследование данных о российском кинопрокате | Исследование российского рынка кинопроката, трендов, режиссеров, рейтингов и экономических факторов фильмов в группах с господдержкой и без | Pandas, Numpy, Seaborn, Matplotlib, EDA, Data Viz |
| Статистический анализ данных сервиса проката самокатов GoFast | Анализ данных сервиса проката самокатов, проверка статистических гипотез, полезных для сервиса, составление рекомендаций для сервиса на основе проделанной работы, исопльзование линейной регрессии для правки выбросов | Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, Scipy, EDA, Statistical hypothesis tests, Data Viz |
| Модель для снижения рисков хозяйства при покупке коров | Создание моделей для прогнозирования удоя и оценки рисков при приобретении скота, на основе исследованных данных о фермерском хозяйстве | Scikit-learn, Phik, Pandas, Scipy, Seaborn/Matplotlib, ML, EDA, Statistics, Data Viz, Linear/Logistic Regression, CV |
| Персонализация предложений интернет-магазина "В один клик" | Построение 4 моделей с подбором гиперпараметров по предсказанию покупательской активности и выбор лучшей с помощью Optuna для персонализации предложений клиентам | Optuna, Scikit-learn, SHAP, Pandas, Numpy, Phik, Seaborn/Matplotlib, ML, Statistics, Logistic Regression, Decision Tree, SVC, CV |
| Прогнозирование уровня удовлетворенности и вероятности увольнения сотрудника для HR-Аналитики | Создание моделей по предсказанию уровня удовлетворенности и вероятности увольнения сотрудника по запросу HR-отдела. Выбор лучших из 4 классов моделей МО с побором гиперпараметров в каждой группе проводился с помощью Optuna | LightGBM, Optuna, Scikit-learn, Phik, SHAP, Pandas, Seaborn, EDA, ML, Gradient Boosting, Linear Regression, Decision Tree, SVM, CV |
| Выбор локации для скважины | Выбор скважины по оценке ее прибыльности и рисков с помощью Bootstrap. Для предсказания запасов нефти на основе признаков были созданы модели линейной регрессии на каждый регион | Pandas, Numpy, Scikit-learn, Seaborn/Matplotlib, SciPy, Phik, Bootstrap, Linear Regression, EDA |
| Предсказание статуса деятельности стартапа | Проектная работа для мастерской в результате которой были исследованы данные о деятельности стартапов и был создан пул моделей по предсказанию деятельности стартапов с последующим выбором лучшей | CatBoost, LightGBM, Scikit-learn, SciPy, Optuna, Pandas, Numpy, Seaborn, Phik, SHAP, EDA, Gradient Boosting, LogReg, Model Calibration |
| Предсказание стоимости жилья в Калифорнии | Исследование больших данных с помощью pySpark рынка жилья в Калифорнии с использованием кластеризации для разбиения на районы с последующим созданием моделей предсказания стоимости объектов | pySpark, Pandas, Seaborn, Histogrammar, Phik, Clusterization, Large Scale Data Analysis, Spark, Linear Regression, ParamGrid |
| Предсказание стоимости автомобилей | Прогнозирование стоимости автомобиля на основе различных технических характеристик посредством создания 5 моделей различных классов МО с подбором гиперпараметров и выбором лучшей из них | CatBoost, LightGBM, Scikit-learn, Pandas, Geopy, Seaborn, Phik, Gradient Boosting, Ensemble, Linear Regression, Decision Tree |
| Предсказание активности покупателей | Исследование данных интернет-магазина о покупателях и их покупках, маркетинговых кампаний с последующим созданием модели предсказания покупательской активности и предложениями для маркетингового отдела | LightGBM, Scikit-learn, HyperOpt, SciPy, SHAP, Phik, Pandas, Numpy, Seaborn, Gradient Boosting, LogReg, Model Calibration, EDA |
| Прогнозирование температуры звезды | Подбор модели на основе 2-слойных полносвязных нейронных сетей для предсказания температуры звезды по спектральным, цветом и световым характеристикам. Построение диаграммы Герцшпрунга-Рассела | PyTorch, HyperOpt, Phik, Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, FCNN, HyperParameter Optimization, EDA |
| Предсказание ДТП | Исследование основных факторов ДТП, работа с SQL базой данных проишествий, создание гипотез и постановка задач для исследования, а также создание модели для оценки вероятности ДТП | SQLAlchemy, LightGBM, HyperOpt, Scikit-learn, SHAP, Phik, SciPy, Pandas, Seaborn, SQL, Hypothesis developing, Gradient Boosting |
| Прогнозирование заказов такси | Обучение моделей для предсказания количества заказов такси на следующий час из аэропорта на основе исторических временных данных | Prophet, LightGBM, HyperOpt, Scikit-learn, Pandas, Numpy, Seaborn, Time Series, EDA, Gradient Boosting, Ensemble, Ridge |
| Анализ тональности комментариев | Поиск модели для оценки тональности комментариев в интернет-магазине из 4 различных типов (Catboost с text_processing, BERT, LGBM, LogReg) с предварительной подготовкой текстов | BERT, Catboost, LightGBM, PyTorch, NLTK, Spacy, HyperOpt, Scikit-learn Pandas, Seaborn, Phik, NLP, EDA, Transformers |
| Определение возраста покупателей по фотографии | Создание модели для определения возраста покупателей по фотографии на основе сверточной нейросети InceptionResNetV2 с метрикой (5.463) близкой к исследовательской статье (5.4) | TensorFlow, Keras, Pandas, Numpy, Seaborn/Matplotlib, Scipy, Computer Vision, EDA, CNN |
| Поиск по изображениям | Разработка модели по поиску изображения по текстовому запросу для фотохостинга на основе BERT и ViT. Дополнительно обучение CLIP для повышения метрики под требования заказчика | Tensorflow, Transformers, BERT, ViT, CLIP, Spacy, Scikit-learn, Pandas, Numpy, NLP, CV, CNN, Transformers, EDA, CUDA |
| Предсказание температуры расплава стали | Выпускной проект. Исследование процесса и данных плавки стали. Создание модели по прогнозированию температуры стали для оптимизации процессов с использованием стекинга TabNet и CatBoost и сравнением с другими моделями | PyTorch-Tabnet, SQLAlchemy, CatBoost, LightGBM, Scikit-learn, HyperOpt, SHAP, Phik, Pandas, Numpy, Seaborn/Matplotlib, Stecking, Neural Net, Gradient Boosting, LinReg, EDA |
