Skip to content

apopodko/Yandex.Praktikum-DS-Projects

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

163 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Yandex.Praktikum Data Science Projects

68747470733a2f2f6d69726f2e6d656469756d2e636f6d2f6d61782f313430302f302a75565030577745574f747048733430452e706e67

Репозиторий с портфолио проектов, выполненных во время обучения в Яндекс Практикуме по программе «Специалист по Data Science. Расширенный»

Проект Описание Ключевые библиотеки и навыки
Исследование объявлений о продаже квартир На основе данных о недвижимости был проведен исследовательский анализ данных, географиечкие пропуски заполнены с помощью модуля geopy, определены наиболее важные характеристики, влияющие на цену недвижимости Pandas, Numpy, Geopy, Seaborn, Matplotlib, EDA, Data Viz
Исследование данных о российском кинопрокате Исследование российского рынка кинопроката, трендов, режиссеров, рейтингов и экономических факторов фильмов в группах с господдержкой и без Pandas, Numpy, Seaborn, Matplotlib, EDA, Data Viz
Статистический анализ данных сервиса проката самокатов GoFast Анализ данных сервиса проката самокатов, проверка статистических гипотез, полезных для сервиса, составление рекомендаций для сервиса на основе проделанной работы, исопльзование линейной регрессии для правки выбросов Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, Scipy, EDA, Statistical hypothesis tests, Data Viz
Модель для снижения рисков хозяйства при покупке коров Создание моделей для прогнозирования удоя и оценки рисков при приобретении скота, на основе исследованных данных о фермерском хозяйстве Scikit-learn, Phik, Pandas, Scipy, Seaborn/Matplotlib, ML, EDA, Statistics, Data Viz, Linear/Logistic Regression, CV
Персонализация предложений интернет-магазина "В один клик" Построение 4 моделей с подбором гиперпараметров по предсказанию покупательской активности и выбор лучшей с помощью Optuna для персонализации предложений клиентам Optuna, Scikit-learn, SHAP, Pandas, Numpy, Phik, Seaborn/Matplotlib, ML, Statistics, Logistic Regression, Decision Tree, SVC, CV
Прогнозирование уровня удовлетворенности и вероятности увольнения сотрудника для HR-Аналитики Создание моделей по предсказанию уровня удовлетворенности и вероятности увольнения сотрудника по запросу HR-отдела. Выбор лучших из 4 классов моделей МО с побором гиперпараметров в каждой группе проводился с помощью Optuna LightGBM, Optuna, Scikit-learn, Phik, SHAP, Pandas, Seaborn, EDA, ML, Gradient Boosting, Linear Regression, Decision Tree, SVM, CV
Выбор локации для скважины Выбор скважины по оценке ее прибыльности и рисков с помощью Bootstrap. Для предсказания запасов нефти на основе признаков были созданы модели линейной регрессии на каждый регион Pandas, Numpy, Scikit-learn, Seaborn/Matplotlib, SciPy, Phik, Bootstrap, Linear Regression, EDA
Предсказание статуса деятельности стартапа Проектная работа для мастерской в результате которой были исследованы данные о деятельности стартапов и был создан пул моделей по предсказанию деятельности стартапов с последующим выбором лучшей CatBoost, LightGBM, Scikit-learn, SciPy, Optuna, Pandas, Numpy, Seaborn, Phik, SHAP, EDA, Gradient Boosting, LogReg, Model Calibration
Предсказание стоимости жилья в Калифорнии Исследование больших данных с помощью pySpark рынка жилья в Калифорнии с использованием кластеризации для разбиения на районы с последующим созданием моделей предсказания стоимости объектов pySpark, Pandas, Seaborn, Histogrammar, Phik, Clusterization, Large Scale Data Analysis, Spark, Linear Regression, ParamGrid
Предсказание стоимости автомобилей Прогнозирование стоимости автомобиля на основе различных технических характеристик посредством создания 5 моделей различных классов МО с подбором гиперпараметров и выбором лучшей из них CatBoost, LightGBM, Scikit-learn, Pandas, Geopy, Seaborn, Phik, Gradient Boosting, Ensemble, Linear Regression, Decision Tree
Предсказание активности покупателей Исследование данных интернет-магазина о покупателях и их покупках, маркетинговых кампаний с последующим созданием модели предсказания покупательской активности и предложениями для маркетингового отдела LightGBM, Scikit-learn, HyperOpt, SciPy, SHAP, Phik, Pandas, Numpy, Seaborn, Gradient Boosting, LogReg, Model Calibration, EDA
Прогнозирование температуры звезды Подбор модели на основе 2-слойных полносвязных нейронных сетей для предсказания температуры звезды по спектральным, цветом и световым характеристикам. Построение диаграммы Герцшпрунга-Рассела PyTorch, HyperOpt, Phik, Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, FCNN, HyperParameter Optimization, EDA
Предсказание ДТП Исследование основных факторов ДТП, работа с SQL базой данных проишествий, создание гипотез и постановка задач для исследования, а также создание модели для оценки вероятности ДТП SQLAlchemy, LightGBM, HyperOpt, Scikit-learn, SHAP, Phik, SciPy, Pandas, Seaborn, SQL, Hypothesis developing, Gradient Boosting
Прогнозирование заказов такси Обучение моделей для предсказания количества заказов такси на следующий час из аэропорта на основе исторических временных данных Prophet, LightGBM, HyperOpt, Scikit-learn, Pandas, Numpy, Seaborn, Time Series, EDA, Gradient Boosting, Ensemble, Ridge
Анализ тональности комментариев Поиск модели для оценки тональности комментариев в интернет-магазине из 4 различных типов (Catboost с text_processing, BERT, LGBM, LogReg) с предварительной подготовкой текстов BERT, Catboost, LightGBM, PyTorch, NLTK, Spacy, HyperOpt, Scikit-learn Pandas, Seaborn, Phik, NLP, EDA, Transformers
Определение возраста покупателей по фотографии Создание модели для определения возраста покупателей по фотографии на основе сверточной нейросети InceptionResNetV2 с метрикой (5.463) близкой к исследовательской статье (5.4) TensorFlow, Keras, Pandas, Numpy, Seaborn/Matplotlib, Scipy, Computer Vision, EDA, CNN
Поиск по изображениям Разработка модели по поиску изображения по текстовому запросу для фотохостинга на основе BERT и ViT. Дополнительно обучение CLIP для повышения метрики под требования заказчика Tensorflow, Transformers, BERT, ViT, CLIP, Spacy, Scikit-learn, Pandas, Numpy, NLP, CV, CNN, Transformers, EDA, CUDA
Предсказание температуры расплава стали Выпускной проект. Исследование процесса и данных плавки стали. Создание модели по прогнозированию температуры стали для оптимизации процессов с использованием стекинга TabNet и CatBoost и сравнением с другими моделями PyTorch-Tabnet, SQLAlchemy, CatBoost, LightGBM, Scikit-learn, HyperOpt, SHAP, Phik, Pandas, Numpy, Seaborn/Matplotlib, Stecking, Neural Net, Gradient Boosting, LinReg, EDA

About

Carried out Data Science projects during Yandex Praktikum learning program

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors