Yandex.Praktikum Data Science Projects

Репозиторий с портфолио проектов, выполненных во время обучения в Яндекс Практикуме по программе «Специалист по Data Science. Расширенный»

Проект	Описание	Ключевые библиотеки и навыки
Исследование объявлений о продаже квартир	На основе данных о недвижимости был проведен исследовательский анализ данных, географиечкие пропуски заполнены с помощью модуля geopy, определены наиболее важные характеристики, влияющие на цену недвижимости	Pandas, Numpy, Geopy, Seaborn, Matplotlib, EDA, Data Viz
Исследование данных о российском кинопрокате	Исследование российского рынка кинопроката, трендов, режиссеров, рейтингов и экономических факторов фильмов в группах с господдержкой и без	Pandas, Numpy, Seaborn, Matplotlib, EDA, Data Viz
Статистический анализ данных сервиса проката самокатов GoFast	Анализ данных сервиса проката самокатов, проверка статистических гипотез, полезных для сервиса, составление рекомендаций для сервиса на основе проделанной работы, исопльзование линейной регрессии для правки выбросов	Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, Scipy, EDA, Statistical hypothesis tests, Data Viz
Модель для снижения рисков хозяйства при покупке коров	Создание моделей для прогнозирования удоя и оценки рисков при приобретении скота, на основе исследованных данных о фермерском хозяйстве	Scikit-learn, Phik, Pandas, Scipy, Seaborn/Matplotlib, ML, EDA, Statistics, Data Viz, Linear/Logistic Regression, CV
Персонализация предложений интернет-магазина "В один клик"	Построение 4 моделей с подбором гиперпараметров по предсказанию покупательской активности и выбор лучшей с помощью Optuna для персонализации предложений клиентам	Optuna, Scikit-learn, SHAP, Pandas, Numpy, Phik, Seaborn/Matplotlib, ML, Statistics, Logistic Regression, Decision Tree, SVC, CV
Прогнозирование уровня удовлетворенности и вероятности увольнения сотрудника для HR-Аналитики	Создание моделей по предсказанию уровня удовлетворенности и вероятности увольнения сотрудника по запросу HR-отдела. Выбор лучших из 4 классов моделей МО с побором гиперпараметров в каждой группе проводился с помощью Optuna	LightGBM, Optuna, Scikit-learn, Phik, SHAP, Pandas, Seaborn, EDA, ML, Gradient Boosting, Linear Regression, Decision Tree, SVM, CV
Выбор локации для скважины	Выбор скважины по оценке ее прибыльности и рисков с помощью Bootstrap. Для предсказания запасов нефти на основе признаков были созданы модели линейной регрессии на каждый регион	Pandas, Numpy, Scikit-learn, Seaborn/Matplotlib, SciPy, Phik, Bootstrap, Linear Regression, EDA
Предсказание статуса деятельности стартапа	Проектная работа для мастерской в результате которой были исследованы данные о деятельности стартапов и был создан пул моделей по предсказанию деятельности стартапов с последующим выбором лучшей	CatBoost, LightGBM, Scikit-learn, SciPy, Optuna, Pandas, Numpy, Seaborn, Phik, SHAP, EDA, Gradient Boosting, LogReg, Model Calibration
Предсказание стоимости жилья в Калифорнии	Исследование больших данных с помощью pySpark рынка жилья в Калифорнии с использованием кластеризации для разбиения на районы с последующим созданием моделей предсказания стоимости объектов	pySpark, Pandas, Seaborn, Histogrammar, Phik, Clusterization, Large Scale Data Analysis, Spark, Linear Regression, ParamGrid
Предсказание стоимости автомобилей	Прогнозирование стоимости автомобиля на основе различных технических характеристик посредством создания 5 моделей различных классов МО с подбором гиперпараметров и выбором лучшей из них	CatBoost, LightGBM, Scikit-learn, Pandas, Geopy, Seaborn, Phik, Gradient Boosting, Ensemble, Linear Regression, Decision Tree
Предсказание активности покупателей	Исследование данных интернет-магазина о покупателях и их покупках, маркетинговых кампаний с последующим созданием модели предсказания покупательской активности и предложениями для маркетингового отдела	LightGBM, Scikit-learn, HyperOpt, SciPy, SHAP, Phik, Pandas, Numpy, Seaborn, Gradient Boosting, LogReg, Model Calibration, EDA
Прогнозирование температуры звезды	Подбор модели на основе 2-слойных полносвязных нейронных сетей для предсказания температуры звезды по спектральным, цветом и световым характеристикам. Построение диаграммы Герцшпрунга-Рассела	PyTorch, HyperOpt, Phik, Pandas, Numpy, Seaborn/Matplotlib, Scikit-learn, FCNN, HyperParameter Optimization, EDA
Предсказание ДТП	Исследование основных факторов ДТП, работа с SQL базой данных проишествий, создание гипотез и постановка задач для исследования, а также создание модели для оценки вероятности ДТП	SQLAlchemy, LightGBM, HyperOpt, Scikit-learn, SHAP, Phik, SciPy, Pandas, Seaborn, SQL, Hypothesis developing, Gradient Boosting
Прогнозирование заказов такси	Обучение моделей для предсказания количества заказов такси на следующий час из аэропорта на основе исторических временных данных	Prophet, LightGBM, HyperOpt, Scikit-learn, Pandas, Numpy, Seaborn, Time Series, EDA, Gradient Boosting, Ensemble, Ridge
Анализ тональности комментариев	Поиск модели для оценки тональности комментариев в интернет-магазине из 4 различных типов (Catboost с text_processing, BERT, LGBM, LogReg) с предварительной подготовкой текстов	BERT, Catboost, LightGBM, PyTorch, NLTK, Spacy, HyperOpt, Scikit-learn Pandas, Seaborn, Phik, NLP, EDA, Transformers
Определение возраста покупателей по фотографии	Создание модели для определения возраста покупателей по фотографии на основе сверточной нейросети InceptionResNetV2 с метрикой (5.463) близкой к исследовательской статье (5.4)	TensorFlow, Keras, Pandas, Numpy, Seaborn/Matplotlib, Scipy, Computer Vision, EDA, CNN
Поиск по изображениям	Разработка модели по поиску изображения по текстовому запросу для фотохостинга на основе BERT и ViT. Дополнительно обучение CLIP для повышения метрики под требования заказчика	Tensorflow, Transformers, BERT, ViT, CLIP, Spacy, Scikit-learn, Pandas, Numpy, NLP, CV, CNN, Transformers, EDA, CUDA
Предсказание температуры расплава стали	Выпускной проект. Исследование процесса и данных плавки стали. Создание модели по прогнозированию температуры стали для оптимизации процессов с использованием стекинга TabNet и CatBoost и сравнением с другими моделями	PyTorch-Tabnet, SQLAlchemy, CatBoost, LightGBM, Scikit-learn, HyperOpt, SHAP, Phik, Pandas, Numpy, Seaborn/Matplotlib, Stecking, Neural Net, Gradient Boosting, LinReg, EDA

Name		Name	Last commit message	Last commit date
Latest commit History 163 Commits
01.Real Estate Listings Research		01.Real Estate Listings Research
02.Russian Film Distribution		02.Russian Film Distribution
03.Scooter Rental Research		03.Scooter Rental Research
04.Farm Purchasing Research		04.Farm Purchasing Research
05.Internet Store Marketing		05.Internet Store Marketing
06.HR-analytics		06.HR-analytics
07.Oil Well Profitability		07.Oil Well Profitability
08.California House Market		08.California House Market
09.Car Pricing		09.Car Pricing
10.Star Temperature Prediction		10.Star Temperature Prediction
11.Car Crash Prediction		11.Car Crash Prediction
12.Taxi Order Prediction		12.Taxi Order Prediction
13.Sentiment Analysis		13.Sentiment Analysis
14.Age Prediction		14.Age Prediction
15.Text-to-image search		15.Text-to-image search
16.Steel Temperature Prediction		16.Steel Temperature Prediction
Workshop 1.Startup Status Prediction		Workshop 1.Startup Status Prediction
Workshop 2.Customer Activity Prediction		Workshop 2.Customer Activity Prediction
Diploma_ENG.pdf		Diploma_ENG.pdf
LICENSE		LICENSE
README.md		README.md
Диплом_RU.pdf		Диплом_RU.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Yandex.Praktikum Data Science Projects

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Yandex.Praktikum Data Science Projects

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages