Проекты
Реализованные и текущие проекты в области Data Science, машинного обучения и анализа данных
Система прогнозирования цен на индейку
ЗавершенСоздание системы прогнозирования цен на индейку с использованием ансамбля моделей машинного обучения.
Описание:
- Разработана система прогнозирования на основе ансамбля моделей машинного обучения
- Реализована обработка исторических данных и новых поступающих данных
- Создан механизм генерации прогноза на 52 недели вперед
- Автоматизирована установка и запуск проекта через batch-скрипты
- Добавлено подробное логирование и генерация отчетов
- Реализована автоматическая замена пропусков
- Проверка и автоустановка программ и библеотек необходимых для работы скрипта
Результаты:
- Достигнут коэффициент детерминации R² = 0.9997
- Средняя абсолютная ошибка MAE < 0.74
- Создан полностью автоматизированный процесс развертывания, обучения и прогнозирования
Анализ индекса счастья в Болгарии (2015-2023)
ЗавершенИсследование взаимосвязи между индексом счастья и различными социально-экономическими факторами в Болгарии.
Описание:
- Проведен корреляционный анализ между индексом счастья и различными показателями
- Построена множественная регрессионная модель
- Выполнен анализ временных рядов для выявления устойчивых тенденций
- Разработаны рекомендации
Результаты:
- Выявлена сильная корреляция между политической стабильностью и индексом счастья
- Подтверждена взаимосвязь между ВВП на душу населения и индексом счастья
- Обнаружена значимая связь между социальной поддержкой и индексом счастья
- Предложены конкретные рекомендации по улучшению социально-экономической политики
Прогнозирование банковских транзакций
ЗавершенРазработка системы прогнозирования еженедельных сумм переводов со счетов юридических лиц клиентов банка другим юридическим лицам с высокой точностью (RMSLE < 1,47).
Описание:
- Анализ и предобработка массивного набора данных (>200 млн транзакций)
- Разработка системы генерации признаков на основе банковских транзакций
- Построение ансамбля моделей машинного обучения для временных рядов
- Оптимизация алгоритмов для работы с большими объемами данных
- Создание метрик для валидации точности прогнозирования
Результаты:
- Создана модель с метрикой RMSLE ниже 1,47 (усредненной по клиентам)
- Разработан алгоритм, способный обрабатывать данные по более чем 50 000 клиентов
- Реализована автоматизированная система прогнозирования с предсказанием на 12 недель вперед
Система сквозной аналитики
В разработкеРазработка структуры для масштабирования и интеграции различных источников данных.
Описание:
- Создание полной структуры системы
- Планирование этапов масштабирования
- Разработка документации по внедрению
Обработка и анализ текстовых данных
ЗавершенРазработка системы для анализа текстовых данных.
Описание:
- Реализация алгоритмов обработки текста
- Создание механизмов извлечения информации из текстовых документов
- Построение инструментов для аналитической работы с текстом
Кредитный скоринг
ЗавершенРазработка модели оценки кредитоспособности клиентов на основе их персональных данных.
Описание:
- Проведен анализ параметров, влияющих на кредитоспособность клиентов
- Выполнена предобработка и очистка данных кредитной истории
- Построены и сравнены различные модели машинного обучения для прогнозирования
- Проведена оптимизация гиперпараметров моделей
Результаты:
- Создана модель с высокой точностью предсказания кредитного риска
- Выявлены ключевые факторы, влияющие на кредитоспособность
- Разработан инструмент для автоматической оценки новых клиентов
Навыки и компетенции
Технические и бизнес-навыки, которые помогают мне решать сложные задачи в области Data Science и анализа данных
Технические навыки
Бизнес-навыки
Инструменты
Excel
Продвинутые навыки работы с Excel, включая анализ данных, формулы и автоматизацию
PowerPoint
Создание профессиональных презентаций с визуализациями и графиками
Jupyter Notebook
Интерактивная среда для анализа данных и документирования результатов
Git
Система контроля версий для управления кодом и командной работы
Pandas
Библиотека для анализа, очистки и подготовки данных в Python
Scikit-learn
Библиотека для машинного обучения с широким набором алгоритмов и инструментов
Навыки работы с SQL
Сложные JOIN запросы
Написание запросов с использованием INNER, LEFT, RIGHT JOIN, GROUP BY, HAVING и тд.
Оконные функции
Работа с оконными функциями (Window Functions) для продвинутого анализа
Обработка данных
Извлечение и форматирование данных с использованием EXTRACT, LOWER, UPPER и других функций
Агрегация данных
Применение агрегатных функций (AVG, SUM, COUNT) для статистического анализа
Фильтрация и сортировка
Эффективная фильтрация и сортировка больших наборов данных
Оптимизация запросов
Повышение производительности запросов с помощью индексов и оптимизации структуры
Инструменты Data Science
TensorFlow
Открытая библиотека для глубокого обучения и нейронных сетей с широкими возможностями
PyTorch
Фреймворк для машинного обучения с гибкой архитектурой и динамическими вычислительными графами
Power BI
Инструмент для визуализации данных и создания интерактивных дашбордов
Tableau
Платформа для анализа и визуализации данных с интуитивным интерфейсом
Apache Spark
Система для распределённой обработки больших данных с высокой производительностью
Plotly
Библиотека для создания интерактивных визуализаций и дашбордов в Python
Дополнительные компетенции
Научно-исследовательская работа
Проведение исследований, анализ научной литературы, разработка и проверка гипотез
Техническая документация
Создание подробной технической документации, инструкций и руководств для пользователей
Презентация результатов
Подготовка и проведение презентаций результатов проектов для различных аудиторий
Работа в условиях неопределенности
Эффективная работа с неполными данными и в условиях быстро меняющихся требований
Самообучение
Непрерывное изучение новых технологий, инструментов и методов для профессионального развития
Обработка текстовых данных
Анализ и обработка неструктурированных текстовых данных, извлечение значимой информации
Аналитические отчеты
Составление комплексных аналитических отчетов с выводами и рекомендациями
Достижения
Ключевые результаты и профессиональные достижения в проектах, демонстрирующие эффективность и практическую ценность
Модель прогнозирования с высокой точностью
Внедрение модели прогнозирования на 52 недели вперед с коэффициентом детерминации R² = 0.99, что позволило оптимизировать ценовую политику и снизить ошибки прогнозирования на 0%
Исследование индекса счастья
Создание и проведение исследования по индексу счастья
Автоматизация процессов сбора данных
Автоматизация процессов сбора и анализа данных с помощью парсеров, что повысило точность данных на 25% и сократило трудозатраты на 0%
Оптимизация бизнес-процессов
Разработка комплексного решения для анализа данных кофеен, что привело к оптимизации бизнес-процессов и увеличению рентабельности на 0%
Система анализа дубликатов
Разработка системы анализа дубликатов, позволившей выявить и устранить критические несоответствия в базе данных, повысив качество данных на 0%
Сервис анализа данных
Разработка системы сквозной аналитики
Модель кредитного скоринга
Разработка модели кредитного скоринга с точностью 85%, что снизило риски невозврата кредитов на 0%