Data Science
специалист

Специалист в области Data Science, анализа данных и системной интеграции с опытом в разработке систем моделей для прогнозирования, анализе бизнес-процессов и работе с базами данных.

Проекты

Реализованные и текущие проекты в области Data Science, машинного обучения и анализа данных

Система прогнозирования цен на индейку

Завершен

Создание системы прогнозирования цен на индейку с использованием ансамбля моделей машинного обучения.

Pythonpandasscikit-learn+3

Описание:

  • Разработана система прогнозирования на основе ансамбля моделей машинного обучения
  • Реализована обработка исторических данных и новых поступающих данных
  • Создан механизм генерации прогноза на 52 недели вперед
  • Автоматизирована установка и запуск проекта через batch-скрипты
  • Добавлено подробное логирование и генерация отчетов
  • Реализована автоматическая замена пропусков
  • Проверка и автоустановка программ и библеотек необходимых для работы скрипта

Результаты:

  • Достигнут коэффициент детерминации R² = 0.9997
  • Средняя абсолютная ошибка MAE < 0.74
  • Создан полностью автоматизированный процесс развертывания, обучения и прогнозирования

Анализ индекса счастья в Болгарии (2015-2023)

Завершен

Исследование взаимосвязи между индексом счастья и различными социально-экономическими факторами в Болгарии.

Pythonpandasmatplotlib+2

Описание:

  • Проведен корреляционный анализ между индексом счастья и различными показателями
  • Построена множественная регрессионная модель
  • Выполнен анализ временных рядов для выявления устойчивых тенденций
  • Разработаны рекомендации

Результаты:

  • Выявлена сильная корреляция между политической стабильностью и индексом счастья
  • Подтверждена взаимосвязь между ВВП на душу населения и индексом счастья
  • Обнаружена значимая связь между социальной поддержкой и индексом счастья
  • Предложены конкретные рекомендации по улучшению социально-экономической политики

Прогнозирование банковских транзакций

Завершен

Разработка системы прогнозирования еженедельных сумм переводов со счетов юридических лиц клиентов банка другим юридическим лицам с высокой точностью (RMSLE < 1,47).

Pythonpandasnumpy+4

Описание:

  • Анализ и предобработка массивного набора данных (>200 млн транзакций)
  • Разработка системы генерации признаков на основе банковских транзакций
  • Построение ансамбля моделей машинного обучения для временных рядов
  • Оптимизация алгоритмов для работы с большими объемами данных
  • Создание метрик для валидации точности прогнозирования

Результаты:

  • Создана модель с метрикой RMSLE ниже 1,47 (усредненной по клиентам)
  • Разработан алгоритм, способный обрабатывать данные по более чем 50 000 клиентов
  • Реализована автоматизированная система прогнозирования с предсказанием на 12 недель вперед

Система сквозной аналитики

В разработке

Разработка структуры для масштабирования и интеграции различных источников данных.

Системный анализпроектирование архитектуры

Описание:

  • Создание полной структуры системы
  • Планирование этапов масштабирования
  • Разработка документации по внедрению

Обработка и анализ текстовых данных

Завершен

Разработка системы для анализа текстовых данных.

Pythonобработка текстов

Описание:

  • Реализация алгоритмов обработки текста
  • Создание механизмов извлечения информации из текстовых документов
  • Построение инструментов для аналитической работы с текстом

Кредитный скоринг

Завершен

Разработка модели оценки кредитоспособности клиентов на основе их персональных данных.

Pythonpandasscikit-learn+2

Описание:

  • Проведен анализ параметров, влияющих на кредитоспособность клиентов
  • Выполнена предобработка и очистка данных кредитной истории
  • Построены и сравнены различные модели машинного обучения для прогнозирования
  • Проведена оптимизация гиперпараметров моделей

Результаты:

  • Создана модель с высокой точностью предсказания кредитного риска
  • Выявлены ключевые факторы, влияющие на кредитоспособность
  • Разработан инструмент для автоматической оценки новых клиентов

Навыки и компетенции

Технические и бизнес-навыки, которые помогают мне решать сложные задачи в области Data Science и анализа данных

Технические навыки

Python90%
Pandas95%
NumPy90%
Scikit-Learn85%
CatBoost80%
Matplotlib85%
SQL80%
Jupyter Notebook95%
Статистический анализ85%
Машинное обучение85%
Парсинг данных80%
Системная интеграция75%

Бизнес-навыки

Управление проектами75%
Бизнес-аналитика80%
Презентационные навыки85%
Документирование90%
Визуализация данных85%

Инструменты

Excel

Продвинутые навыки работы с Excel, включая анализ данных, формулы и автоматизацию

PowerPoint

Создание профессиональных презентаций с визуализациями и графиками

Jupyter Notebook

Интерактивная среда для анализа данных и документирования результатов

Git

Система контроля версий для управления кодом и командной работы

Pandas

Библиотека для анализа, очистки и подготовки данных в Python

Scikit-learn

Библиотека для машинного обучения с широким набором алгоритмов и инструментов

Навыки работы с SQL

Сложные JOIN запросы

Написание запросов с использованием INNER, LEFT, RIGHT JOIN, GROUP BY, HAVING и тд.

Оконные функции

Работа с оконными функциями (Window Functions) для продвинутого анализа

Обработка данных

Извлечение и форматирование данных с использованием EXTRACT, LOWER, UPPER и других функций

Агрегация данных

Применение агрегатных функций (AVG, SUM, COUNT) для статистического анализа

Фильтрация и сортировка

Эффективная фильтрация и сортировка больших наборов данных

Оптимизация запросов

Повышение производительности запросов с помощью индексов и оптимизации структуры

Инструменты Data Science

TensorFlow

Открытая библиотека для глубокого обучения и нейронных сетей с широкими возможностями

PyTorch

Фреймворк для машинного обучения с гибкой архитектурой и динамическими вычислительными графами

Power BI

Инструмент для визуализации данных и создания интерактивных дашбордов

Tableau

Платформа для анализа и визуализации данных с интуитивным интерфейсом

Apache Spark

Система для распределённой обработки больших данных с высокой производительностью

Plotly

Библиотека для создания интерактивных визуализаций и дашбордов в Python

Дополнительные компетенции

Научно-исследовательская работа

Проведение исследований, анализ научной литературы, разработка и проверка гипотез

Техническая документация

Создание подробной технической документации, инструкций и руководств для пользователей

Презентация результатов

Подготовка и проведение презентаций результатов проектов для различных аудиторий

Работа в условиях неопределенности

Эффективная работа с неполными данными и в условиях быстро меняющихся требований

Самообучение

Непрерывное изучение новых технологий, инструментов и методов для профессионального развития

Обработка текстовых данных

Анализ и обработка неструктурированных текстовых данных, извлечение значимой информации

Аналитические отчеты

Составление комплексных аналитических отчетов с выводами и рекомендациями

Достижения

Ключевые результаты и профессиональные достижения в проектах, демонстрирующие эффективность и практическую ценность

Модель прогнозирования с высокой точностью

Внедрение модели прогнозирования на 52 недели вперед с коэффициентом детерминации R² = 0.99, что позволило оптимизировать ценовую политику и снизить ошибки прогнозирования на 0%

Исследование индекса счастья

Создание и проведение исследования по индексу счастья

Автоматизация процессов сбора данных

Автоматизация процессов сбора и анализа данных с помощью парсеров, что повысило точность данных на 25% и сократило трудозатраты на 0%

Оптимизация бизнес-процессов

Разработка комплексного решения для анализа данных кофеен, что привело к оптимизации бизнес-процессов и увеличению рентабельности на 0%

Система анализа дубликатов

Разработка системы анализа дубликатов, позволившей выявить и устранить критические несоответствия в базе данных, повысив качество данных на 0%

Сервис анализа данных

Разработка системы сквозной аналитики

Модель кредитного скоринга

Разработка модели кредитного скоринга с точностью 85%, что снизило риски невозврата кредитов на 0%