Привет! Меня зовут

Юрий Кацер

Эксперт по анализу данных и машинному обучению в задачах промышленности. Люблю хакатоны, саморазвитие, фильмы и спорт.

Работаю

Руководитель DS команды

Более 6 лет занимаюсь анализом промышленных данных и решением бизнес проблем с помощью ML

Занимаюсь наукой

Выпускник аспирантуры Сколтеха

Публикую статьи в Scopus, выступаю на научных конференциях, создаю open-source датасеты и библиотеки на GitHub

Пишу, учу и выступаю

Автор тг-канала @datakatser

Также веду блоги на хабре, медиуме и vc, выступаю на DS конференциях, преподаю, побеждаю на хакатонах

Профессиональные навыки и умения

Машинное обучение
  • sklearn, NumPy, SciPy, Pandas
  • Keras, PyTorch, AutoML (TPot)
  • xgboost, catboost, sktime, tsfresh
  • python, pep8
  • MlOps и Dev
  • Git, включая GitFlow
  • MLFlow, DVC
  • Streamlit, Grafana
  • Управление ML проектами
  • LeanDS, Kanban, agile
  • CRISP-DM, TDSP
  • Выстраивание DS-процессов с нуля
  • Значимые курсы
  • Skoltech (DL, ML, SFW)
  • LeanDS, ML REPA School
  • Coursera (Intro to ML, Intro to Linux, Databases)
  • Soft skills
  • Ведение DS проектов
  • Общение с заказчиками
  • Постановка задач
  • Представление результатов
  • Знание языков
  • Русский: родной
  • Английский: upper-intermediate
  • Немецкий: со словарем
  • Опыт работы

    Conundrum.ai

    Lead DS | 06.2023 - н.в.


    Полюс

    Старший эксперт по анализу данных | 09.2022 - 03.2023


    Отдел ИИ, Цифрум (Росатом)

    Руководитель направления ПА (Lead DS) | 09.2019 - 09.2022

    Активности и достижения

    Победитель и призер 13+ промышленных конкурсов и хакатонов
  • Цифровой прорыв (2019) полуфинал (регион - мск) - 1 место
  • Цифровой прорыв (2019) финал - 1 место
  • VirusHack (2020) - 3 место
  • Цифровой форсаж атомных городов (2020) - 2 место
  • AC-VO&PPR hackathon (2020) - 3 место
  • Datamasters World AI&Data Challenge АСИ (2020) - 2 место
  • HackAtom (2021) - 1 место
  • Цифровой прорыв (2021) ENERGOMACH - 1 место
  • Хакатон по ИИ в Санкт-Петербурге (2021) кейс Минпромторга «Доступные лекарства для всех» - 1 место
  • Evraz AI Challenge (2021) Продуйте металл через Data Science - 3 место (Пост на Хабр)
  • Конкурс Росатома (КРЭА) по предиктивной аналитике турбогенератора (2019)
  • Хакатон ЛЦТ (2023) кейс Северстали «Модель раннего обнаружения неисправностей промышленного оборудования» - 2 место
  • и др.
  • Жюри, эксперт и постановщик кейсов на хакатонах и конкурсах
  • Цифровой прорыв (2020, 2021) - 4 кейса Росатома
  • CASE-IN (2020-2022)
  • AtomProfi (2021)
  • Всероссийский инженерный конкурс (ВИК) (2022)

  • Обладатель 6 грантов в области анализа промышленных данных и технической диагностики (2017-2023)
  • "Умник" ФСИ по теме "Разработка модели предсказания неисправностей оборудования АЭС" (2018-2020)
  • "Старт" ФСИ по теме "Разработка прототипа веб-сервиса (платформы) для обработки данных с дефектоскопа, с возможностью подключения программных модулей, основанных на алгоритмах искуственного интеллекта" (2020-2021)
  • Участие еще в 4 грантах

  • Сооснователь waico.tech - команды аутсорс разработки в области анализа данных и машинного обучения в промышленности. Прошли акселераторы GenerationS, RUSSOL, ГПН, АСИ, ЦП и др. Занимаемся созданием и развитием ИИ в промышленности.

    Создание Open-source библиотек и датасетов (суммарно 350+ звезд). Некоторые из них:

    Star SKAB - Skoltech Anomaly Benchmark, датасет для оценки задачи обнаружения аномалий во временных рядах

    Star TSAD - Time Series Anomaly detection, библиотека для прогнозирования и поиска аномалий во временных рядах

    Star CPDE - change point detection ensembles, дополнение к библиотеке ruptures

    Star A review of repositories classified by a specific industrial problem with cases of applying ML in industry


    Занимаюсь научной деятельностью: публикуюсь в журналах и выступаю на конференциях
  • Google scholar | Researchgate
  • Ключевые публичные выступления

    Homo science. Молодые ученые России. Эксперт по ИИ Юрий Кацер

    В рубрике «Молодой ученый» я рассказываю, почему машинное обучение и анализ данных нужны везде, почему нужен work-life balance, и какую роль в жизни играет спорт.

    AIJourney 2021. Мониторинг технического состояния электролизеров

    На одном из предприятий Росатома мы создали модели раннего обнаружения аномалий в работе электролизеров. Решение позволяет не только увеличить межремонтный интервал электролизеров, но и вовремя предотвращать внеплановые выходы из строя.

    Пресс-релиз

    DataFest 2023. SKAB и другие open-source бенчмарки для задач обнаружения аномалий в промышленных временных рядах

    Я рассказал о задаче поиска аномалий, существующих инструментах и открытых данных, которые могут использоваться в качестве бенчмарков двух основных задач: бинарной классификации и поиск точек изменения состояния, а также о новом бенчмарке SKAB.

    GitHub репозиторий проекта

    Образовательный форум МФТИ олимпиады "Я — профессионал". Поиск аномалий в промышленных данных

    В докладе рассмотрены следующие вопросы:

  • Что такое промышленные данные?
  • Что такое поиск аномалий?
  • Методы обнаружения аномалий
  • Вебинар "Машинное обучение в бизнесе и производстве". Опыт проектов с ИИ в промышленности

    В докладе затронуты вопросы постановки задач, оценки потенциальных эффектов, анализа исторических данных, проведения тестирования и пилотных испытания решения в промышленности.

    PyCon Russia 2022. Поиск точек изменения состояния (changepoint detection) на python

    В докладе подробно рассмотрена задача changepoint detection, методы для обнаружения точек изменения состояния, библиотеки на python, с помощью которых можно решать эту задачу.

    Детали

    CrossConf 2022. Проблемы в промышленных данных с точки зрения дата сайентиста

    Цель доклада – обзор существующих проблем в промышленных данных, их характеристика и описание методов борьбы с обозначенными проблемами. Доклад в первую очередь полезен для специалистов по анализу данных, решающих задачи в промышленности.

    ИИшница. Задача определения остаточного ресурса оборудования

    В докладе разбирается одна из важнейших задач - определение остаточного ресурса (RUL, TTF) оборудования, описываются подходы к решению задачи, а также приводятся реальные кейсы решения данной задачи в различных отраслях промышленности.

    Лонгриды

    Обзор метрик обнаружения аномалий (плюс много дополнительной информации)
    Все, что вы хотели знать о задаче определения остаточного ресурса оборудования
    Проблемы качества промышленных данных (временных рядов)

    Реализованные проекты

    (неполный список)
    Сбор данных, разметка и создание публичного бенчмарка (SKAB - Skoltech Anomaly Benchmark) для обнаружения аномалий во временных рядах
  • Данные: временные ряды - технологические параметры работы оборудования
  • Созданные артефакты: репозиторий с датасетами, ноутбуками с методами обнаружения аномалий (бейзлайны), научная статья
  • Результаты: 230+ звезд на гитхабе, 30+ цитирований, выступление на OpenTalks.ai 2022, DataFest 2023, научная статья
  • Стэк: python3, sklearn, numpy, pandas, keras | tex, git, trello, jupyter
  • Роль: DS/PM
  • Год: 2020-2023

  • Создание модели мониторинга технического состояния электролизеров и обнаружения аномалий (анодное, катодное давление)
  • Данные: временные ряды - технологические параметры работы оборудования, журналы ТОиР
  • Созданные артефакты: EDA, ноутбуки с результатами проверки гипотез, серриализованная модель, код для инференса пайплайна
  • Результаты: F1=0.52, статья, доклад на AI journey 2021, отчетная, проектная документация
  • Стэк: python3, keras, sklearn, pandas, numpy | git, jira, jupyter, pycharm
  • Роль: Team lead
  • Год: 2020-2021

  • Повышение качества вибродиагностики за счет выделения режимов работы по данным АСУ ТП
  • Данные: 1000+ временных рядов - технологические параметры работы оборудования
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, проектная и отчетная документация
  • Результаты: около 100 наборов данных, где снижение размера доверительного интервала было на 40% и более
  • Стэк: python3, pandas, sklearn, reptures | git, trello, jupyter
  • Роль: Team lead
  • Год: 2021

  • Обнаружение аномалий и определение остаточного ресурса трансформаторов АЭС
  • Данные: временные ряды - сигналы датчиков газов в масле, данные об аномалиях и данные об остаточном ресурсе оборудования
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, модели, вкеб-приложение, отчетная презентация
  • Результаты: Anomaly detection: Weighted F1=0.97, RUL: RMSE=27 дней, научные статьи (tba), статья на медиум
  • Стэк: python3, pandas, sklearn, catboost, keras, tsfresh, shap | git, trello, jupyter, streamlit
  • Роль: Team lead
  • Год: 2021

  • Создание модели корректировки значений для повышения точности показаний датчиков на производстве
  • Данные: данные АСУ ТП, данные лаборатории
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, отчетная презентация
  • Результаты: снижение ошибки между данными АСУ ТП и данными лаборатории на 40% до удовлетворительного уровня
  • Стэк: python3, pandas, sklearn, catboost, tsfresh, shap | git, trello, jupyter
  • Роль: Team lead
  • Год: 2021

  • Прогноз качества конечной продукции (плотность, прочность на сжатие/разрыв) по данным тех процесса и определение влияющих факторов
  • Данные: около тысячи образцов: данные по качеству из лаборатории и временные ряды - сигналы с контроллеров и датчиков, характеризующие процесс производства продукции
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, отчетная презентация
  • Результаты: гипотеза частично подтверждена (плотность и прочность на сжатие)
  • Стэк: python3, pandas, sklearn, catboost, tsfresh, shap | git, trello, jupyter
  • Роль: DS/PM
  • Год: 2021

  • Предиктивная аналитика на МСЗ: Разработка алгоритмов поиска аномалий в работе оборудования для процесса получения ядерного топлива
  • Данные: временные ряды - технологические параметры работы оборудования, журналы ТОиР
  • Созданные артефакты: EDA, ноутбуки с результатами проверки гипотез, серриализованная модель процесса на основе LSTM-based NN, код для инференса пайплайна
  • Результаты: прототип системы предиктивной аналитики с алгоритмами обнаружения аномалий для различных типов оборудования, статья, научный доклад (tba), доклад на AI journey 2020, отчетная, проектная документация
  • Стэк: python3, keras, sklearn, pandas, numpy | git, jira, MLFlow, jupyter, pycharm
  • Роль: Team lead
  • Год: 2020-2021

  • Разработка модели прогноза температуры металла на установке печь-ковш (УПК)
  • Данные: данные плавки, значения датчиков
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, модель, веб-приложение, отчетная презентация
  • Результаты: прогноз температуры (MAPE~5%, RMSE~8°C), значимые факторы
  • Стэк: python3, pandas, sklearn, xgboost, tsfresh, shap | git, trello, jupyter, streamlit
  • Роль: Team lead
  • Год: 2020

  • Определение остаточного ресурса гильз кристаллизатора МНЛЗ и выявление влияющих факторов
  • Данные: данные плавки, технологические параметры установки, оценка остаточного ресурса гильз
  • Созданные артефакты: EDA, ноутбук с результатами проверки гипотез, модель, веб-приложение, отчетная презентация
  • Результаты: оценка количества плавок до замены гильзы, значимые факторы, статья на медиум, потенциальный экономический эффект $500k/год
  • Стэк: python3, pandas, sklearn, xgboost, tsfresh, shap | git, trello, jupyter, streamlit
  • Роль: Team lead
  • Год: 2020

  • Создание алгоритма обнаружения аномалий турбогенераторов АЭС на основе ансамбля offline changepoint detection procedures и выход на коренные причины
  • Данные: теплотехнические, вибрационные, электрические параметры агрегатов (200+ сигналов)
  • Созданные артефакты: EDA, preprocessing pipeline (очистка, генерация признаков на основе физики, отбор признаков, снижение размерностей), алгоритм обнаружения аномалий, алгоритм прогнозирования временных рядов на основе Holt-Winters.
  • Результаты: победа в предпилотных исследованиях Росатома
  • Стэк: Python3, sklearn, pandas, scipy, ruptures | git, trello, jupyter
  • Роль: DS
  • Год: 2019

  • Диагностика нефтяных трубопроводов с помощью машинного обучения (детекция и локализация дефекта, определение толщины стенки трубопровода)
  • Данные: магнитограммы с внутритрубных дефектоскопов (48 датчиков)
  • Созданные артефакты: EDA, код для автоматизированной разметки, preprocessing pipeline, регрессионная модель определения толщины стенки, серриализованная CNN для классификации участка трубопровода и класс для инференса в приложении
  • Результаты: 95% точность обнаружения дефектов на сбалансированной выборке, модель интегрирована в систему диагностики труб, MAPE=5% для модели обнаружения толщины стенки, научная статья, получение и реализация гранта "Старт"
  • Стэк: Python3, pandas, xgboost, numpy, scipy, sklearn, PyTorch | tex, git, trello, jupyter
  • Роль: разработчик/DS/PM
  • Год: 2018-2019

  • Разработка open-source библиотеки ControlCharts на python
  • Созданные артефакты: GitHub репозиторий, python package на PyPi, документация на sphinx и readthedocs, примеры использования библиотеки для поиска аномалий
  • Статья: python3, pandas, sklearn, numpy, scipy | sphinx, tex, git, jupyter, pycharm
  • Стэк: Katser, I., V. Kozitsin, and I. Maksimov. "NPP Equipment Fault Detection Methods." Izvestiya vuzov. Yadernaya Energetika 4 (2019): 5-27.
  • Роль: разработчик/DS
  • Год: 2019-2023

  • НИОКР по обзору и имплементации из научных статей алгоритмов обнаружения аномалий (Hotelling, Q-statistic, domain heuristics, Autoencoder, etc.) и прогнозирования временных рядов (ARIMA, Holt-Winters, LSTM-based NN, etc.) для наполнения системы предиктивной аналитики (СПА) и технической диагностики
  • Данные: временные ряды (данные оборудования АЭС)
  • Созданные артефакты: .py модули, отчеты о НИОКР, документация по использованию библиотек, слайды
  • Результаты: расширение функционала СПА, научная статья, получение и реализация гранта "Умник"
  • Стэк: python3, pandas, sklearn, numpy, scipy, keras | tex, git, jupyter, pycharm
  • Роль: разработчик/DS
  • Год: 2017-2018
  • Контакты

    One-page CV: google drive
    Designed by Iurii Katser, 2019-2024