Data Scientist — это специалист, который создаёт инструменты для решения задач бизнеса, используя навыки обработки и анализа массива данных и построения моделей машинного обучения (англ. Machine Learning) и глубокого обучения (англ. Deep Learning).
Чем занимается data Scientist
Data Scientist работает на стыке трёх областей знания: статистики, машинного обучения и программирования. Он строит и тестирует математические модели поведения данных, находит закономерности или прогнозирует будущие значения.
Иногда специалиста по Data Science путают с аналитиком данных, потому что они оба работают с большими массивами данных. Но, в отличие от аналитика данных, специалист по Data Science не только умеет анализировать и визуализировать данные, но и строить математические модели на их основе.
Суть работы специалиста по Data Science — использовать существующие алгоритмы и разбираться в том, какие из них и когда применять. Проект начинается с прояснения требований к бизнес-задаче и переводе ее в математическую плоскость. Кроме этого, нужно подготовить данные для ее решения - понять, где их взять и как обработать, далее - проанализировать и структурировать их. После этого Data Scientist строит модель машинного обучения и тренирует ее, проверяет эффективность и корректность ее работы. И вот модель полностью готова и внедрена - остается только сопровождение модели в работе.
Что должен уметь data Scientist
• Знать математику (линейную алгебру, теорию вероятности, статистику, математический анализ) и машинное обучение
• Знать Python, SQL, С, С++
• Знать алгоритмы обработки
• Работать с фреймворками для машинного обучения (например, NumPy и Scikit-learn)
• Работать с базами данных
• Владеть инструментами обработки больших данных: Apache Spark и Hadoop Mapreduce
• Знать английский язык на уровне Advanced Proficiency для чтения технической литературы
• Понимать специфику бизнеса
• Визуализировать результаты анализа (с помощью библиотек Seaborn, Plotly или Matplotlib)
• Видеть экономически выгодные решения
• Работать в команде
• Понятно и просто объяснять этапы и результаты своей работы
Почему востребована профессия data Scientist
По данным Всемирного экономического форума, Data Science занимает первое место в рейтинге профессий с самым большим спросом на рынке до 2025 года. И спрос на дата-саентистов продолжит расти. Все крупные компании открывают отделы Data Science. Специалисты нужны и стартапам, и небольшим коллективам разработчиков.Постоянно появляются новые задачи, которые можно решать с помощью Data Science. Современные модели машинного обучения помогают иначе решать задачи даже годичной давности — и зарабатывать больше.
Как стать data Scientist
Чтобы стать специалистом в области Data Sciene, нужно окончить профильный вуз и кафедру машинного обучения или отучиться на прикладного математика в непрофильном вузе и окончить курсы «Специалист по Data Science».Хорошим стартом в школьные и студенческие годы станет участие в соревнованиях по Data Science и машинному обучению, практика в решении задач и построении моделей. Победы и опыт участия в соревнованиях будут плюсом при устройстве на работу.
Для карьеры специалиста в области Data Science характерны следующие этапы:Junior Data Scientist должен знать Python и SQL, иметь базовые знания машинного обучения и статистики и понимание основных алгоритмов и области их применения, а также успешный учебный проект по специальности.Middle Data Scientist должен иметь глубокие знания математики и программирования Python и SQL, уверенные знания по культуре проведения экспериментов, должен уметь работать с инструментами внедрения и поддержки моделей машинного обучения: gitLFS, MLFlow, DVC, знать A/B-тестирование. Также Middle Data Scientist должен уметь решать поставленную задачу с минимальным вмешательством более опытного специалиста.Senior Data Scientist должен обладать еще более глубокими знаниями математики, Python и SQL, должен обладать экспертными знаниями в своей области, должен работать полностью самостоятельно от постановки задачи до завершения проекта, должен уметь обучать младших специалистов.Далее можно перейти в Chief Data Officer и управлять Data-проектами или выбрать отдельную специализацию в рамках обязанностей.