Кто такой аналитик баз данных. Обработка больших данных. Курс «Введение в машинное обучение »

Юлия Перминова

Тренер Учебного центра Softline с 2008 года.

Базовый инструмент для работы с огромным количеством неструктурированных данных, из которых можно быстро сделать выводы и не возиться с фильтрацией и сортировкой вручную. Сводные таблицы можно создать с помощью нескольких действий и быстро настроить в зависимости от того, как именно вы хотите отобразить результаты.

Полезное дополнение. Вы также можете создавать сводные диаграммы на основе сводных таблиц, которые будут автоматически обновляться при их изменении. Это полезно, если вам, например, нужно регулярно создавать отчёты по одним и тем же параметрам.

Как работать

Исходные данные могут быть любыми: данные по продажам, отгрузкам, доставкам и так далее.

  1. Откройте файл с таблицей, данные которой надо проанализировать.
  2. Перейдите на вкладку «Вставка» → «Таблица» → «Сводная таблица» (для macOS на вкладке «Данные» в группе «Анализ»).
  3. Должно появиться диалоговое окно «Создание сводной таблицы».
  4. Настройте отображение данных, которые есть у вас в таблице.

Перед нами таблица с неструктурированными данными. Мы можем их систематизировать и настроить отображение тех данных, которые есть у нас в таблице. «Сумму заказов» отправляем в «Значения», а «Продавцов», «Дату продажи» - в «Строки». По данным разных продавцов за разные годы тут же посчитались суммы. При необходимости можно развернуть каждый год, квартал или месяц - получим более детальную информацию за конкретный период.

Набор опций будет зависеть от количества столбцов. Например, у нас пять столбцов. Их нужно просто правильно расположить и выбрать, что мы хотим показать. Скажем, сумму.

Можно её детализировать, например, по странам. Переносим «Страны».

Можно посмотреть результаты по продавцам. Меняем «Страну» на «Продавцов». По продавцам результаты будут такие.

Этот способ визуализации данных с географической привязкой позволяет анализировать данные, находить закономерности, имеющие региональное происхождение.

Полезное дополнение. Координаты нигде прописывать не нужно - достаточно лишь корректно указать географическое название в таблице.

Как работать

  1. Откройте файл с таблицей, данные которой нужно визуализировать. Например, с информацией по разным городам и странам.
  2. Подготовьте данные для отображения на карте: «Главная» → «Форматировать как таблицу».
  3. Выделите диапазон данных для анализа.
  4. На вкладке «Вставка» есть кнопка 3D-карта.

Точки на карте - это наши города. Но просто города нам не очень интересны - интересно увидеть информацию, привязанную к этим городам. Например, суммы, которые можно отобразить через высоту столбика. При наведении курсора на столбик показывается сумма.

Также достаточно информативной является круговая диаграмма по годам. Размер круга задаётся суммой.

3. Лист прогнозов

Зачастую в бизнес-процессах наблюдаются сезонные закономерности, которые необходимо учитывать при планировании. Лист прогноза - наиболее точный инструмент для прогнозирования в Excel, чем все функции, которые были до этого и есть сейчас. Его можно использовать для планирования деятельности коммерческих, финансовых, маркетинговых и других служб.

Полезное дополнение. Для расчёта прогноза потребуются данные за более ранние периоды. Точность прогнозирования зависит от количества данных по периодам - лучше не меньше, чем за год. Вам требуются одинаковые интервалы между точками данных (например, месяц или равное количество дней).

Как работать

  1. Откройте таблицу с данными за период и соответствующими ему показателями, например, от года.
  2. Выделите два ряда данных.
  3. На вкладке «Данные» в группе нажмите кнопку «Лист прогноза».
  4. В окне «Создание листа прогноза» выберите график или гистограмму для визуального представления прогноза.
  5. Выберите дату окончания прогноза.

В примере ниже у нас есть данные за 2011, 2012 и 2013 годы. Важно указывать не числа, а именно временные периоды (то есть не 5 марта 2013 года, а март 2013-го).

Для прогноза на 2014 год вам потребуются два ряда данных: даты и соответствующие им значения показателей. Выделяем оба ряда данных.

На вкладке «Данные» в группе «Прогноз» нажимаем на «Лист прогноза». В появившемся окне «Создание листа прогноза» выбираем формат представления прогноза - график или гистограмму. В поле «Завершение прогноза» выбираем дату окончания, а затем нажимаем кнопку «Создать». Оранжевая линия - это и есть прогноз.

4. Быстрый анализ

Эта функциональность, пожалуй, первый шаг к тому, что можно назвать бизнес-анализом. Приятно, что эта функциональность реализована наиболее дружественным по отношению к пользователю способом: желаемый результат достигается буквально в несколько кликов. Ничего не нужно считать, не надо записывать никаких формул. Достаточно выделить нужный диапазон и выбрать, какой результат вы хотите получить.

Полезное дополнение. Мгновенно можно создавать различные типы диаграмм или спарклайны (микрографики прямо в ячейке).

Как работать

  1. Откройте таблицу с данными для анализа.
  2. Выделите нужный для анализа диапазон.
  3. При выделении диапазона внизу всегда появляется кнопка «Быстрый анализ». Она сразу предлагает совершить с данными несколько возможных действий. Например, найти итоги. Мы можем узнать суммы, они проставляются внизу.

В быстром анализе также есть несколько вариантов форматирования. Посмотреть, какие значения больше, а какие меньше, можно в самих ячейках гистограммы.

Также можно проставить в ячейках разноцветные значки: зелёные - наибольшие значения, красные - наименьшие.

Надеемся, что эти приёмы помогут ускорить работу с анализом данных в Microsoft Excel и быстрее покорить вершины этого сложного, но такого полезного с точки зрения работы с цифрами приложения.


Результаты опроса работодателей свидетельствуют о том, что специалисты по обработке больших данных (Big Data) работают в 6% компаний. Основной спрос на аналитиков Big Data формируют IT и телеком-компании, банки и крупные розничные сети.

Вопрос: «Работают ли в вашей компании специалисты по анализу больших массивов данных (Big Data, Data Scientist)?»

Вариант ответа Все сферы деятельности ИТ / Телеком Банки Ритейл
Да 6% 21% 17% 13%
Нет 75% 60% 50% 45%
Затрудняюсь ответить 19% 19% 33% 42%

В своих комментариях представители крупных компаний отмечали, что аналитика больших данных является важным направлением бизнеса.

«Big Data аналитики входят в подразделение Digital. Это стратегическое для нас направление, оно подчиняется напрямую генеральному директору. Создано подразделение в таком формате меньше года назад. Наш бизнес связан с получением огромного количество данных, поэтому аналитика для нас очень важна. У нас очень сильная команда и очень амбициозные задачи», - говорит представитель оператора связи.

«У нас около 15 направлений/проектов по банку, где такие специалисты востребованы. Каждому проекту нужны свои специалисты, и они могут разные данные анализировать», - комментирует рекрутер крупного коммерческого банка.

Специалисты по подбору персонала отмечали ряд сложностей в подборе аналитиков больших данных, вызванных дефицитом квалифицированных кадров и отсутствием критериев по оценке компетенций: «Сложно оценивать уровень квалификации и экспертизы. У нас очень высокие требования. Мы проводим многоступенчатый отбор, с несколькими этапами интервьюирования, с тестами, проверяющими аналитические способности. Очень большое количество кандидатов отсеивается».

«Все мы хотим уже состоявшихся специалистов, реализовавших успешные кейсы, но их мало на рынке. Сложно определить уровень человека, потому как задачи разные, не совсем понятно, будет ли адекватен его опыт для нас», - добавляет представитель крупного коммерческого банка.

Проблемы с поиском кадров увеличиваются из-за отсутствия общепринятого названия должности специалистов, занимающихся анализом больших данных, и пула стандартных должностных обязанностей.

Вакансии, подразумевающие работу с большими данными, могут носить совершенно различные названия, например: аналитик big data; математик/математик-программист; менеджер по анализу систем; архитектор big data; бизнес-аналитик; BI-аналитик; информационный аналитик; специалист Data Mining; инженер по машинному обучению.

Специалистов по работе с Big Data можно разделить на 2 направления:
инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

В должностные обязанности аналитика Big Data входит:

Построение процесса сбора данных для возможности их последующей оперативной обработки;
анализ и прогнозирование потребительского поведения, сегментация клиентской базы (кластеризация, классификация, моделирование, прогнозирование);
персонализация продуктовых предложений;
анализ эффективности внутренних процессов и операционной деятельности;
выработка решений по оптимизации текущих процессов на основании результатов анализа;
анализ рисков, подозрительных операций, выявление мошенничества;
обеспечение полноты и взаимосвязанности данных из разных источников (многоканальные продажи, маркетинг, интернет);
формирование периодических отчетов для оценки результатов, визуализация и презентация данных.

Заработные платы аналитиков Big Data и требования к их профессиональным навыкам

Зарплатный диапазон Требования и пожелания к профессиональным навыкам
- Высшее образование (математика, математическая статистика)
- Знание методов математической статистики, алгоритмов анализа данных и математического моделирования
- Знание современных технологий обработки больших данных
- Знание основ реляционных БД и языка SQL
- Знание английского языка на уровне чтения технической документации
80 000 - 110 000 руб. - Отличные аналитические навыки, способность видеть новые пути решения задач
- Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau
- Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.)
- Опыт работы с большими массивами данных, реляционными БД
- Опыт анализа больших массивов данных с выявлением зависимостей и закономерностей
- Опыт работы с инструментами визуализации данных (в т.ч. для построения графов)
- Опыт работы аналитиком Big Data от 1 года
- Знание скриптовых языков программирования Python/Ruby/Perl
- Опыт машинного обучения
- Опыт использования Hadoop, Google big table
- Опыт работы аналитиком Big Data от 2 лет

Возможное пожелание: знание английского языка на свободном или разговорном уровне

- Опыт построения коммерчески успешных сложных моделей поведения целевой аудитории помощью data mining инструментов
- Опыт работы аналитиком Big Data от 3 лет

Возможные пожелания:
- наличие научных публикаций в области Big Data;
- опыт внедрения систем по работе с Big Data

Код для вставки в блог

Аналитик Big Data

Исследовательский центр портала Superjob изучил предложения работодателей и ожидания претендентов на позицию «Аналитик Big Data» в Москве.

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:
  • С ними интересно работать.
  • Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
  • Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
  • Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:
  • Тактическая оптимизация - улучшение маркетинговых кампаний, бизнес-процессов.
  • Прогнозируемая аналитика - прогноз спросов и событий.
  • Рекомендательные системы - Amazon, Netflix.
  • Системы автоматического принятия решений - например распознавание лиц или даже беспилотники.
  • Социальные исследования - обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

Аналитика

Аналитика - это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных - это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
  • Модели, которые могут прогнозировать поведение пользователя.
  • Классификационные модели, которые могут узнать и отфильтровать спам.
  • Рекомендательные системы - изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
  • Нейронные сети - не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг - это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Конспект

  1. Чем больше данных, тем сложнее их анализ.
  2. Наука о данных - это знания о выводимых данных, отбор, подготовка и анализ.
  3. Машинное обучение применяется для сбора и анализа массивов данных.
  4. Дата майнинг - это процесс очистки больших данных и подготовки их к последующему анализу.

Рассказываем о тех, кто работает с большими данными, и знаниях, которые для этого необходимы.

Существует стереотип, что с большими данными работают исключительно IT-департаменты, программисты и математики. На деле эта молодая индустрия включает в себя довольно много профессий: от инженера до специалиста по data storytelling. В рамках спецпроекта совместно с IE Business School T&P поговорили с Джозепом Курто, аналитиком, бизнес-консультантом и предпринимателем, о мультифункциональности, возможности влиять на глобальные процессы и больших данных в сельском хозяйстве.

Джозеп Курто

управляющий независимой консалтинговой компанией Delfos Research, ассоциированный профессор IE School of Social, Behavioral & Data Sciences

- Специалист по Big Data - кто это?

Есть мнение, что специалист по Big Data - это суперпрофессионал, сверхчеловек с огромным количеством разных навыков. В какой-то степени это правда, ведь, помимо всего прочего, он должен неплохо разбираться в бизнесе. Безусловно, одному человеку сложно знать вообще все, так что мы чаще всего работаем в командах - это гораздо продуктивнее. Например, одна моя коллега - специалист только по визуализации данных и data storytelling. Она создает потрясающую инфографику, с помощью которой может рассказать любую историю в цифрах. Главное - иметь 360-градусный угол зрения, который появляется с опытом. Мне самому потребовалось на это почти 15 лет.

- Какой бэкграунд лучше иметь, если вы хотите работать с большими данными?

В Big Data существует очень много разных ролей: например, вы можете быть Big Data Engineer (то есть инженером) или аналитиком, и это совсем разные функции. Базовые вещи - это знание математики, статистики и информатики.

- Опишите основные этапы работы специалиста по Big Data?

Мы работаем с самыми разными направлениями: финансы, ретейл, правовые отрасли. Одна из важнейших ролей - это стратег: на первом этапе большинство компаний просто не знают, как начать работать с большими данными. Более того, иногда очень сложно понять, какая именно проблема в компании связана с этими данными и как ее решить.

Для начала самое главное - определить проблему, с которой столкнулась компания. Мы проводим воркшопы, на которых рассказываем о возможностях Big Data. В процессе работы мы должны трансформировать работу в компании, но наша первоочередная задача - решить проблему. Мы беседуем с клиентом, задаем множество вопросов о всех сферах деятельности. В процессе этих бесед появляются огромные списки пунктов и задач, которые мы будем учитывать и над которыми будем работать. Основная цель, которую мы преследуем, работая с Big Data, - возможность лучше понимать потребителя, продукт, сотрудников, поставщиков. Big Data охватывает все сферы деятельности компании.

После сбора информации мы обсуждаем все проблемные моменты и понимаем, связаны ли они с большими данными. Некоторые проблемы могут быть связаны с чем-то другим - например, с недостаточной мотивацией сотрудников. Так что мы должны сократить весь список и оставить в нем только проблемы, которые касаются нашей компетенции. Если вы хотите узнать больше о ваших продажах, это значит, что вы должны иметь возможность вести их учет. Иногда это довольно трудно. К примеру, в магазинах вы должны иметь возможность учитывать каждую покупку. Но это не проблема Big Data. Это значит, что вы должны просто приобрести систему для учета покупок. Иногда в компании должен произойти ряд существенных изменений для того, чтобы специалист по Big Data мог начать работу.

Следующий шаг - составление списка рекомендаций. После этого мы обсуждаем дальнейшую стратегию компании, какой ее хотят видеть управляющие. Внедрение Big Data - это не просто привлечение одного специалиста, это изменение мышления всех сотрудников. Очень важно, чтобы все понимали, что делает тот парень, который называет себя специалистом по Big Data. Очень важно развеять миф о том, что Big Data - это просто какая-то часть IT-департамента. После определения стратегии мы предлагаем пути ее внедрения.

- Какими основными навыками должен обладать специалист по Big Data?

Главное - это умение работать с большим объемом информации и знание технологий: их уже сотни, и каждый месяц появляются новые. В то же время он должен обладать научным мышлением, быть очень любознательным. Очень важно уметь мыслить в терминах бизнеса. Напомню, что можно быть узким специалистом в чем-либо и быть полезным членом команды, отвечая за свою часть процесса.

- Где чаще всего работают такие специалисты?

Нас очень часто привлекают в качестве экспертов; очень многие мои коллеги совмещают научную работу с преподавательской деятельностью.

- Какие отрасли больше всего нуждаются в Big Data?

Я считаю, что абсолютно все. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data - это возможность посмотреть на имеющиеся данные с разных углов зрения. Иногда со студентами мы рассматриваем очень простые наборы данных - например, таблицы, состоящие всего из трех столбцов (дата, номер покупателя и сумма покупки). Несмотря на то что это может показаться примитивным, я показываю студентам, как много новой информации они могут из этого получить. Даже если у вас не так много данных, вы можете делать прогнозы и выводы.

- Как должно измениться образование для подготовки специалистов по Big Data?

Главное - это подготовка мультифункциональных специалистов. Важно уделять достаточно внимания математике и информатике, изучать новые технологии, подходы (например, NoSQL). Самое важное - аналитическое мышление. Это первое, чему я учу своих студентов. Специалист по Big Data знает математику, технологии и критически мыслит. Важно помнить - вы никогда не сможете знать все, это невозможно, но вы должны уметь искать и анализировать информацию.

- В какой самой необычной области вам приходилось работать?

Без сомнения, это сельское хозяйство. В этой отрасли множество самых разнообразных процессов, при этом они совершенно не готовы к новым технологиям. Нужно научиться говорить на их языке и понять, какие задачи стоят перед компаниями. Например, очень часто встречается задача снизить потребление воды, которая используется в сельском хозяйстве каждый день в огромных количествах. Иметь возможность помочь в решении таких задач - это потрясающе. Сельскохозяйственные организации вынуждены быть прагматичными, в этом им помогает Big Data.

Специалисты по Big Data - это новый тип профессионалов. Вы должны понимать, что самое потрясающее в этой работе - это возможность очень сильно влиять на глобальные процессы. Это что-то вроде работы детектива. Вы определяете, что произошло, где и почему. Вы можете помочь компаниям понять, почему они теряют деньги и клиентов, как в дальнейшем этого избежать и увеличить прибыль.

Юрий Котиков

консультант по стратегии в Ericsson, выпускник программы Master in Management IE Business School

Не могу не согласиться с коллегой. Действительно, Big Data в организациях начинается прежде всего не с закупки дорогостоящего оборудования, программных решений или анализа массивов данных, а с определения целей, которых можно достигнуть средствами аналитики, а также с правильного подхода к процессам их реализации.

Например, практически все ведущие мировые мобильные операторы создают под Big Data выделенные подразделения, имеющие свободный доступ к данным внутри компании, а также поддержку топ-менеджмента и акционеров. Это является одним из ключевых факторов успеха в Big Data проектах, которые затрагивают множество функций и влекут значительные изменения в процессах компаний.

Методологически важным фактором является так называемый Lean Startup Approach - гибкий подход к решению задач бизнеса с помощью Big Data. Вместо длительного процесса разработки конечной сложной модели или продукта, основанного на больших данных, необходимо двигаться маленькими итерациями и быстрыми победами, получая регулярную обратную связь от ключевых заказчиков решения. Например, компания Telefonica, разрабатывая свое решение Smart Steps с использованием агрегированных данных о местоположении абонентов, изначально ориентировалась на компании розничной торговли. Оператор планировал предоставлять клиентам данные о перемещении людей на определенных улицах города. Благодаря регулярной обратной связи Telefonica смогла принять решение о необходимом стратегическом вираже, изменив фокус продукта на анализ пассажиропотоков для транспортного сектора.

Если говорить про специалистов в области Big Data, то, на наш взгляд, ключевым качеством как для технических, так и для управленческих специалистов является кроссфункциональность. Обладать полным спектром навыков в области анализа данных практически невозможно. Однако технические специалисты должны иметь общее представление о функционировании бизнеса, а менеджеры - понимание базовых принципов аналитики. Поэтому образовательные программы в области больших данных, совмещающие как техническую часть, так и бизнес-аспекты и погружение в определенные индустрии, имеют хорошие шансы подготовить востребованные рынком кадры.

Рекомендованная учебная программа: Master in Business Analytics and Big Data

Магистратура Business Analytics and Big Data - современная программа, направленная на погружение в четыре области знаний, связанных со сферами бизнес-аналитики и больших данных: Big Data Technologies, Data Science, Business Transformation, Professional Skills. Программа состоит из трех триместров, каждый из которых заканчивается практическим проектом, среди которых - Big Data стартап и консалтинговый проект.

Компании ищут динамичных профессионалов с разным бэкграундом - опытом работы в бизнесе, IT, знающих экономику, математику и смежные науки и способных работать с информацией: собирать, анализировать и интерпретировать данные.

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.

Понравилась статья? Поделиться с друзьями: