Вот и я решил взглянуть на данные полученные в ходе опроса (Ключевые факторы эффективности и текучести персонала), которыми любезно поделился Эдуард Бабушкин.

Вступление. Философское

Накинутся на такой объём данных с наскоку не получится из-за их реальности. Нужно много задач решить на пути к тому, чтобы уже можно было работать с данными. Корректно их импортировать, проверить переменные на соответствие их типу, отловить пропущенные значения, отловить NA значения, понять, что с ними делать, выловить ошибки (например, дата увольнения 2035 год J), решить, что с ними делать. И это только маленькая часть предварительной работы.

Преодолев данный этап предобработки данных, уже чувствуешь себя победителем. Когда даты являются датами, а числа числами, а факторы факторами. Чувство, когда все на местах! Кто знает, тот меня поймет. А вот кто не понял, о чем это я в предыдущей строке, тогда вперед изучать статистику, аналитику, R, Python. Последовательность может быть любой. Главное начать!

Идея №1

Я решил начать с заработных плат и увольнений.

У нас есть данные о том, какую человек получал з/плату: «белую» или «серую». А также данные о том, сколько лет проработал в компании (т.е. берем только уволенных). Если мы объединим эти данные в одну таблицу, тогда получим такой результат:

Интересно узнать есть ли взаимосвязь между зарплатой («белая»/«серая») и тем, как долго человек работает в компании.

Хи2 дает следующий результат.

Т.е. полученный результат значимый и есть существенные отклонения. Чтобы их увидеть, давайте построим mosaicplot по остаткам:

Как читать данный тип графиков?

  1. Размеры прямоугольников соответствуют количеству наблюдений.
  2. Цвет прямоугольников – величине значимости отклонений ожидаемых и наблюдаемых частот в конкретной ячейке.
  3. Если значения стандартизированных остатков больше 3х (синий или красный цвет), тогда можно считать, что в этой ячейке зафиксированы значимые отклонения.

Мы видим, что у нас левый нижний квадрат («серая» зарплата и стаж до 1 года) темно-синего цвета. Это означает, что очень много людей, кто согласился на «серую» заработную плату увольняются в первый же год с этой работы. Т.е. количество таких наблюдений у нас в разы больше, нежели ожидалось.

Идея №2

У нас есть данные о том, кто являлся инициатором увольнения: работодатель или сам сотрудник. Давайте посмотрим, есть ли взаимосвязь между этой переменной и полом.

Объединив эти данные в таблицу сопряженности получим:

Рассчитаем Хи2:

Отклоняем нулевую гипотезу (p<0.05) о том, что две переменные (инициатор увольнения и пол работника) не взаимосвязаны. Чтобы проинтерпретировать результаты, давайте построим mosaicplot.

Что мы видим на это графике?

Работодатель гораздо чаще увольняет по своей инициативе именно мужчин (правый нижний темно синий квадрат). С женщинами картинка прямо противоположная (левый нижний светло красный квадрат).

Идея №3

Еще у нас есть данные о размере заработной платы на момент увольнения работника. Если объединить эту информацию с инициатором увольнения и стажем работы в этой компании до увольнения в один красивый график, тогда получим:

Зеленые и красные боксплоты нам четко показывают, что работодатель увольняет более дорогих сотрудников, чем те, которые увольняются по собственной инициативе.

Можно еще сделать и такое предположение, что менее оплачиваемые сотрудники находят более высоко оплачиваемую работу и поэтому сами увольняются.

Резюме

Пока это еще не супер глубокий анализ, а всего лишь первый подход к данным. Я бы сказал – знакомство с данными. Но уже понятно, в каком направлении можно направить работу. Есть интересные идеи, которые хотелось бы «прощупать». Следите за следующими подходами. 🙂

Первый подход (увольнения, стаж, з/плата)

Comments

comments