
לאילו שאין להם סבלנות לקשקושים שלי, מצ״ב קישור למחשבון שכר
פעם בשנה נערך סקר מקיף בקרב חברי קהילת Data Analytics Israel במגוון נושאים היקרים לליבם של אנשי דאטה . בשנה שעברה יצרתי מהדאטה של סקר השכר את האנליזה הזו. כחלק מהאנליזה הבטחתי שני מאמרים נוספים שיעסקו ברגרסיה ופרדיקציה לשכר. הזמן חלף וההבטחות האלו נותרו על הקרח. לאחרונה התפרסמו תוצאות הסקר לשנת 2024 שהעירו אותי מתרדמת החורף והזכירו לי את הבטחות העבר.
אני לא רואה ערך ביצירת עוד אנליזה אקספלורטיבית לנתוני 2024 שבסך הכל תהיה מאוד דומה למה שפרסמתי שנה שעברה. אלו שכן מעוניינים לשחק עם הדאטה יכולים לבדוק את הדשבורד שבניתי שכן כולל דאטה מעודכן לנתוני השנה (מומלץ ממחשב) או לבחון אנליזות אחרות שכבר פורסמו על הנתונים
מחשבון שכר מבוסס למידת מכונה
אז במקום להיות תקוע בעבר החלטתי להתחיל עם פרויקט הפרדיקציה. המטרה הסופית הייתה לייצר מחשבון שיוכל לתת לאנליסטים ואנליסטים לעתיד איזשהו באנצ׳מרק לשכר המקובל בשוק, והתוצאה היא המחשבון שכר המצורף. על מנת ללמוד יותר על הדאטה והבעיות בו מוזמנים לבדוק את האנליזת שכר שפרסמתי שנה שעברה.
נתחיל מהשאלה הכי חשובה, האם המודל שווה משהו? התשובה כמו בהרבה מקרים היא ״כן, אבל״. המודל אומן על קצת יותר מאלף תצפיות שכוללות תשובות מארבעה סקרים שונה. בשורה התחתונה הטעות הממוצעת (MAE) היא קצת יותר מ3 אלף שקל, הטעות הממוצעת היחסית (MAPE) היא 17% והטעות החציונית היא סביב 2.4 אלף שקל. טווח הטעות הנ״ל הוא אמנם לא קטן אך סביר (בעייני) להוות באנצ׳מרק.
ניתן לתת כמה הסברים לתוצאות: ראשית, בסופו של יום מדגם של אלף תצפיות (על טווח של 4 שנים) זה מדגם לא גדול, מעבר לזה כמות הפי׳צרים בדאטה הייתה מוגבלת. באופן לא מפתיע נסיון ושאלת הניהול קיבלו משקל גבוה במודל, לצד כך ברור לכולנו כי ניסיון מגוגל לא שקול לניסיון מחברת ״שלמה ובניו״, וניהול צוות של שני אנשים לא שקול לניהול מחלקה. בסופו של יום כמות הפיצ׳רים שעליהם המודל מתבסס מסתכמים בשבע שאלות, כאשר שאלה אחת שחסרה צועקת לשמיים- כמה מוכשר העובד?
ועם זאת, בהחלט סביר שאיש דאטה עם יותר סבלנות ויותר יכולות ממני (בכל אופן, אני יותר DA מDS) יוכל לשפר את המודל פלאים. ניתן למצוא את כל הקוד פה, ואם את/ה מצליחים במשימה, אל תתביישו לשתף. מבטיח ליישם ולתת קרדיט.
המודל
כרגיל, רוב העבודה היייתה טיוב ותיקון הדאטה. ראשית הוסרו שאלות סובייקטיביות שנשאלו בסקר כמו ״האם התפקיד דורש ידע נרחב בסטטיסטיקה?״, שאלות לא רלוונטיות כמו ״איך הגעת לעבוד בחברה?״, ושאלות שצריכות להיות לא רלוונטיות כמו ״מין״ ו״גיל״. חוץ מזה, הוסרו קצת סטיות תקן (אשמח לפגוש את האנליסט, בלי תואר, עם שנתיים נסיון שמרוויח 70 אלף שקל)
כיאה לסקר, רוב הדאטה היה קטגירוגיאלי ונדרשה עבודה מאומצת לסיווג נכון וקיבוץ הקבוצות על מנת שלמודל יהיה יותר קל להגיע למסקנות ולהפחית את הסיכוי לאוברפיטינג. לאחר בחינת כמה מודלים נבחר ״Gradient Boosting״ ולהלן מידת חשיבות הפיצ׳רים:

שום הפתעה מיחדת לא נרשמה בגזרה הזו וניתן לראות כי נסיון הוא by far המשתנה המשפיע ביותר על השכר, כאשר אחריו המשפיעים העיקריים הם עבודה בהייטק, תפקידי ניהול ושליטה בפייתון וSQL. גם לשנת הסקר יש כמובן משמעות כאשר כמו בכל ההייטק השכר של אנליסטים מטפס. במחשבון הונח מראש כי אנחנו בשנת 2024. צלילה יותר עמוקה להשפעה של המשתנים על השכר אני מקווה לנתח באנליזת הרגרסיה.