לאילו שאין להם סבלנות לקשקושים שלי, מצ״ב קישור למחשבון שכר

פעם בשנה נערך סקר מקיף בקרב חברי קהילת Data Analytics Israel במגוון נושאים היקרים לליבם של אנשי דאטה . בשנת 2024 יצרתי מהדאטה מחשבון שכר, ועל אף שסקר שכר חדש נערך כבר בתחילת 2025, סוף סוף מצאתי זמן לעבור עליו ״ולעדכן גרסה״.
מחשבון שכר מבוסס למידת מכונה
המחשבון עצמו הוא מודל רגרסיה מבוסס Xgbost כאשר הפרדיקציה (השכר הצפוי) מתבססים על שבעה פיצ׳רים (שאלות בסקר) בסיסיים למדי. המודל אומן על מעל אלף תצפיות שכל תצפית היא תשובה של אנליסט לסקר מחמשת הסקרים שנעשו בין 2020-2025, ככה שאנליסט שפעיל בקבוצה (כמוני) יופיע בדאטה מספר פעמים- דבר שיכול לייצר הטייה. על אף הנ״ל ועל אף שבמונחים של מודל משין לרנינג מדובר כמובן בכמות דאטה דלה, אני סבור שבאופן יחסי ״למחשבון שכר״ מדובר בכמות תצפיות לא מבוטלת.
האם המודל שווה משהו? הטעות הממוצעת (MAE) היא קצת יותר מ3 אלף שקל, הטעות הממוצעת היחסית (MAPE) היא 16% והטעות החציונית היא קצת מעל אלפיים שקל. קשה יהיה לטעון שמדובר בטווח טעות קטן, אבל כן סביר (לטעמי) ככה ששימוש במחשבון יכול לתת כיוון למשתמש ולהוות עבורו באנצ׳מרק. שווה לציין שככל שהמשתנה המשמעותי ביותר במודל עולה (ספויילר: שנות נסיון) ככה השונות עולה ואיתה הטעות הממוצעת.
ניתן לתת כמה הסברים לתוצאות: ראשית, בסופו של יום מדגם של אלף תצפיות (על טווח של 5 שנים) זה מדגם מכובד אבל לא גדול, מעבר לזה כמות השאלות בסקר ורמת הפירוט שלהן היו באופן טבעי מוגבלים.
לאף אחד לא תיפול הלסת לגלות ששנות נסיון ושאלת הניהול קיבלו משקל גבוה במודל- ולצד כך, ברור לכולנו כי ניסיון מגוגל לא שקול לניסיון מחברת ביטוח קטנה, וניהול צוות של שני אנשים לא שקול לניהול מחלקה של עשרים איש- ואלו דברים שלא הופיעו בסקר ולכן במחשבון. בנוסף, נקודה חשובה שחסרה בדאטה, משפיעה באופן משמעותי על השכר וכנראה גם לא יכולה להישאל- כמה מוכשר האנליסט?
ועם זאת, בהחלט סביר שאיש דאטה עם יותר סבלנות ויותר יכולות ממני יוכל לשפר את המודל פלאים. ניתן למצוא את כל הקוד פה, ואם את/ה מצליחים במשימה, אל תתביישו לשתף.
המודל
כרגיל, רוב העבודה היייתה טיוב ותיקון הדאטה. ראשית הוסרו שאלות סובייקטיביות שנשאלו בסקר כמו ״האם התפקיד דורש ידע נרחב בסטטיסטיקה?״ ושאלות לא רלוונטיות כמו ״איך הגעת לעבוד בחברה?״. חוץ מזה, הוסרו קצת סטיות תקן (אשמח לפגוש את האנליסט, בלי תואר, עם שנתיים נסיון שמרוויח 70 אלף שקל)
כיאה לסקר, רוב הדאטה היה קטגירוגיאלי ונדרשה עבודה מאומצת לסיווג נכון וקיבוץ הקבוצות על מנת שלמודל יהיה יותר קל להגיע למסקנות ולהפחית את הסיכוי לאוברפיטינג. נבחנו כמה מודלים ונעשה איפטום להיפר פרמטרס של המודל.
לסקרנים, להלן מידת חשיבות הפיצ׳רים (שום הפתעה בגזרה הזו):
