פעם בשנה נערך סקר מקיף בקרב חברי קהילת Data Analytics Israel במגוון נושאים היקרים לליבם של אנשי דאטה ככלל ואנליסטים בפרט . התשובות (האנונימיות) של המשיבים מתפרסמות לבסוף בקבוצה ופתוחות לכל הקהילה. בסדרה של שלושה פוסטים אני מתכוון לקחת את הדאטה הזה ולעשות ממנו שלוש אנליזות אותן אציג כאן:
1. אנליזה של סטטיסטיקה תיאורית (EDA) אשר תהיה דומה לאנליזה ״רגילה״ של אנליסט (זה מה שנעשה בפוסט הנוכחי).
2. אנליזת רגרסיה בה ננסה להבין קצת יותר לעומק אילו משתנים *באמת* משפיעים על השכר של אנליסט ונכמת את ההשפעה שלהם על השכר.
3. מודל ניבוי שינסה לתת באנצ׳מרק לכמה אנליסט אמור להרוויח (או כמה מעסיק צריך לשלם).
אם אין לכם סבלנות לקרוא מלל, מוזמנים פשוט לקפוץ לדשבורד שנבנה על תוצאות הסקר (עובד רק ממחשב)
הנתונים
הדאטה מתבסס על שלושה קבצי אקסל- קובץ עבור כל שנת סקר. כל קובץ מכיל בערך 250 שורות שכל שורה מייצגת תשובה של אנליסט לסקר. לשם הפרויקט איחדתי בין כל הקבצים וביצעתי לא מעט נקיונות. עם זאת, עדיין יש לא מעט בעיות בדאטה, העיקריות שבהן:
1. מספר שאלות נוסחו באופן מעט שונה בין השנים. החשובה מבניהן היא שאלת השכר שבשנים 2020-2021 הייתה קטגוריאלית (בחירה ממספר מוגדר של טווחים), בעוד שב-2022 הייתה כמותית. כדי להתגבר על מכשול זה, הפכתי את התשובות הקטגוריאלית של השנים הראשונות לכמותיות על ידי שימוש בממוצע (לדוגמא: מי שדיווח ששכרו הוא בין 25-27 אלף שקל חושב כאילו דיווח על שכר של 26 אלף שקל).
2. בסך הכל הקובץ המאוחד כולל 830 תצפיות שזה לא מעט לסקר שכר כה ממוקד. עם זאת, ניתן להניח שחלק לא מבוטל מהתצפיות הן כפולות של אנשים (כמוני) שענו עליו כל שנה. מכיוון שהתוצאות אנונימיות אין דרך להתמודד עם התופעה מלבד לעשות את האנליזה רק על שנה ספציפית, מה שלא רציתי לעשות כי הדבר יקשה על פיצול הדאטה לקבוצות ויהפוך את האנליזה למעט משעממת.
3. בחלק מן השאלות הסקר איפשר גמישות גבוהה במענה. לדוגמא, על שאלה כמו ״סוג החברה בה אתה עובד?״ ישנן לא פחות מ-95 תשובות שונות. על מנת להתמודד עם הדבר קיבצתי תשובות באופן ידני לפי הגיון שהפעלתי.
4. בסופו של דבר מדובר בסקר ככה שאין לדעת כמה מהימן הדאטה והתשובות.
אז מה אנחנו בודקים?
ננסה לעבור על המימדים המעניינים בדאטה ולענות על שתי שאלות: 1) איך הדאטה מתפלג? 2) ואיך נראה השכר בכל קבוצה שכזו?
בגלל הבעיה המובנת בשאלת השכר שהוצגה קודם, נשתמש בסקירה בשכר חציוני (כי קשה לעשות ממוצע על אנשים שדיווחו שהרוויחו מעל 30 אלף שקל). מי שרוצה לראות ממוצע ואחוזנים מוזמן להיכנס לדשבורד שם הדאטה מוצג באופן יותר ורסטילי ומקיף. בנוסף, כאשר נעסוק בשאלות שכר ננקה משיבים שלא עובדים במשרה מלאה או שלא ענו על שאלת השכר.
אני נזהר ומזהיר מלהגיע למסקנות לא נכונות מניתוח של קשרים לינארים בסיסיים. כפי שאנחנו יודעים היטב: מתאם זו לא סיבתיות. בהרבה מובנים הפוסט העתידי של אנליזת רגרסיה ישלים את הפאזל בנוגע לאם וכמה באמת משפיע כל משתנה על השכר החודשי.
חוץ מזה, מכיוון שאני מניח שקהל הקוראים של הפוסט הזה הם אנשי דאטה, אנסה לעשות את זה קצר ולעניין (בניגוד לפתיח הארוך).
התוצאות


שנות הסקר:
על פניו אנו עדים לעלייה עקבית בשכר בין השנים מה שתואם את ״רוח התקופה״ . הקפיצה בין השנים 20 ל21 בולטת במיווחד (וכנראה מוסברת לפחות חלקית באוכלוסיית המדגם). לאור מצב השוק יהיה מעניין לראות את התוצאות של שנת 2023.

שנות נסיון:
טוב, לא צריך לחכות לתוצאות אנליזת הרגרסיה כדי לדעת ששנות נסיון משפיעות באופן סיבתי ומובהק על השכר. אני חושב שאנליסטים בתחילת דרכם ישמחו לדעת שבשנתיים הראשונות לתפקיד הם יכולים לצפות לעליות שכר דו ספרתיות (באחוזים), כאשר גם בהמשך הדרך השכר לא קופא על שמריו

גיל
בהתחשב למתאם בין גיל ונסיון לא מפתיע המתאם בין שכר וגיל. עם זאת, האם ניתן להבחין בירידה מסוימת בשכר בגילאים מאוחרים? אין מספיק דאטה בטווחי הגיל האלו כדי לקבוע בוודאות, אבל זה מעניין

מגדר
אז אני לא יודע כמה הסקר משקף את המציאות, לפחות על פי משתתפי הסקר, נראה שיש הרבה יותר גברים מנשים במקצוע הזה.

משמח לראות שלא נמדד פער משמעותי בשכר (מניח שהפער שכן קיים לא יעבור בדיקת מובהקות סטטיסטית).

כשבוחנים את התפלגות שדרת ההנהלה לפי מגדר מקבלים לשמחתי גם תוצאות *יחסית* דומות:

סוג חברה:
טוב, זו לא בדיוק הפתעה שהמשכורות בהייטק גבוהות יותר משאר המשק:

אבל אני כן הופתעתי לראות ״שרק״ 60%~ מהמשיבים עובדים בהייטק.
*שווה לציין שהחלוקה הקטגוריגיאלית הזו התבצעה באופן ידני על ידי ולכן נתונה להטעיות.

לימודים:
אז נראה שכלכלנים ומהנדסי תעשיה וניהול שולטים בשוק ביד רמה.

מעניין לראות כאשר משווים את השכר של בוגרי תעשייה וניהול אל מול בוגרי כלכלה נראה שהראשונים מרוויחים כמעט 20% יותר. מוזמנים לעלות השערות לתופעה בתגובות ונתייחס לזה בפוסט הבא.

איזור העבודה
טוב, אין יותר מדי מה להרחיב כאן:

שפות תכנות
אז כפי שכולנו יודעים SQL הוא כלי עבודה מאוד נפוץ בתעשייה ובהתאם רוב המשיבים בסקר משתמשים בו.

אלו שלא, משלמים על זה מחיר:

שפת תכנות יותר שנויה במחלוקת בקרב אנליסטים היא הפייתון, חברתם הטובה של מדעני הנתונים. לא פעם עולה השאלה אם על אנליסט ללמוד את השפה, ובסקר האחרון (ורק באחרון) הסוגיה הועלתה כשאלה. כפי שניתן לראות, פחות משליש מהמשיבים דיווחו כי הם עושים בפייתון שימוש אינטסיבי:

אבל אותם אנליסטים גם מרוויחים 30% יותר מהקולוגות שלהם שלא משתמשים בפייתון בכלל:

שאלה שכן נשאלה בכל שנות הסקר היא האם האנליסט עושה שימוש במודלים ניבויים (מה שנקרא משין לרנינג). כפי שניתן לראות התוצאות מאוד מזכירות את התשובות לשאלת השימוש בפייתון ונראה שהוגן להניח כי מדובר בקשר סיבתי די ברור.


כלי ויזואליזציה:
אנליסט לא זז בלי וזיאוליזציה ויש כמה כלים נפוצים כאלו בתעשיה. ידוע כי טאבלו וPBI הם הנפוצים ביותר, אבל לפחות על פי תוצאות הסקר ידו של טאבלו על העליונה.

בסקר של השנה האחרונה התווספה שאלת המשך של ״כמה אתה מרוצה מכלי הויזואליזציה שלך?״. אם נבודד את שני הכלים הפופולרים ביותר נראה שבסך הכל מידת שביעות הרצון מהם גבוהה ודומה.

איפה שכן נרשם פער די משמעותי הוא בשכר- אנליסטים שעובדים עם טאבלו מרוויחים יותר בפער משמעותי למדי.

השוני בשכר הוא דוגמא יפה ל-״מתאם הוא לא סיבתיות״. כפי שניתן לראות, טאבלו, שהרשיון שימוש בו יקר יותר, פשוט הרבה יותר נפוץ בהייטק בעוד PBI נפוץ יותר בתעשייה המקומית.

כדאי לאחד את כל בוגרי התארים הכלכליים מופיע ב 3 קטגוריות שונות (כלכלה, כלכלה,חשבונאות ופיננסים וחשבונאות)
אז כנראה שיהיה יתרון כמותי לעומת תעשיה וניהול ,
ומעניין כיצד זה ישפיע על השכר לפי תואר.
מעניין ביותר, נהנתי לראות את הניתוח
ניתוח ממצא, מדויק וקריאה מאוד מעניינת.
תודה על השיתוף
בדיוק כפי שרשמת –
״השוני בשכר הוא דוגמא יפה ל-״מתאם הוא לא סיבתיות״. כפי שניתן לראות, טאבלו, שהרשיון שימוש בו יקר יותר, פשוט הרבה יותר נפוץ בהייטק בעוד PBI נפוץ יותר בתעשייה המקומית״.
גם פער השכר בין הנדסה תעשייה וניהול לבין כלכלה לדעתי נובע מאותה הסיבהה משערת שבקרב כלכלנית יש שיעור ״הייטק״ נמוך יותר מאדר בקרב מהנדסי תעדייה וניהול. אשמח לטייק על זה.
את צודקת, הוא עשרה אחוז נמוך יותר (מוזמנת להציץ בדשבורד). אני בעצמי לא בטוח אם זה מסביר את כל הפער. נחכה לתוצאות הרגרסיה.
אחלה ניתוח, לא סיבכת …קצר וקולע
למה רק לגבי טאבלו ופאואר בי.איי בדקת אם הפערים בשכר נובעים מהייטק ולא הייטק, ולא ביצעת בדיקה דומה גם לגבי פערי השכר בין מי שמשתמש ב-sql לבין מי שלא משתמש ב-sql, ולגבי פערי השכר בין מי שמשתמש בפייתון או במשין לרנינג לבין מי שלא?
בעיקר כדי לשמור על אורך הפוסט סביר. מוזמנת לבדוק את ההתפלגויות האלו בדשבורד המצורף.