למה ככה חזק? עיבוד שפה בכלים מחשוביים בשיריו של דודו פארוק

לאחרונה אני מוצאת את עצמי תוהה איך דודו פארוק, כוכב הטראפ העולה או דאחקה בין חברים שיצאה מכלל שליטה (תלוי את מי שואלים), מביא את השפה העברית, שלרוב נשמעת מוזר בראפ, לקדמת הבמה.

בהיותי חננת על החלטתי לעשות ניתוח נתונים שפתי על שיריו, לטובת חובבי הטראפ או מדעני נתונים. בגלל שהקהל של הפוסט הזה מורכב מבני נוער חובבי טראפ מצד אחד, ומחנונים של ניתוח טקסט מצד שני, אשתדל לפרט לכל אחד כמה שיותר בשני הנושאים, גם למתחילים וגם למתקדמים, אז שימו את המזומנים שלכם בכריך מזומנים וצאו איתי למסע ספרותי!

*** שימו לב: אני לא מומחית לתחום, אני דאטה סיינטיסטית ועובדת ב-ML, זה פרוייקט ראשון שלי ב-NLP ואכן אני לא מבינה בנושא, זוהי מטלה לימודית למי שמעוניין ללמוד יחד איתי***

מה זה טראפ (Trap)?
תת-הז'אנר המוביל כרגע בארץ מתוך שלל הסגנונות השונים בהיפ הופ ובראפ, באיחור אופנתי רגיל אחרי ארה"ב. זה סאונד אגרסיבי שמאופיין בהרבה סינתיסייזר, באסים שמנים של מכונת התופים 808, ביטים בדאבל או טריפל טיים, נושאים כמו קושי ומצוקה מצד אחד, בחורות, כסף, מכוניות, מותגים וסמים מצד שני, ובעיקר: הפקות מוקפדות ומדויקות שרק יגרמו לכם לרצות לרקוד (שוחט תודה).
הטראפ שדודו יוצר מרתק כי הוא מכיל טוויסט של פופ מזרחי, הרבה כלי נגינה שונים ומעניינים והפתעות לרוב. מבחינה מוזיקלית הוא גאון, מכניס מוזיקה ערבית ממקום שלא שמענו עוד בארץ.
 
מה זה מדע נתונים (Data Science)?
בייסקלי כשיש ערימות של מידע שאגור כנתונים (בצורות שונות כגון טבלה, תמונות, סאונד, טקסט) ואנחנו מנסים לקבל ממנו תובנות ומסקנות על ההווה או על העתיד, בכל מיני שיטות חישוביות, כלים סטטיסטיים ואלגוריתמים משוכללים. בניתוח שפה טבעית (NLP) המידע הוא טקסט, מילים, והניתוח כולל ניתוח הקשרים בין מילים במשפט, ספירת מילים לקבלת אוצר מילים, הבנה עמוקה של שפה ועוד. 
אצל דודו השפה קשורה ישירות לדמות שלו – הוא מזרחי עשיר, קשוח, מסורתי, אבל מודע לעצמו, לחסרונות שבו. הוא שובר מוסכמות על ידי כך שהוא לא מסיים כל שורה בחרוז והעברית שהוא משתמש בה הרבה פעמים חסרת כל הגיון.
 
דיסקליימר: יש לי ביקורת על הזמר שעומד מאחורי הדמות של דודו (אורי קומאי, 22, תל אביב) אך היא לא רלוונטית פה. לצערי החפצה והנמכת נשים הן חלק נרחב בתרבות ההיפ הופ והטראפ, ואף יש פן גזעני לסטריאוטיפים עליהם מבוססת הדמות של דודו, אבל אני אוהבת את המוזיקה עצמה, וממשיכה לנתח את התופעה ממקום מדעי ומוזיקלי. המבוגרים ימשיכו לבוז, לשנוא ולהחרים את פארוק, מה שיגרום לנוער לאהוד אותו יותר, אז בעיני דווקא עדיף לצלול לעומק האמנות המטלטלת שלו ולגשת למעריציו בגובה העיניים. הם לא טיפשים, ושווה להקשיב לסאבטקסט ולמסרים מאחורי הדמות, או פשוט להנות מהמוזיקה. בכלליות תזכרו שאסור לקחת שום דבר שהוא אומר ברצינות, הכל בצחוק ובסאטירה ובזלזול על תרבות ה-PC החדשה, וברור לי שהרבה מהמלל שאני מנתחת מכיל משמעויות עמוקות יותר, אבל לשם ההדגמה של הכלים הטכנולוגיים רידדתי את המסר מאוד ולקחתי הכל פשוטו כמשמעו.
 
אז יאללה, לניתוח. יש לנו כלים מתקדמים בטירוף לניתוח השפה האנגלית, אבל בעברית המצב לא כל כך זוהר. אתמקד בספירה של מילים ובהשתייכות של מילים לנושאים מסויימים.

– ענן מילים

הדרך היפה ביותר לייצג מילים בטקסט בעיני. הגודל מסמן את כמות הפעמים שהמילה מופיעה. הענן הבא מהווה את הייצוג של שיריו.

50927194_278785452818824_1933663507237044224_n

 

– ספירת מילים

השתמשתי בשפת התכנות R, בחבילה tidytext. לקחתי את המילים ל-9 משיריו (הכי פופולריים, בלי השיר "מים" מסיבות מובנות), ניקיתי אותן מסימנים שיהרסו לי את הקוד כמו סימני שאלה, קריאה, פסיקים, סוגריים וכו', וטענתי כל שיר כשורה. כדי לנתח מילים כבודדות יש להפוך אותן לטוקן. טוקן (token) הוא יחידת המלל הכי בסיסית בשפה שיש לה משמעות, לרוב זה מילה. הפעלתי טוקניזציה וחילקתי את כל הטקסטים למילים בודדות. דאטה מסודר ומחולק למילים נקרא tidy text data.

את המלל המסודר היה עלי לסנן עוד. הוצאתי מילים שנקראות בתחום stop words – מילים לא מעניינות שחוזרות על עצמן המון בשפה, כגון מילות קישור, ייחוס, כינויי גוף (לי, לך, את, אתה, כל, רק וכו').

לבסוף ספרתי את כמות הפעמים שכל מילה מופעה, וסידרתי אותן לפי הסדר, מהנפוצה ביותר להכי פחות נפוצה. אלו הנפוצות:

Rplot

אשתדל לגעת (בהסכמה) ולנתח ספרותית קצת את הנושאים המעניינים שעולים מהמילים הללו:

מותגים

פארוק מרבה לדבר על המותגים אותם הוא נהנה לרכוש וללבוש. ברור שדודו לא מתכוון לכך שהוא אובססיבי למותגים אך לשם ההדגמה הטכנולוגית אני מרדדת את המסרים שלו.

ארמני, מותג הבגדים האיטלקי היוקרתי, מוביל עם 98 אזכורים ב-3 שירים שונים (אחד מהם נקרא, באופן לא מפתיע, ארמני). אחריו ג'יוונשי עם 15 אזכורים, ולבסוף מותגים זולים יותר שמזוהים מאוד עם תרבות ההיפ הופ בארץ – אדידס ונייק, עם אזכור אחד לכל אחד. אגב, לא מצאתי ברחבי האינטרנט מותג בשם גלבני, מה שגורם לי לחשוד שדודו פשוט ממציא מותגים בשביל הפאן. וואלה לא קול. אולי זה רפרנס לרופא הפיזיקאי גלווני? דודו אובססיבי לאיטליה, הוא גם מזכיר מדי פעם את פיבונאצ'י באינסטגרם שלו. ***עריכה: נמסר לי שאכן יש מותג בשם גלווני! לא יוקרתי מאוד בעיני אבל ניחא.

brands

אין ספק שזוהי הדרך של דודו להשוויץ בעושר ובסטייל שלו, או פלקס (flex) בשפת הטראפ.
תרבות ההשוואה הרווחת בטראפ ניכרת גם אצל דודו בכמות הפעמים ש"כולי" ו"כולך" מופיעות בשירים. 
האם נראה מתישהו את אופנת ההייפ כמו Supreme, הפופולרית בקרב סקייטרים וראפרים, בשיריו של פארוק? השווצה בסניקרס נדירות יד שנייה? שת"פ עסקי עם החנות 972 שמלבישה הרבה מהראפרים בסצינה? או שיחזור למקורות שלו ("מרגיש בטורקיה כי הביט לובש תרבוש, בסים") עם גלבייה והרבה זהב? נחכה ונראה. 
חוץ מהשופוני, דודו מאזכר בשיריו מותגים נוספים למטרות שונות. האדם עליו דודו מתנשא לובש רק זארה, כלומר בעיני דודו זהו מותג נחות. "בא לי ערק, ערק של האייפון איקס" – ערק של הביוקר, של מותג נחשב. אנחנו גם יודעים שלדודו יש סובארו פשע ישנה, כיאה לסטריאוטיפ, אבל הוא מודה ש"לא שאלתי מה זה מזראטי ולמה למבורגיני" כלומר הוא לא בקטע של מכוניות יוקרה.

אנשים

ניכר שדודו מדבר על שתי דמויות מרכזיות: ברוב שיריו הוא מדבר על עצמו, כמה שהוא עשיר, עם סטייל, אבל גם ילד חרא, שוביניסט, אוכל רק כשר, ועוד.

בשיר אלירן סבג המוצלח מאוד (מיובא ישירות מחו"ל בהומאז' מקסים ל-21 סאבאג') הוא מדבר על עצמו ועל אלירן בהשוואה מוזרה. אלירן מתואר כעבריין מסוכן, דוחה, הזוי. מצד שני דודו מזדהה איתו לעיתים – "בוא אלירן בוא תלך לישון תנוח דודו יודע מה זה קריזה דודו לא ישן שבוע", "אתה מזכיר לי טיפה את עצמי עצבני פסיכופת לא רגוע".

מצפייה בקליפ אני חייבת להסכים עם התאוריה שגורסת כי אלירן סבג הוא הצד האלים של דודו, ייתכן שזה כביכול היצר הרע שלו, או ממש אישיות נוספת שחיה בתוך דודו ודודו לא מודע אליה. בפסיכולוגיה ההפרעה נקראת הפרעת זהות דיסוציאטיבית, או פיצול אישיות בלשון העם. זה מסביר את השורה "אני מפרק כדורים פסיכיאטריים רק בשביל שיירגע המשוגע הזה, שם לו בכוס הוא שותה והוזה" – דודו לוקח כדורים כדי להרגיע את אלירן… בסוף הקליפ רואים את דודו קובר את אלירן אך באופן ביזארי הקעקוע שהיה על ידו של אלירן עובר לידו של דודו.

ואולי… אולי הכל בעצם מתייחס לכך שדודו פארוק הוא האלירן סבג של אורי קומאי, מעין השלכה של האמן עצמו? אולי אורי מצליח לבטא את הצד האלים שלו בתור אמנות, בתור דודו? לעולם לא נדע.

– קשרים בין מילים

ניתוח מעניין נוסף שניתן לבצע הוא לספור צירופים של מילים שחוזרים פעמים רבות. אתחיל מלהפוך כל זוג מילים לטוקן, ואבדוק מה הביטויים שחוזרים על עצמם. הניתוח נקרא ngram ובמקרה שלנו n=2 ולכן החלוקה נקראת bigram. דודו היה אומר: תעמיס לי שני גרמים בקשה.

Rplot

את צמדי המילים הנפוצים ביותר (מופיעים מעל 4 פעמים) סידרתי לגרף של שרשרת מרקוב: כלי שמתאר תהליכים כסדרה של מצבים. אנחנו רואים את הנושאים הנפוצים ביותר של דודו – מין ונשים (מוריד מכנסיים, שתי בחורות, רוקדת עושה), הבגדים והשופוני שלו (כולי מזומן, ארמני, הקשר חזק במיוחד בין ג'יוונשי לגלבני!) לעומת הבוז שהוא חש כלפי מי שעומד מולו (כולך צלקות בגב), קצת מודעות עצמית (עדיין בוכה בגללי, ילד חרא, אלירן סבג), והמילה ערק יושבת בצד בדד, כנראה לרוב לא מגיע עם עוד מילה בקביעות, חוץ מהמילה ערק עצמה כמובן.

– חלוקה לנושאים

לסיום השתמשתי בשיטת ניתוח שעוסקת בחלוקה לנושאים, Topic Modeling. שיטה זו הינה unsupervised, כלומר לא אמרתי לאלגוריתם מראש מה הנושאים עצמם, אלא רק קבעתי עבורו שיש K נושאים בטקסטים שעליו למצוא. בעקרון יש שיטות שונות להחליט או לשער על כמה נושאים יש בטקסט, אך בחרתי ב-2 נושאים לשם הפשטות. האלגוריתם נקרא LDA – Latent Dirichlet Allocation, שזה שם מסורבל לגילוי קשרים סטטיסטיים בין מילים שמוביל לגילוי נושאים שונים שצירופי מילים שונים מופיעים בהם בסבירות גבוהה.

Rplot03

בטא היא מידת התרומה של המילה לנושא. קצת קשה לפענח את הנושאים שהאלגוריתם מצא. זוהי בעיה מוכרת בעולם הדאטה סיינס – מצד אחד אלגוריתמים נוטים לפספס דפוסים או תבניות שלנו מאוד קל לראות או לקרוא, ומצד שני לפעמים הם מוצאים דפוסים שאין לנו ממש מושג איך להבין או לפרש. בנושא מספר 1 נמצאות המילים העיקריות מהשירים "דוד המלך (ערק)" ו"בעלה מלמעלה" ובנושא מספר 2 נמצאות המילים העיקריות מהשירים "ארמני", "אלירן סבג" ו-"קיקי". אולי בגלל שב"בעלה מלמעלה" מוזכר שוב המשקה האהוב על דודו, ערק, "אני מחזיק תמיקרופון כמו בקבוק של ערק", ולעומת זאת בשיר אלירן סבג וקיקי מוזכרים שוב המותגים שדודו לובש, ארמני וג'יוונשי?  אליעזר בן יהודה מתהפך בקברו.

אם אתם חושבים על הסבר טוב יותר לחלוקה לנושאים תשאירו לי בתגובות:) תמיד ישנה האפשרות שהאלגוריתם פשוט טועה.

חשוב לי להוסיף כי 9 שירים שמכילים 2432 מילים הם מעט מאוד דאטה וקשה להסיק מסקנות מרחיקות לכת או משמעותיות מאוד מכמות זו של מילים. המסקנה: דודו, תוציא עוד שירים!

מקווה שלמדתם משהו – או על טראפ, או על מדע הנתונים וניתוח שפה, או על שניהם יחד! אם אתם רוצים לנסות בעצמכם או בעצמכן – יאללה קדימה, הנה הקוד שלי ויאללה בלאגן.