My smartphone doesn’t understand my accent!

https://mameloshn.org/wp-content/uploads/sites/3/2017/06/iphone-705169_1920-e1457094751800-1024x576.jpg 1024 576 https://secure.gravatar.com/avatar/?s=96&d=mm&r=g June 18, 2017 January 31, 2019

אין יאַנואַר 2017 האָב איך אָנגעשריבן אַ באַריכט איבער דער נײַער טעכנאָלאָגיע, װאָס „גוגל“ האָט לעצטנס אײַנגעפֿירט כּדי צו פֿאַרבעסערן די אױטאָמאַטישע קאָמפּיוטער־איבערזעצונגען צװישן אַכט גרױסע װעלטשפּראַכן („װען דער איבערזעצער איז אַ מאַשין“). בײַם סוף פֿון יענעם אַרטיקל האָב איך צוגעזאָגט, אַז אין אַ קומעדיקן אַרטיקל װעל איך זיך אָפּגעבן מיט אַן אַנדער פּראָבלעם פֿון דער קאָמפּיוטער־לינגװיסטיק: די אױטאָמאַטישע טראַנסקריפּציע פֿון נאַטירלעכע רײד. גײען מיר איצט אַרײַן אין דעם ענין.

די װאָס פֿאַרנעמען זיך פּראָפֿעסיאָנעל מיט „שפּראַך“ אױף אַ װיסנשאַפֿטלעכן אופֿן (ד”ה, לינגװיסטן און פּראָגראַמירערס; איך רעד נישט פֿון זשורנאַליסטן אָדער פּאָעטן) דיפֿערענצירן צװישן דער „קאָמפּיוטער־לינגװיסטיק“ (אױף ענגליש: computational linguistics) און „פּראָצעסירן נאַטירלעכע שפּראַכן“ (אױף ענגליש: natural language processing, אָפֿט פֿאַרקירצט: NLP). די „קאָמפּיוטער־לינגװיסטיק“ איז דער נײַער צוגאַנג צו דער שפּראַכפֿאָרשונג, װאָס ניצט קאָמפּיוטערס כּדי בעסער צו פֿאַרשטײן און אַנאַליזירן די גראַמאַטישע סטרוקטור פֿון שפּראַכן. די „קאָמפּיוטער־לינגװיסטיק“ איז אױב אַזױ אַ רײן אַקאַדעמישע אונטערנעמונג. דאָס „פּראָצעסירן נאַטירלעכע שפּראַכן“ איז, װידער, אַ פּראַקטישע אונטערנעמונג: דער ציל איז צו שאַפֿן נײַע טעכנאָלאָגיעס װאָס קענען „פֿאַרשטײן“ דאָס װאָס מענטשן האָבן געזאָגט אָדער געשריבן און „רעאַגירן“ דערױף אױף אַ ניצלעכן אופֿן. למשל, װען אײנער שרײַבט אַרײַן אין גוגל דאָס װאָרט „יסראל“, װעט אים גוגל אױסבעסערן דעם אױסלײג („צי האָט איר נישט געמײנט ‘ישׂראל’?“) און ברענגען די רעזולטאַטן פֿונעם ריכטיקן נאָכזוך. (אַגבֿ, װען מע שרײַבט אַרײַן „אידיש“ פֿרעגט גוגל, צי מע האָט נישט געמײנט „ייִדיש“!)

זינט 2003 האָבן גוגל, מײַקראָסאָפֿט, אײַ־בי־עם, פֿײסבוק און אַמאַזאָן אַלע אױפֿגעקױפֿט קלענערע פֿירמעס װאָס ספּעציאַליזירן זיך אין שפּראַך־פּראָצעסירונג. פֿאַר װאָס לײגט מען אַרײַן אַזױ פֿיל געלט און מי אין די שפּראַך־טעכנאָלאָגיעס? קודם־כּל װײַל אַזעלכע טעכנאָלאָגיעס ברענגען אַרײַן זײער אַ סך רװח פֿון רעקלאַמעס. גוגלס זוכמאַשין קען, אױף אַ פּרימיטיװן אופֿן, „פֿאַרשטײן“ דעם באַטײַט פֿון אַ זוכװאָרט אָדער זוכפֿראַזע און געפֿינען אַנדערע זאַכן װאָס זענען סעמאַנטיש נאָענט. למשל, אַז מע גיט אַ זוך נאָך „האָטעלן אין תּל־אָבֿיבֿ“ פֿאַרשטײט גוגל אַז מע פּלאַנירט צו פֿאָרן אַהין, און סע װעלן זיך באַװײַזן רעקלאַמעס פֿאַר שײכדיקע פּראָדוקטן און באַדינונגען: עראָפּלאַן־בילעטן, מוזײ־אױסשטעלונגען, טעאַטער־פֿאָרשטעלונגען אאַז”װ. די רעקלאַמירערס זענען גרײט אױסצוגעבן מער געלט אױף גוגלס רעקלאַמעס, װײַל זײ װײסן אַז זײ קענען געפֿינען מעגלעכע קונים.

די שפּראַך־טעכנאָלאָגיעס דאַרפֿן נישט נאָר נאָכקומען די פֿאָדערונגען פֿון רעקלאַמירערס — זײ דאַרפֿן אױך צופֿרידנשטעלן די קונים. אונדזערע קאָמפּיוטערס, מאָבילקעס, „קלוגע“ זײגערלעך און אַפֿילו טערמאָסטאַטן דאַרפֿן שױן קענען פֿאַרשטײן דאָס װאָס מיר זאָגן — נישט נאָר דאָס װאָס מיר שרײַבן. דאָס קענען פֿאַרשטײן די גערעדטע שפּראַך („רײד־דערקענונג“) פֿאָדערט אַ סך אַ קאָמפּליצירטערע סיסטעם, װײַל דער קאָמפּיוטער דאַרף פֿריִער פֿאַרשרײַבן וואָס מע זאָגט אײדער ער קען פֿאַרשטײן די װערטער. פֿאַר אַ לעבעדיקן מענטשן איז דאָס טראַנסקריבירן די רײד פֿון אַ צװײטן דװקא נישט אַזױ שװער (אױב מע קען שױן דאָס לשון און האָט געדולד), אָבער אַ מאַשין דאַרף בײַקומען אַנדערע פּראָבלעמען. זי דאַרף זײַן מסוגל צו דיפֿערענצירן צװישן אַ מענטשנס רײד און די קלאַנגען אין הינטערגרונט (דעם זשום פֿון לופֿטקילער, דעם טעלעװיזאָר, די שכנים װאָס טופּען מיט די פֿיס אױבן). די מאַשין דאַרף זיך אױך קענען אַן עצה געבן מיט די שפּראַכיקע אונטערשײדן צװישן יחידים: למשל, פֿרױען רעדן געװײנטלעך מיט העכערע טענער װי מענער, און עלטערע מענטשן רעדן געװײנטלעך שטילער און מיט מער אָטעם װי ייִנגערע מענטשן.

אָבער די גרעסטע שװעריקײטן זענען די חילוקים צװישן דיאַלעקטן (בײַ געבױרענע רעדערס פֿון דער שפּראַך) און אַקצענטן (בײַ אױסגעלערנטע). אין כּלל־ייִדיש, למשל, רעדט מען אַרױס דעם װאָקאַל אינעם װאָרט „שרײַבן“ װי אַ דיפֿטאָנג: [אַי]. אין אַנדערע דיאַלעקטן (למשל, בײַ גאַליציאַנער) רעדט מען אים אַרױס װי אַ לאַנגער [אַאַ]. דער אונטערשײד באַשטײט נישט נאָר אין דעם, װי אַזױ מע מאַכט די קלאַנגען אין מױל — בײַם אַרױסרעדן [אַי] באַװעגט זיך די צונג מער װי בײַם אַרױסרעדן [אַאַ] — נאָר די אַקוסטיק איז אױך זײער אַנדערש: װען דער אָטעם פֿליסט אַרױס פֿון די לונגען, איבער דער צונג און דורך די ליפּן, הערט מען געװיסע פֿרעקװענצן העכער אָדער שטילער װי אַנדערע; לױט דעם קען דער אױער דיפֿערענצירן צװישן באַזונדערע װאָקאַלן.

פֿאַרגלײַכט, למשל, די צװײ ספּעקטראָגראַמען פֿון [שראַיבן] און [שראַאַבן] װאָס געפֿינען זיך אין בילד. די גרױע טײלן פֿון ספּעקטראָגראַם זענען קאָנצענטרירט אין באַזונדערע ערטער (ד”ה, אין באַזונדערע פֿרעקװענצן), און דערפֿאַר קלינגען זײ אונדז אַנדערש. די מאַשין דאַרף װיסן װי אַזױ צו פֿאַרװאַנדלען אַ סעריע קלאַנגען/פֿרעקװענצן אין אַ טראַנסקריפּציע (למשל, [שראַיבן] אָדער [שראַאַבן]), און דערנאָכדעם אױספּלאָנטערן מיט װעלכע װערטער די טראַנסקריפּציעס דעקן זיך (למשל, [שראַיבן] = „שרײַבן“, [שראַאַבן] = „שרײַבן“).

ביסלעכװײַז „לערנט זיך“ די טעכנאָלאָגיע װי אַזױ דער באַניצער רעדט, און די טראַנסקריפּציעס װערן אַלץ פֿאַרלאָזלעכער און ניצלעכער. אין 2015 האָט „עפּל“ אַרױסגעלאָזט אַ דערהײַנטיקטע װערסיע פֿון „סירי“ (די פּערזענלעכע אַסיסטענטקע אינסטאַלירט אינעם „אײַפֿאָן“) װאָס קען פֿאַרשטײן דאָס ענגליש װאָס מע רעדט אין אינדיע. אָבער אין אַנדערע לענדער איז די טעכנאָלאָגיע אַ ביסל הינטערשטעליק. די שאָטלענדער װאַרטן נאָך אױף אַ „סירי“ װאָס קען פֿאַרשטײן זײער דיאַלעקט. און מיר װאַרטן אױף אַ „סירי“ (צי אַ „שׂרה“) װאָס װעט קענען פֿאַרשטײן אונדזער טײַער מאַמע־לשון.

Photo by Hamxa Butt