באוניברסיטאות בעולם הולך ומתפתח תחום שנקרא מדעי הרוח הדיגיטליים. תחום זה מבקש להביא אל עולם מדעי הרוח את היכולות החישוביות המשוכללות ביותר של עולם המחשוב. מלבד היכולות המחקריות החדשות, העיסוק בתחום זה מציע כיוונים חדשים בשאלת היחס בין האדם והמחשב, ובין המחקר האקדמי והציבור הרחב
החזון של בן גוריון בעידן הדיגיטלי
בשנת 1950 שרטט דוד בן גוריון את החזון שהביא להקמת המכון לתצלומי כתבי יד עבריים בספרייה הלאומית בירושלים:
…לפני כל מוטלת עלינו החובה הדחופה של גאולת הספרות העברית. ישנם אלפי כתבי־יד עבריים בספריות שונות, והם מונחים כאבן שאין לה הופכין. רק חלק קטן מכתבי־יד אלה נדפסו עד עכשיו … הרוב הגדול … לא נתפרסמו כלל. רבים מהם הלכו לאיבוד מצוק העתים ומחמת המציק. מי יודע כמה כתבי־יד נשמדו במלחמת העולם השניה, אם במזיד ואם בשגגה. מדינת ישראל שומה עליה לאסוף ולכנס נדחים אלה – נדחי רוח ישראל בגולה. איני רואה אפשרות להשיג ולרכז בישראל כתבי־היד המקוריים, אבל צילומים … אינם נופלים בערכם השימושי מכתבי־היד עצמם, וזאת אשר עלינו לעשות בהקדם, בלי דחוי, בכל המרץ…
הדברים האמורים כאן קרמו עור וגידים, והיו למכון מפואר, שאיגד בתוכו תצלומים של כתבי יד עבריים מכל העולם, ואִפשר את התשתית למחקר ההיסטוריוֹת והתרבויות היהודיות, כמו גם לגאולת אוצרות רוח ותרבות שלא היו מוכרים לנו. בבסיס החזון הזה עומדת ההבנה כי הטכנולוגיה יכולה וצריכה לשרת את הרוח האנושית, וכי הכלים הטכנולוגיים החדשים יכולים לאפשר לנו זמינות שלא הייתה אפשרית קודם לכן. כל מי שצפו בסרט הערת שוליים ראו לנגד עיניהם כיצד נראות המכונות המיושנות באמצעותן עברנו, נברנים אוהבי תרבות שכמונו, על כתבי היד העתיקים המצולמים במיקרופילמים.
עכשיו, הבה נעשה רגע תרגיל מחשבתי, וננסה לחשוב, כיצד אמור להיראות החזון של בן גוריון היום, בעידן האינטרנט והמחשב? אם המיקרופילמים אפשרו להביא את כל כתבי היד העבריים לירושלים, מבלי להביאם באופן פיזי, הרי האינטרנט והמחשב יכולים לאפשר לנו נגישות מלאה אל כל כתבי היד, נגישות שתתאפשר לא רק למתי מעט החוקרים המצויים בירושלים או עולים אליה לרגל. ואכן, בימים האחרונים השיקה הספרייה הלאומית בירושלים את פרויקט כתיב, המאפשר לכל דכפין לצפות בכתבי יד עבריים, מן המקרא ועד המשנה, מן התלמוד ועד מורה נבוכים, מן הפיוט והאגדה, מן ההגות והמחשבה, מכתבים ואגרות, הלכה ושו"ת – הכול פרוש עתה לפנינו בלחיצת עכבר. אולם, האם הדבר מספיק? האם הדבר מאפשר נגישות מלאה לטקסטים? עדיין לא. נגישות מלאה של כתבי היד תהיה נגישות טקסטואלית, שבה לא רק התמונות של כתבי היד, אלא גם הטקסטים הכתובים בהם יהיו זמינים באופן דיגיטלי, וניתן יהיה לחפש בהם, להגיע אליהם, ואף לבצע עליהם מחקרים ממוחשבים פורצי דרך, שעליהם עוד אדבר בהמשך.
הרבה מאוצרות הרוח היהודיים כבר נתונים לנו כטקסטים, והם נעשו זמינים באמצעות מיזמים כגון פרויקט השו"ת, 'מאגרים' של המילון ההיסטורי של האקדמיה ללשון עברית, מאגר ליברמן של כתבי היד של התלמוד הבבלי, חלק מהטקסטים של הגניזה הקהירית זמינים בפורטל של פרוייקט פרידברג, שם ניתן למצוא את 'הכי גרסינן', העוסק גם הוא בכתבי היד של התלמוד הבבלי, ולאחרונה גם במסגרות פתוחות המבוססות על מאמץ המונים, כמו סֵפַרְיָא וויקיטקסט. אבל הזמינות עליה אני מדבר היא זמינות מסדר גודל אחר. היא מצב בו כל כתבי היד העבריים המוכרים לנו עוברים דיגיטציה עד לרמת הטקסט, וזמינים לחיפוש טקסטואלי, כמו גם לעיבוד שיאפשר מגוון צורות הצגה ומחקר אלגוריתמי.
חוכמת ההמון ובינה מלאכותית
אבל כיצד עושים את זה? כיצד מתעתקים המוני טקסטים שנתונים לנו כרגע רק בתצלומים? אם ניקח למשל את מקרה המבחן של הגניזה הקהירית נוכל לראות עד כמה ארוכה היא הדרך. מן הגניזה הקהירית הגיעו לידינו מאות אלפי קטעי גניזה, הפזורים היום בספריות ובאוספים פרטיים בעולם. בזכות פרויקט פרידברג זמינים היום – אמנם לנרשמים בלבד אך באופן חינמי – תצלומים של רוב רובם של קטעי הגניזה. אבל אם תרצו לחפש חיפושי טקסט – הזמינות מצטמצמת מאוד. על פי הערכה שבוצעה לא מזמן, תעתיקים מקושרים רק ל־12.5% מקטעי הגניזה, ויש עוד כמות כזו של תעתיקים שהתפרסמו בכתב, אבל אינם זמינים במחשב.
אז איך עושים זאת? איך יוצרים זמינות טקסטואלית מלאה של כל כתבי היד העבריים? אם נאסוף את כל החוקרים ואת כל תלמידי המחקר העוסקים בתחומי היהדות, וכולם ישביתו את כל פעילות ההוראה והמחקר שלהם, ויקדישו את כל זמנם רק לתעתוק וההדרה של כתבי היד, גם אז ייקח הדבר שנים ארוכות. אני מבקש לשרטט מסלול לפתרון הבעיה, שישמש דוגמה טובה של תשובה לשאלה: מה זה לעזאזל מדעי הרוח הדיגיטליים, ובמה זה שונה מפרויקטים ממוחשבים בתחום מדעי הרוח? המסלול הזה עובר תחנות בשני צירים, שצפויים להיות קשורים זה בזה ולהזין זה את זה.
הציר האחד היא שיתוף הציבור הרחב במאמץ האקדמי. המודל של שיתוף המונים במאמץ האקדמי נולד בכלל בתחומי מדעי הטבע. כאשר טלסקופ החלל האבל שיגר לכדור הארץ כמות עצומה של תמונות, ובהן מיליארדי כוכבים וגלקסיות, הרבה מעבר לכוח העיבוד של כל האסטרונומים שבעולם. מתוך כך פותח כלי שאפשר לחובבים לסייע במלאכת הסיווג של תצלומי הכוכבים והגלקסיות. המודל הזה כונה תחילה 'מיקור המונים' – crowd sourcing, מתוך תפיסה שהמטלה המדעית נמסרת לציבור כמו מיקור חוץ, או קבלנות משנה. אבל בשנים האחרונות יש הבנה חדשה, כי שיתוף הציבור הוא מהלך דו כיווני, מהלך שממנו לא רק ניזון הצורך האקדמי, אלא גם החברה עצמה יוצאת נשכרת, לומדת, שותפה, משפיעה. לפיכך התחום הזה מכונה כיום Citizen Science, מדע אזרחי. השנה הקמנו באוניברסיטת חיפה את מעבדת אליהו (eLijah Lab – eLearning in Jewish-Studies at Haifa) שמטרתה לממש פרויקטים של מדע אזרחי בתחומי מדעי היהדות, ואחד הפרויקטים הראשונים שלה יהיה שיתוף הציבור הרחב במאמץ תעתוק הגניזה הקהירית. מדובר לא רק בהקמת פלטפורמה ממוחשבת שדרכה יוכל הציבור לעזור במאמץ הקיטלוג, אלא גם בהתנעת תהליכים חינוכיים בבתי ספר ובמוסדות מורשת, כך שההשתתפות הציבורית במאמץ האקדמי תהיה גם בעלת ערך חינוכי.
שיתוף הציבור במאמצי ההעתקה של הגניזה הקהירית יהיה רק ציר אחד של המאמץ. הציר השני, שאנחנו מקווים לפנות אליו בהמשך הדרך, יהיה מבוסס על פנייה לטכנולוגיות בינה מלאכותית חדישות (HTR – Handwritten Text Recognition) שבהן מלמדים את המחשב לקרוא את הטקסטים באופן אוטומטי באמצעות למידה חישובית. כמובן, הקריאה של המחשב אינה מושלמת – אולם כאן ניתן לחזור אל הציבור, המציע תיקונים לקריאות השגויות של המחשב, וכך לשפר את יכולת הקריאה של המחשב, וחוזר חלילה.
עד לאחרונה מקובל מאוד היה לומר כי קריאה אוטומטית של טקסטים אינה מסוגלת להתמודד עם כתבי יד עתיקים. הטכנולוגיה התמקדה ביכולת לקרוא תו בודד (OCR), והצלחתה אכן הייתה מפוקפקת. כאשר ביקרתי באחת המעבדות שעסקה בזה, הופתעתי להבין עד כמה מגוון הכלים שכל אדם מכיר בקריאה – היכרות עם הקשר, היכרות עם מבנה המילה, היכרות עם טקסטים קרובים ודומים – אינו מנוצל כאשר המחשב מתמקד בקריאת האות הבודד. הטכנולוגיה החדשה, HTR, מבוססת על 'אימון' המחשב בקריאת שורות שלמות, כך שלמעשה המחשב רוכש גם ידע הקשרי על השפה, ומשתמש בידע הזה, ולכן מגיע לתוצאות טובות מאוד.
השלב הראשון של הפרויקט הזה כבר יצא לדרך, במסגרת שיתוף פעולה עם אוניברסיטאות אוקספורד, פנסילבניה ופרינסטון, עם כלי קטן, בסיסי וראשוני מאוד, שבו ניתן לבצע סיווג ראשוני של קטעי גניזה, המבוסס על היבטים חזותיים בלבד, אפילו אם לא יודעים לקרוא ערבית ועברית (חפשו בגוגלScribes of the Cairo Genizah והתחילו לתרום בעצמכם!). בהמשך יעלה גם השלב השני, והוא כלי תעתוק המונים של הגניזה הקהירית, וכל עם ישראל, ולמעשה כל החברה האנושית, יוזמנו לתרום למאמץ. בין המאמץ של הציבור, לבין הכלי הממוחשב, לבין ציבור החוקרים השותפים ומבקרים את הנעשה בפרויקטים כאלו, חייבת להתקיים דינמיקה של 'רצוא ושוב', שהיא בעיני התמצית והלוז של התחום המתחדש שנקרא מדעי הרוח הדיגיטליים.
בין המאמץ של הציבור, לבין הכלי הממוחשב, לבין ציבור החוקרים השותפים ומבקרים את הנעשה בפרויקטים כאלו, חייבת להתקיים דינמיקה של 'רצוא ושוב', שהיא בעיני התמצית והלוז של התחום המתחדש שנקרא מדעי הרוח הדיגיטליים
המחשב לא יחליף את המחשבה
הארכתי לספר על הפרויקט הספציפי הזה משום שהוא נותן דוגמה טובה המסבירה מה מתרחש בתחום החדש הנקרא 'מדעי הרוח הדיגיטליים', וכפי שלמדונו חז"ל, אין כמו דוגמאות ומקרים כדי ללמוד ולהבין. פרויקטים ממוחשבים בתחומי מדעי הרוח קיימים כבר כמה עשרות שנים, וכמה מהבולטים מהם בוצעו דווקא בתחומי היהדות, במדינת הסטארט־אפ ניישן שלנו, כמו פרויקט השו"ת, פרויקט פרידברג של הגניזה הקהירית ואחרים שהזכרתי לעיל. אולם כאן התרחשה תפנית מעניינת. בעשור האחרון הלך והתפתח בעיקר באירופה, אך גם בארצות הברית, שדה שיח חדש. מעבר לפרויקטים ממוחשבים בתחומי מדעי הרוח, מניח שדה השיח הזה גם כמה הנחות ערכיות עקרוניות על השליחות של מדעי הרוח בעידן הדיגיטלי: העידן הדיגיטלי הוא הזדמנות עבורנו, אנשי מדעי הרוח, לרדת ממגדל השן האקדמי, ולהשתתף השתתפות פעילה, תורמת ואיכותית בכיכר השוק הציבורית של היום, במרחב הדיגיטלי העצום.
מדעי הרוח הדיגיטליים עוסקים בחזון נרחב ומרחיק לכת של הנגשה מלאה של כל אוצרות התרבות והרוח האנושית. פרטתי כאן במיוחד על תחום עיסוקי וענייני, אולם מדעי הרוח הדיגיטליים מקיפים את כל תחומי הדעת, וגם את כל צורות המדיה של היצירה האנושית: שמע וקול, מוזיקה והקלטות, תמונות וציורים, פסלים, תיעוד ארכיאולוגי, מפות, תרשימים, ועוד, ועוד ועוד. הכלים השונים המפותחים על ידי אנשי מדעי הרוח הדיגיטליים כוללים, בהכרח, לא רק את האגירה, השימור, הארכוב וההנגשה של אוצרות התרבות הללו, אלא גם את הפיכתם לנתונים, לאינפורמציה, לחומר גלם לעיבוד ממוחשב ולאלגוריתמים, ומתוך כך למחקרים שמבוססים על מבט־על, שבו הכלי הממוחשב מאפשר 'לראות', או 'לסמן' תופעות נרחבות, מתוך היכולת להכיל את כמות המידע העצומה.
העידן הדיגיטלי הוא הזדמנות עבורנו, אנשי מדעי הרוח, לרדת ממגדל השן האקדמי, ולהשתתף השתתפות פעילה, תורמת ואיכותית בכיכר השוק הציבורית של היום, במרחב הדיגיטלי העצום
בתחום הניתוח הספרותי של טקסטים טבע פרנקו מורטי את המונח distant reading, 'קריאה מרחוק', העומד אל מול הקריאה הצמודה, close reading. בקריאה צמודה הקורא או הקוראת ניצבים באינטימיות ישירה עם הטקסט המסוים, חושינו פתוחים לכל ההשתמעויות העדינות המצויות, אנחנו קשובים לכל הטייה ולכל בחירה צורנית ותוכנית. קריאה מרחוק לעומת זאת היא התהליך בו אדם, ועתה גם המכונה, 'בולעים' כמויות אדירות של טקסטים, ומשגיחים בתופעות נרחבות עד מאוד, הניכרות רק מתוך המבט המקיף והרחב עד מאוד. קריאה כזאת, כך נדמה, יכול המחשב לבצע אפילו יותר טוב מן האדם.
כאן נבהלתי. ואם לא אני נבהלתי, לפחות רבים מחברי בתחומי מדעי הרוח נבהלו. האמנם ניתן להחליף את האדם הקורא, החושב, ההוגה, המבין, המביט, השואל, החוקר, המחפש, הנפגש מפגש ייחודי, סינגולארי, אישי וחד פעמי עם הטקסט והתרבות – במחשב? התשובה היא: בוודאי שלא. לתחום של מדעי הרוח הדיגיטליים יהיה לטעמי קיום אמת אם, ורק אם (כמו שאומרים אנשי המתמטיקה והמחשבים), תתקיים דינמיקה של רצוא ושוב בין המהלך האלגוריתמי למהלך של המבט של היחיד האנושי. כל תופעת תרבות ניתנת לייצוג מתמטי כלשהו. כל ייצוג כזה ניתן לעיבוד ולהשוואה לייצוגים אחרים בכלים אלגוריתמיים. אולם מה הם התוצרים של פעולות העיבוד וההשוואה הללו? מה היא המשמעות התרבותית שלהם, מה הם תורמים לנו להבנה של האדם ורוחו? רק אם התוצרים של העיבודים הללו (שבמקרים רבים מוצגים באינפו־גרפיקה, ולכן מכונים גם 'ויזואליזציות', המחשות חזותיות) יוחזרו אל תוך תהליך המחשבה האינטימי של האדם המחפש הבנה תהיה להם משמעות של ממש בשדה השיח החמקמק של מדעי הרוח.
לדוגמה, גרפים של הקשרים ושל היקף הפעילויות והתרומות של חכמים שונים לכתב העת במאה התשע עשרה, שיצר חוקר בשם זף סגל בכלים ממוחשבים, נעשים בעלי משמעות רק בשעה שהוא חוזר אל הנתונים הכתובים עצמם, ומראה כיצד הם מספרים סיפור מורכב של התהוות עולם שיח יהודי חדש באמצעות כתבי עת במאה התשע עשרה. גרפים מסוג דומה שייצר חוקר בשם אריה דובנוב על רשתות הקשרים של האינטלקטואליים היהודיים שנאלצו לברוח מגרמניה וממרכז אירופה בשנות השלושים זורק אור למשל על בידודם של חוקרים נדירים וייחודיים, כמו אוורבך שכתב את ספרו החשוב מימזיס במקום גלותו באיסטנבול, והפילוסוף של המדע קרל פופר שברח לאוסטרליה. התמונה הראשונית הזאת תהיה בעלת משמעות רק אם עתה נפנה להבין לעומק את הסיבות האישיות של הבחירה הייחודית של שני הוגים אלו להגר למקומות ייחודיים, ואת המשמעות התרבותית של ניתוקם מרשת התמיכה של מוסדות יהודיים באמריקה.
ההכרח הזה ברצוא ושוב הוא בין היתר משום שהייצוג המתמטי של הרוח, כלומר הייצוג המתמטי של האינפורמציה הגנוזה באוצרות התרבות והרוח האנושית, הוא תמיד ייצוג חלקי, הוא תמיד ייצוג שנולד מבחירות ושיקולים שלנו, הוא אף פעם לא מכיל את כל האמת כולה. הייצוג המתמטי מאפשר להצביע על זיקות ועל קשרים מסוימים, שעצם קיומם כשלעצמו אין לו משמעות וחשיבות עד שהם עוברים מן השדה של הנתונים והמידע אל המרחב הייחודי של הידע וההבנה (זה פחות או יותר הרצף: information > data > knowledge > undersanding). המעבר אל הידע וההבנה כרוך בחוויה הייחודית של המבין ברגע הייחודי שבו היא מתרחשת. במקרה הטוב הוא מצליח ליצוק אותה במילים, שבמקרה הטוב יותר גם מצליחות לעורר הבנה קרובה לזו שלו אצל הקורא. הדברים קשורים לעניין מורכב שבלי נדר אדון בו בהמשך הדרך, והוא טיבה הרשתי, ומתוך כך גם הייחודי, הסינגולארי של המחשבה של היחיד, של השפה, של התודעה התרבותית בכללה.
האמנם ניתן להחליף את האדם הקורא, החושב, ההוגה, המבין, המביט, השואל, החוקר, המחפש, הנפגש מפגש ייחודי, סינגולארי, אישי וחד פעמי עם הטקסט והתרבות – במחשב? התשובה היא: בוודאי שלא. לתחום של מדעי הרוח הדיגיטליים יהיה לטעמי קיום אמת אם, ורק אם (כמו שאומרים אנשי המתמטיקה והמחשבים), תתקיים דינמיקה של רצוא ושוב בין המהלך האלגוריתמי למהלך של המבט של היחיד האנושי
ממאמר אקדמי לדבר תורה ובחזרה
מתוך הבנה זו של רצוא ושוב הקמתי, יחד עם שותפים, תוכנית חדשה במדעי הרוח הדיגיטליים באוניברסיטת חיפה, שביסודה עומדת, בראש ובראשונה, הדרישה ללימוד בשני חוגים שונים. הסטודנטים נדרשים לרכישה מלאה של הכלים המתמטיים והממוחשבים שמוקנים בחוג למערכות מידע מזה, ולרכישה מלאה של אופני החשיבה וגופי הידע הנלמדים בחוג כלשהו ממדעי הרוח מזה. תנועת הרצוא ושוב בין החשיבה הממוחשבת, המדעית, המתוכננת, האלגוריתמית מזה, לבין בקשת הידע וההבנה מזה, מחייבת היכרות של ממש עם שני התחומים.
מדי פעם הסטודנטים שלי שומעים ממני את דבר הכפירה לפיו עבורי כל מאמר אקדמי ראוי יכול להיות מומר גם לדבר תורה, וכל דבר תורה ראוי יכול להיות מומר גם למאמר אקדמי. בקהילת קולות, מניין משותף בזכרון יעקב שהקמנו כמה משפחות לפני כשנה וחצי, אני שמח לשמש תמיד גיבוי לדבר תורה. אם יש צורך בדבר תורה של הרגע האחרון, אני עוצר, חושב על עבודתי האקדמית במהלך השבוע האחרון, שואל את עצמי מה היה בה שיש בו כדי לדובב את שיחתו של האדם את האל (וגם מתחבר איכשהו לפרשת השבוע…) ויוצא לדרך. המהלך הזה נשמע כמו שרלטנות אופורטוניסטית, אבל לא כך הוא. הוא משקף את התפיסה שלי את השיח בתחומי הרוח כשיח כפול – שיח שמתקיים בו זמנית בשני מרחבים. המרחב האחד הוא מרחב התובנה המשותפת לקהילה האנושית כולה, התובנה הדורשת שפה משותפת, אימות, בדיקה, הסכמה, אמות מידה מקובלות ותקפות, כל מה שמתקרב במשהו לשיח המדעי האופייני גם למדעי הטבע. המרחב השני הוא המרחב האישי, הפרטי, המתקיים בין אדם לעצמו, ואולי אף לאל; המרחב שבו לעיתים נגמרות המילים, המרחב שבו מתרחשת הבנה, הפנמה, ראייה, נגיעה, תנועה אל עבר, חיפוש, גילוי, הארה, מפגש, דיבורו של האדם את האל.
מבחינתי, הרצוא ושוב שאני מקיים בין האדם מבקש האלוקים הנושא דבר תורה בקרב הקהילה לבין החוקר, הוא בניין אב לרצוא ושוב שלדעתי יש לקיים בין השימוש בכלים ממוחשבים לבין הדיבור האנושי הייחודי המתקיים בתחומי הרוח. הוא הרצוא ושוב בין הכימות האובייקטיבי לכאורה של תוצרי הרוח לבין החוויה הייחודית של הבנה אנושית, אבל דומני שעל כך ראוי להרחיב בהזדמנות אחרת.
*משה לביא הוא מרצה לתלמוד ומדרש וראש שותף של התוכנית למדעי הרוח הדיגיטליים באוניברסיטת חיפה