סיקור מקיף

ענקית הווידאו

ד”ר טלי דקל ניצבת בחזית המחקר של generative AI ושותפה לפיתוח לומייר – מחולל הווידאו של גוגל. “אנחנו רוצים לדעת אם מכונות יכולות לאפשר לנו לראות טוב יותר את העולם”, היא אומרת

משמאל – תמונה של זוג במטבח, מימין – צילום שיצר המודל הממוחשב לאחר שהוצג לו הצילום המקורי בצירוף ההנחיה: "שני רובוטים רוקדים במטבח"
משמאל – תמונה של זוג במטבח, מימין – צילום שיצר המודל הממוחשב לאחר שהוצג לו הצילום המקורי בצירוף ההנחיה: “שני רובוטים רוקדים במטבח”

לפני שנים ספורות זה היה נשמע דמיוני לגמרי. מדי יום, מיליוני אנשים בעולם מפעילים בקלות מערכות של בינה מלאכותית יוצרת (generative AI) שמפיקות במהירות מסחררת טקסטים, תמונות וסרטונים. חלק מהתוצרים נראים כאילו הם מעשה ידי אדם, ואילו אחרים מציגים מראות שמעולם לא התקיימו.

ההתקדמות המהירה של מודלי שפה גדולים (LLM), שלאחר שנים ארוכות של פיתוח החלו לייצר טקסטים מורכבים ואמינים למדי, הפתיעה אפילו את המומחים בתחום. כתוצאה מכך, הופנה זרקור גם אל המודלים היוצרים תמונות וסרטונים – והפיתוח שלהם הואץ. כיום, מודלים אלה מסוגלים ליצור בתוך שניות סרטון מציאותי של רחוב עירוני  או של סנאי מטייל על הירח, כשכל מה שנדרש הוא להזין אליהם טקסטים קצרים או להציב בפניהם תמונות בתור מקור ויזואלי. אך לצד היכולות האדירות והחששות מן הסיכונים הטמונים במחשבים בעלי עוצמות כאלה, טווח הפעולה של רשתות הלמידה העמוקה עדיין מוגבל, במיוחד בכל הקשור לווידאו, וזהו אתגר שמעסיק מדענים רבים.

במעבדה לחקר הראייה הממוחשבת של ד”ר טלי דקל מהמחלקה למדעי המחשב ולמתמטיקה שימושית במכון ויצמן למדע שואפים לפרוץ את המגבלות של המכונות היוצרות, ולנסות להביא אותן אל הרמה האנושית ואולי אף מעבר אליה. “אני מגדירה את תחום המחקר שלנו בתור Re-Rendering Reality, כלומר יצירה מחודשת של העולם החזותי באמצעות כלים חישוביים”, מספרת ד”ר דקל. “אנחנו מנתחים תמונות וסרטונים ומתמקדים במרכיבים מסוימים מתוכם, ואז יוצרים גרסה חדשה של התמונה או הסרטון עם מאפיינים שונים. המטרה שלי היא להעשיר את הדרך שבה אנחנו רואים את העולם, לאפשר לנו יותר יצירתיות ואפילו אינטראקציה חדשה עם מידע ויזואלי. תוך כדי המחקר, אנחנו מעלים שאלות מעניינות, כמו ‘האם מכונות יכולות לאפשר לנו לראות טוב יותר את העולם?'”, היא מוסיפה. 

לצד עבודתה במכון ויצמן, ד”ר דקל היא גם חוקרת בחברת “גוגל”. בעוד שבמכון ויצמן היא מתמקדת בפריצת המגבלות של מודלי בינה מלאכותית קיימים, בגוגל היא שותפה לפיתוח של מודלים חדשים, כמו מודל הווידאו פורץ הדרך “לומייר” שבאחרונה תוצרים שלו נחשפו לציבור הרחב. לומייר מסוגל להפיק מגוון עשיר ומרשים של סרטונים או לערוך סרטונים קיימים בהתאם להנחיות המוזנות אליו כמשפט קצר או כתמונת רפרנס. כך למשל, סדרה של סרטונים מציגה איך אישה שרצה בפארק הופכת לדמות עשויה מקוביות עץ, מלבנים צבעוניות או מפרחים. כאשר לומייר קיבל תמונה של קטר ישן ומעלה עשן הנוסע על מסילת ברזל, עם סימון של מקטע התמונה המכיל את העשן, המודל הממוחשב יצר תמונה מונפשת חלקית שבה רק העשן נע – וזאת באופן אמין ביחס לשאר חלקי התמונה שנותרים ללא שינוי. בדוגמאות משעשעות אחרות המונה ליזה של דה וינצ’י מפהקת, והנערה עם עגיל הפנינה מהציור של ורמיר מחייכת.

“לומייר הוא מודל של טקסט-לווידאו, היוצר סרטונים עם תנועה ריאליסטית, מגוונת וקוהרנטית – אתגר בולט ביצירת סרטונים”, כותבים החוקרים, ובהם ד”ר דקל, במאמר שמציג את המודל. הייחודיות של לומייר היא ביכולת ליצור רצף מלא של פריימים ללא הפסקות ביניהם, לעומת מודלים אחרים שמפיקים תחילה פריימים מרכזיים ומרוחקים על רצף הזמן והמקום, ורק לאחר מכן משלימים את התנועה שמתרחשת ביניהם. בשל כך, במודלים האחרים ישנו קושי לשמור על תנועה אמינה ומשכנעת, בעוד לומייר מסוגל ליצור רצפים שלמים של תנועה באיכות גבוהה במיוחד.

אבל איך מודלים של למידה עמוקה מצליחים לבצע את הקסמים האלה? מתברר שגם למדענים הדבר אינו ברור לגמרי. מסבירה ד”ר דקל: “התחום של הבינה המלאכותית היוצרת עבר שינוי פרדיגמה. בעבר הלא רחוק, המודלים היו הרבה יותר קטנים, פשוטים ונועדו לפתור משימות ספציפיות, לרוב על ידי שימוש במידע מתויג.  לדוגמה, על מנת ללמד מחשב לזהות אובייקטיבים בתמונות, היה צורך להציג בפניו אוסף תמונות שבו הם מתויגים ולהסביר לו שכאן ישנה מכונית, שם ישנו חתול וכך הלאה. כיום, המודלים גדלו והשתכללו והם מסוגלים ללמוד מכמות עצומה של מידע, ללא תיוג אנושי. המודלים לומדים ייצוג אוניברסלי של העולם החזותי שיכול לשמש למגוון משימות, ולא רק למשימה הספציפית שאליה הם אומנו מלכתחילה”. אך בעוד ששכלול יכולת הלמידה העצמית של המודלים ניכר לעין, אנחנו עדיין לא יודעים איך בדיוק הם פועלים. “חלקים ניכרים מרשתות הבינה העצבית הם ‘קופסאות שחורות’ עבורנו”, מוסיפה ד”ר דקל. האנגימה מתחדדת כשמדובר במודלים שיוצרים סרטונים, מכיוון שכל שנייה של סרטון מורכבת מכ-25 תמונות שונות, ולכן הגודל של רשתות המחשבים הנדרשות לשם כך, והאתגרים החישוביים שעמם הן מתמודדות, מתעצמים עוד יותר ביחס למודלים שיוצרים טקסטים או תמונות – וכך מתרחב גם טווח הפעולה שאינו מובן לחוקרים.

מבחינתה של ד”ר דקל, ה”קופסאות שחורות” של המודלים הן הזדמנות פורה למחקר: “תוך כדי תהליך הלימוד העצמי, המודלים צברו ידע אדיר על העולם. כחלק מהמחקר על יצירה מחדש של המציאות בכלים דיגיטליים, אנחנו מנסים להפיק תוצרים חדשים מהמודלים הקיימים כמעט בלי לשנות אותם, אלא רק על-ידי פענוח טוב יותר של דרכי הפעולה שלהם תוך ניסיון לחשוף משימות חדשות שאותן הם מסוגלים לבצע”, אומרת ד”ר דקל על המחקר שבו שותפים ד”ר שי בגון ממכון ויצמן למדע, יוני קסטן מאנבידיה והסטודנטים עומר בר טל, נרק טומניאן, מיכל גייר, רפאיל פרידמן ודנה יתים.

החוקרים במעבדה של ד”ר דקל מחפשים אחר דרכי עיבוד חכמות הכוללות פירוק התוכן למרכיבים פשוטים יותר, כמו תמונה המציגה את הרקע של הסרטון ותמונות אחרות שכל אחת מהן מוקדשות לאובייקטים המשתנים במהלך הסרטון. הפרדה זו מקלה מאוד על העריכה: במקום לעבד מספר אדיר של פיקסלים, נערכת תמונה אחת בלבד וכל הפריימים האחרים משתנים בהתאם. לדוגמה, אם צבע של שמלה משתנה בפריים אחד, המודל מבין איך לעדכן את השינוי בסרטון כולו כדי שההמשכיות תישמר. אתגר נוסף שמעסיק את החוקרים נובע מהעובדה שתוצרים רבים של המודלים אינם נראים אמינים והאובייקטים שמופיעים בהם נעים באופן שונה מכפי שהיינו מצפים על פי ניסיוננו בעולם.

במסגרת המאמצים לגרום למודלים להפיק סרטונים שבהם התנועה היא עקבית והגיונית, במעבדה של ד”ר דקל הראו איך ניתן להרחיב את היכולת של מודל שמייצר תמונה על פי טקסט – כך שיוכל גם ליצור ולערוך סרטונים. לדוגמה, הם הזינו למודל בקוד פתוח שנקרא Stable Diffusion סרטון של זאב שמסיט את ראשו מימין לשמאל, וביקשו ממנו ליצור סרטון דומה שבו מופיעה בובה סמרטוטית הדומה לזאב. בתחילה הסרטון שיצר המודל נראה מקוטע ולא אמין, אבל על-ידי זיהוי הייצוגים של המרכיבים השונים בתמונות והבנה מעמיקה יותר של ההוראות שאותן יש להזין למודל – החוקרים הצליחו לגרום ליצירה של סרטון שבו בובת הזאב נעה באופן משכנע.

משמאל – תמונה של זוג במטבח, מימין – צילום שיצר המודל הממוחשב לאחר שהוצג לו הצילום המקורי בצירוף ההנחיה: "שני רובוטים רוקדים במטבח"
משמאל – תמונה של זוג במטבח, מימין – צילום שיצר המודל הממוחשב לאחר שהוצג לו הצילום המקורי בצירוף ההנחיה: “שני רובוטים רוקדים במטבח”

באחרונה קיבלה ד”ר דקל מענק של מועצת המחקר האירופית (ERC) לחוקרים צעירים בסכום של 1.5 מיליון יורו. במסגרת המענק, היא מתכננת להתמודד עם מגבלות נוספות שמעכבות את המודלים בדרכם ליצירה ולעריכה של סרטונים. בשל המורכבות הרבה של עיבוד וידאו, ישנו פער משמעותי בין הידע שמודל כזה צבר מהסרטונים הרבים שבאמצעותם הוא התאמן, לבין המאפיינים הייחודיים של תנועה בסרטון מסוים שאותו מבקשים מהמודל ליצור. ד”ר דקל תנסה לפתח מודל שיוכל להסיק טוב יותר מהניסיון הנצבר שלו על אלפי סרטונים שונים לגבי הצרכים של סרטון אחד בודד.

ומה לגבי החששות מפני העוצמה האדירה הטמונה במודלים הממוחשבים? ד”ר דקל אומרת: “ישנו איזון עדין בין המודעות להשפעה של הטכנולוגיה, על הסיכונים הטמונים בכך, לבין הרצון לקדם אותה, וזו המחויבות שלנו לשמור על כך. ייתכן שלפעמים נדמה לציבור הרחב כאילו המודלים הם כל-יכולים, אבל זה אינו המצב כיום. המטרה המרכזית שלי בתור חוקרת היא להרחיב את האפשרויות היצירתיות שעומדות בפני כל אחד, גם מי שהם לא אנשי מקצוע, ולקדם את המדע ואת היכולת החישובית לראות את העולם”.

עוד בנושא באתר הידען: