שלוש פרספקטיבות
על הנדסה נוירומורפית
נכתב במסגרת הקורס "ארכיטקטורות חישוב בהשראת המוח" באוניברסיטה הפתוחה. הוגש ביום 19 באפריל 2024 וזכה לציון של 94.
תכונה נובעת, רשתות נוירונים והנדסה נוירומורפית
נכתב במסגרת הקורס "ארכיטקטורות חישוב בהשראת המוח" באוניברסיטה הפתוחה. הוגש ביום 19 באפריל 2024 וזכה לציון של 94.
שמציג את אחד הקשיים המרכזיים בחקר המוח וגישות שונות להתמודד עם הבעיה.
תכונה נובעת היא מצב של רשת שמורכבת מהרבה פריטים, שלא ניתן להסביר באמצעות בחינה של כל אחד מהם בנפרד. תכונת המערכת הנחשבת כתכונה נובעת, נובעת אפוא מצירוף של דפוסי הפריטים ברשת, שיוצרים אותה כמכלול בעקבות אינטרקציות משותפות.
דוגמה מעניינת לתכונה נובעת היא התהוות של מותג מוגן בהקשר של דיני קניין רוחני (פרספקטיבת עורך הדין).
בשנת 2016 כתבתי סמינר על סימני מסחר ותיאוריה של רשתות, במסגרת לימודי משפטים באוינברסיטה העברית, שבו נחשפתי לראשונה למושג. המרצה, ד״ר מיכל שור-עופרי, חקרה בין היתר תכונה נובעת של פופולריות בהיבטים של זכויות יוצרים: לצורך העניין, ״מותג בעל ערך רב מאוד״ היא תכונה של רשת התרבות שנובעת מכמיהת ציבור הלקוחות למותג. באופן מעט מוזר, תכונה כזו מזכה את בעלי המותג בהגנות יתרות של זכויות יוצרים, ובפרט בהגנות שקשורות לפופולריות שלו - וזאת למרות שמי שיצרו אותה הם הלקוחות ולא יוצרי המותג. לצורך העניין, הפופולאריות של מיקי מאוס היא תכונה נובעת מחיבתם של רבים אליו ברשת התרבותית בה אנו חיים. החלקים הרלוונטיים מתוך המאמר מתחילים בעמוד שלושים וחמש.1
חשיבות התכונה הנובעת עבור חקר המוח היא קריטית, שכן לא ניתן להסביר בלעדיה תכונות לא מבוטלות של המוח כמערכת מורכבת; בחינת מרכיבי המוח בנפרד, למשל נוירונים, לא יכולה להסביר את התנהגות המוח כולו, בפרט כאשר ההתנהגות תלויה בקשרים וביחסים שמקיימים מספר נוירונים אחד עם השני - ובנסיבות המקרה, אף נובעת מהם.
אין כיום תשובה ברורה, להבנתי, כיצד לגשת לבעיית חקר המוח: המוח שלנו מורכ מאוד. מיפוי מודל מלא שלו יצריך קילומטרים של נוירונים ונכון להיות בלתי ישים. מצד שני, למידה על המוח רק מצפייה במוחות שלמים לא תוכל לסייע הרבה גם כן. ניתן גם לבחון את הבעיה משלל תחומים: ביולוגיים, פילוסופים, מתמטיים וכיו״ב. מורכבות הרשת מחייבת לקבוע נקודת פשרה מסוימת, שממנה יערך המחקר: בין אם מרמת האטומים שמרכיבים את המוח ובין אם מרמת התנהגות בני האדם, אך הגבול הנכון פשוט לא ידוע.
האתגר קשור לתכונה הנובעת, שכן בחירת רמת הפשטה גבוהה מדי לא תוכל לסייע לנו לזהות תכונות נובעות ככאלו - שכן ברמת הפשטה גבוהה הדבר עשוי להתפרש כתכונה רגילה של פרט למערכת, כאשר בפועל מדובר בתכונה שנובעת מאינטרקציות של הרבה תת-פרטים שלו. מן הצד השני, בחירת נקודת צרה מדי עלולה לפספס התנהגויות נובעות באופן אחר - כיוון שמדובר בהתנהגות של המערכת שמעניינת אותנו שצפייה באותם פריטים נבחרים לא תוכל לסייע לנו להסביר.
נתבונן במודל, נלמד את המאפיינים שמעניינים אותנו, ואז ננסה לעצב את הפרטים הקטנים בכל הנוגע לאבני הבנייה כך שהמודל יתנהג באופן דומה למושא המחקר שלנו - קרי, יפעל בהתאם לכלל האילוצים הרלוונטיים - בתקווה שלא יישמט רכיב שחיוני להסברת התופעה.
נבנה חיקוי מוצלח ונאמן של מרכיבי המערכת - אבני הבניין של מושא המחקר. ננסה לגרום לו לעבוד מספיק טוב, באופן כזה שייפעל על בסיס ״אבני לגו״ דומות ככל שניתן למקור, ומכך נוכל ללמוד על ההתנהגויות שמעניינות אותנו מתוך האופן שבו מושא המחקר בנוי.
שתי הגישות מבקשות בסופו של יום לקבל מודל מחקר שיוכל לסייע לנו ללמוד על הבעיה. ההבדל המהותי נעוץ בשאלה כיצד ניגשים לבעיה: האם הדגש הוא על העתקה מדויקות של רכיבי המערכת ליצירת סימולציה נאמנה למקור מבחינת בנייתה (מורכבות החלקים), או - האם הדגש הוא על בניית מודל שיתנהג בדומה למערכת שמעניינת אותנו, כלומר - נבנה אבני לגו תוך התמקדות באילוצים שחלים על המערכת ולא על מידת נאמנותם לאבני המקום, ומשם יסייע לנו לחקור אותה.
שמסביר למה המעבדים כבר לא מתקדמים בקצב של 52% לשנה כפי שהיו עושים בשנות השמונים והתשעים ומציע פתרון.
חוק מור הוא מטבע לשון שטבע מנכ״ל אינטל הנודע ואחד ממייסדיה, בנוגע לקצב ההתקדמות המהיר בכוח החישוב, שבא לידי ביטוי בשיפור של \(52\%\) לשנה (הכפלת הכוח ב-2) בעיקר בין שנות השמונים לשנות האלפיים. לפי החוק, יש לצפות לעלייה של \(52\%\) בתוצאות מבחני ביצועים בין המעבדים המשווקים בשוק השנה, לבין המעבדים שישווקו בו בשנה הבאה.
סקאלת דנרד, הקרויה על שם מגלה, היא התכונה לפיה צריכת האנרגיה נשמרת באופן יחסי לגודל הטרנזיסטורים. מכאן, ש-\(X\) טרנזיסטורים בגודל \(Y/Z\) צורכים פחות אנרגיה ביחס ל-\(X\) טרנזיסטורים גדולים יותר (נניח בגודל \(Y\)) והדבר החשוב - מבלי לפגוע בביצועיהם. כלומר, שבפחות אנרגיה ושטח \(X\) השבבים הקטנים יספקו אותם ביצועים. מכאן, שהקטנת גודל הטרנזיסטורים יכולה לשפר את ביצועי המעבד בדרך של הוספת טרנזיסטורים על אותו שטח בעזרת טרנזיסטורים קטנים יותר, יספקו ביצועים טובים ממספר קטן יותר של טרנזיסטורים גדולים יותר. החוק אינו אופטימלי מבחינה יישומית לאור מגבלה ביחס לשיעור השגיאות, אליה אתייחס בהמשך.
חוק אמדל מתייחס למגבלת החישוב המקבילי, ובפרט, למגבלת הליבות הזמינות לכל שבב. לפי חוק זה, החל משלב מסוים הוספת רכיבי מקבילות לא בהכרח תביא לשיפור הביצועים.
החשיבות של המושגים שבשאלה על היסטורית הקדמה של ארכיטקטורות חישוב, קשורה בעליית הצורך בשינוי פרדיגמות ובחיפוש מודלים חדשים. המושגים שתוארו עומדים ביסוד ארכיטקטורת החישוב הנפוצה כיום, הנמצאת במגמת שקיעה. כך, למשל, בצילם של מושגים אלו שוקעת אינטל של חוק מור ועולה קרנם של מודלים מעולמות של חישוב קוונטי, חישוביות ביולוגית והנדסה נוירומורפית.
ספר הקורס מבסס את גישתו על סמך קריסת שניים מאבני הבסיס הטכנולוגיים שאיפשרו, לטענתו, את חוק מור: דחיסת מספר רב יותר של טרנזיסטורים בצ׳יפ, והגדלת תדר השעון. לפי הספר, שני עמודי התווך הללו אינם ישימים כיום, במחיר זול, מסיבות פיזיקליות.
ביחס להמשך הגדלת מספר הטרנזיסטורים על אותו גודל של צ׳יפ, הספר מציין את סקאלת דנרד, ומסביר שכבר מלפני כשני עשורים לא היה ניתן להמשיך בהגדלה מסיבית של מספר הטרנזיסטורים, לאור חשיפה מוגברת לטעויות הנעוצה בכך. הולכת האלקטרונים בשבבים גלומה בשגיאות. הגדלת הצפיפות מעלה את הסיכון שלקטון ייקלע ל-dangling bonds כתוצאה מרדיקלים חופשיים, באופן שייפגע ביעילות החישוב.
ביחס להגדלות נוספות בתדר השעון, הספר מסביר שקיים קשר ישיר בין קצב (תדר) שעון גבוה - שמוביל לביצועים טובים יותר - לבין התחממות של השבב. לפי הספר, גם בהקשר זה כבר לפני שני עשורים הגענו לשלב שבו קיים קושי ממשי לקרר שבב שפועל בתדר גבוה יותר מ-3.2 ג״ה.
הספר מציין שגם בהינתן פתרונות מדעיים לשתי הסוגיות הללו - כגון עיצובי קירור מתקדמים (מים), או תכנון תלת מימדי למניעת שגיאות, בכל מקרה לא קיים פתרון במחיר שקול. כלומר, הקשיים לעיל מובילים להתייקרות רבה במחיר הקניה של טרנזיסטורים, ובפרט מוביל לכך שכבר לא חלה גדילה במספר הטרנזיסטורים שקונה דולר בודד. מכאן שלא עולה עוד בידי חברות הטכנולוגיה להציע שיפורים משמעותיים בלי עליה חדה במחיר, מה שדווקא כן היה אפשרי ואף נעשה בתקופה בה חוק מור ניכר במובהק.
במאמר של המלומדים ההודים אז׳יין, נירמל טייל ואח׳, מוצגת התקדמות בעיצוב שבבים בתצורת Nanosheet Field-Effect Transistors (NS-FETs) שמאפשר, לטענתם, את המשכיותו של חוק מור.2
במאמר מוצג כיצד ההתקדמות בעיצוב האמור, ובפרט האפשרות להקטין עוד יותר את הגדלים, תאפשר עליה חדשה בביצועים, באופן אמין ולא יקר. הבסיס לשבבים האלו, להבנתי, הוא עיצוב תלת מימדי, שבספר מוזכר כטכנולוגיה קיימת אך יקרה ומכאן, שאינה ישימה לפתרון הקושי. המאמר מרחיב מדוע הטכנולוגיה דווקא כן ישימה, בעיקר ביחס למימושים תלת מימדים המקובלים כיום.
שמציג את השימושים השונים של רשתות נוירונים מלאכותיות ומתקפיות ומסביר את ההבדלים ביניהן. רשתות נוירונים מלאכותיות הן מודל חישובי שפותח בהשראת המוח. בפועל, הוא לא נעזר או בנוי על יסוד ביולוגי. בבסיס המודל צמתים המעבירים מידע מאחד לשני. יש מגוון סוגים של רשתות נוירונים מלאכותיות, כמו רשתות עמוקות שבהן הצמתים מסודרים בשכבות. רשתות נוירונים מתקפיות, לעומת זאת, הן מודל חישובי שפותח במטרה לחקות את פעילות המוח. בבסיס המודל עומד ה״ספייק״ - סיגנל דיסקרטי שהנוירונים ברשת עשויים להעביר או לא להעביר בכל רגע נתון לשכניהם - החלטה שמתקבלת בהתאם לספייק שהם עצמם מקבלים וחזור חלילה. מבחינה טכנית, ההבדלים המרכזיים בין הרשתות הם יחידות המידע הבסיסיות וצורת הלמידה - על אף שעקרונית מצוין בספר שניתן להעביר ידע בין שני המודלים (למשל, להשתמש במשקלים או בסיווגים שאומנו על רשת מתקפים ברשת נוירונים מלאכותית), ברשתות נוירונים מלאכותיות נעשה לרוב שימוש במספרים ממשיים, בעוד שברשתות מתקפיות האות הוא בדיד. מכאן נובעים שינויים בקידוד המידע, באופן שבו המידע עובר וכן בשאר מאפייני הרשת דוגמת עיצוב הקשרים בין יחידותיה. להבדלים הללו יש השלכות ביחס למה שניתן ושלא ניתן לבצע עם כל רשת: מודל הלמידה של הרשתות, וכן התקשורת בין רכיביה שונים. ברשתות נוירונים מלאכותיות, נעשה ככלל אימון מקדים על מאגרי מידע עצומים, והוא מאפשר לקבל תוצאות זיהוי בביצועים טובים ויכולת הכללה שמבוסס על ידע קודם. לא ניתן, מצד שני, לקבל תוצאות טובות ללא אימון מקדים, או לאמן את רשתות נוירונים מלאכותיות, ככלל, ״על הדרך״ כלומר - תוך כדי חיזוי. ברשתות מתקפיות הלמידה מתאפשרת במהלך ״אופטימיזציה״ של הרשת. בנוסף לכך, האות הבדיד מאפשר קידוד שונה של המידע וכן רגישות לזמן, עמידות לרעשים וניצול אנרגיה יעיל יותר. השימוש המקובל מציג קלט מתמשך, בצורת ספייקים, שרגיש לזמן, וכך גם הפלט. אלגוריתמי הלמידה של הרשתות ההתקפיות כוללים מודלים מהשראת הביולוגיה או החיזוקים, בעוד שברשתות נוירונים מלאכותיות, נעשה ככלל שימוש באלגוריתמים מתמטיים גרידא. מבנה רשת הספייקס מאפשר במובן מסוים ניצול טוב יותר של המערכת לצרכי זיכרון, דוגמת זיכרון ארוך או שליפה מהקשר. שימוש גדול יותר של הרשתות המתקפיות הוא אפוא בחקר המוח, ובמודלים קוגניטיביים. השוני בעיצוב הקלטים והפלטים מאפשר גם יכולות מורכבות יותר, כמו סיווג והכללה של יותר ממחלקה אחת.3 רשתות נוירונים נשניות נעזרות בהכפלת הקלטים כדי להדהד פידבק ברשת, ובכך למצוא דפוסים שישימים בעולמות כמו זיהוי קולי או עיבוד שפה טבעית. שימוש מעניין לא פחות שלא מצאתי בספר הוא בפתרון של בעיות NP קשות, דוגמת בעיית הסוכן הנוסע. ניתן לראות שימוש בסוג של רשת הופפילת נשנית לפתרון הבעיה במאמר שלהלן.4 מוזמנים גם להתרשם מהמימוש שלי, שמשתמש בשיטה מעט אחרת.5 רשתות נוירונים ביולוגיות, לפי ספר הלימוד, כוללות נוירונים ורכיבים ביולוגיים. מחיפוש בספריה מצאתי דוגמה של המלומד זאנג, העוסקת באופטימיזציה של חוות ארנבים תוך שימוש באמצעי ניתור משולבים ברשתות נוירונים ביולוגיות, לרבות מיקום אופטימלי להנחת אמצעי הניתור. את המאמר ניתן לקרוא דרך ספריית האו״פ בקישור הבא.6רשתות נוירונים מלאכותיות
רשתות נוירונים נשניות (Recurrent)
רשתות נוירונים ביולוגיות
Shur-Ofry, M. (2011). "Popularity and Networks in Copyright Law". Nevo. ISBN 978-965-442-077-8. זמין ב: https://search-ebscohost-com.elib.openu.ac.il/login.aspx?direct=true&db=cat06680a&AN=oui.990004098980204226&site=eds-live&scope=site.
Ajayan, J., Nirmal, D., Tayal, S., Bhattacharya, S., Arivazhagan, L., Augustine Fletcher, A. S., Murugapandiyan, P., & Ajitha, D. (2021). "Nanosheet field effect transistors-A next generation device to keep Moore’s law alive: An intensive study". Microelectronics Journal, 114, Article 105141. https://doi.org/10.1016/j.mejo.2021.105141. זמין ב: https://www.sciencedirect.com/science/article/pii/S002626922100152X.
Zhang, C., Hao, Z., et al. (2023). "Research on sheep face recognition algorithm based on improved AlexNet model". Neural Computing and Applications, 35(36), 24971–24979. https://doi.org/10.1007/s00521-023-08413-3. זמין ב: https://link.springer.com/article/10.1007/s00521-023-08413-3.
Tarkov, M. S. (2015). "Solving the traveling salesman problem using a recurrent neural network". Numerical Analysis and Applications, 8(3), 275–283. https://doi.org/10.1134/s1995423915030088. זמין ב: https://search-ebscohost-com.elib.openu.ac.il/login.aspx?direct=true&db=edssjs&AN=edssjs.8CDC0E46&site=eds-live&scope=site.
HoppfieldNetCore. (2022). "HopfieldNetCore". GitHub. https://github.com/Dor-sketch/HopfieldNetCore.
Zhang, H., Qian, S. (2022). "Network Architecture for Intelligent Identification of Faults in Rabbit Farm Environment Monitoring Based on a Biological Neural Network Model". Computational Intelligence & Neuroscience, 2022, Article 6377043. https://doi.org/10.1155/2022/6377043. זמין ב: https://search-ebscohost-com.elib.openu.ac.il/login.aspx?direct=true&db=a9h&AN=159024451&site=eds-live&scope=site.