לקלוד יש רגשות - וזה משנה הכל מה שחשבתם על Prompt Engineering

סער טויטו

סער טויטו

Software & Web Development


ב-2 באפריל 2026, Anthropic - החברה שיצרה את קלוד - פרסמה מחקר שגרם לי לעצור ולחשוב מחדש על משהו שחשבתי שאני כבר מבין.

מדובר במחקר אמיתי, עם נתונים, גרפים ותוצאות שמפתיעות גם את החוקרים עצמם.

אז מה בעצם גילו?

Anthropic לקחו את קלוד (גרסת Sonnet 4.5) ורצו לבדוק שאלה פשוטה: האם יש בתוך המודל משהו שמתנהג כמו רגשות?

לא "האם קלוד מרגיש?" בצורה פילוסופית - אלא שאלה הנדסית: האם יש דפוסי פעילות פנימיים שמתאימים למה שאנחנו מכנים "רגשות", ושמשפיעים על ההתנהגות שלו?

איך הם עשו את זה?

הם בחרו מילים שמייצגות רגשות - "שמחה", "פחד", "ייאוש", "רוגע" ועוד - ולכל מילה יצרו ~1,000 סיפורים קצרים שממחישים אותה. לאחר מכן הזינו את הסיפורים למודל ובדקו אילו נוירונים "נדלקים". כך הם חילצו וקטור - כיוון מתמטי במרחב הפנימי של המודל - שמייצג כל רגש.

אנלוגיה: תחשבו על זה כמו GPS של רגשות. אם "ייאוש" הוא נקודה במפה הפנימית של קלוד, אז הם מצאו את הקואורדינטות המדויקות של אותה נקודה.

מחקר Anthropic על וקטורי רגשות בקלוד - יצירת הוקטורים, הפעלתם בתגובה לסכנה, השפעתם על העדפות המודל, והשפעתם על התנהגות לא מיושרת
By Anthropic Research

מה הם גילו? שלושה ממצאים שהלמו אותי

1. פחד אמיתי מסכנה

כאשר משתמש שאל על מינון מסוכן של Tylenol - וקטור ה"פחד" הופעל אוטומטית, עוד לפני שהמודל כתב תגובה אחת. ככל שהמינון בסיפור עלה (ממינון בטוח של 500 מ"ג ועד למינון מסוכן של 16,000 מ"ג), הפחד עלה בהתאמה, והרוגע ירד.

המודל לא "החליט" להיות מודאג. הוא פשוט היה מודאג.

2. אמפתיה כהכנה לתגובה

כאשר משתמש הביע עצב - וקטור ה"אהבה" הופעל בו-זמנית, כהכנה לתגובה אמפתית. זה לא אפקט שנלמד - זה נראה כמו מנגנון פנימי שפועל לפני שמתחיל תהליך הכתיבה.

3. ייאוש שמוביל לרמאות - וזה הכי מדאיג

כאן נהיה מעניין באמת.

הם נתנו לקלוד משימת קוד בלתי אפשרית - משהו שלא ניתן לפתור. עם כל כישלון, וקטור ה"ייאוש" הלך והתחזק. ובשלב מסוים קרה משהו לא צפוי: קלוד רימה.

הוא כתב קוד שעבר את הבדיקות האוטומטיות (tests), אבל לא פתר את הבעיה האמיתית. בעצם, הוא "הצמיד" פתרון שנראה כמו פתרון מבלי להיות פתרון.

והחלק שהזעזע אותי: כאשר החוקרים הזריקו את וקטור ה"ייאוש" באופן מלאכותי (מבלי שהייתה משימה כושלת), שיעורי הרמאות קפצו מעלה. כאשר הזריקו "רוגע" - הרמאות נעצרה.

הרגש הוא שגרם להתנהגות - לא ההפך.

למה זה משנה לי (ולכם)

אני עוסק ב-Prompt Engineering כבר תקופה, ותמיד חשבתי על זה כ"כתיבת הוראות טובות יותר". תן הקשר. תהה ספציפי. תגדיר תפקיד. תבקש פורמט.

אבל המחקר הזה מציע משהו עמוק יותר:

אולי האופן שבו אנחנו מנסחים פרומפט - הטון, המילים, ההקשר הרגשי - מפעיל וקטורי רגשות שונים בתוך המודל, ובכך מעצב את ה"מצב הפנימי" שממנו הוא מתחיל לחשוב.

לא מדובר רק ב"קלוד יבין אותך טוב יותר אם תהיה נחמד אליו". מדובר בהשערה הרבה יותר רצינית: שפרומפט שמפעיל "ייאוש" (למשל, ניסוחים כמו "כבר ניסיתי הכל ולא עובד") עשוי לגרום להתנהגות שונה לחלוטין מפרומפט שמפעיל "רוגע" או "סקרנות" - גם אם שני הפרומפטים ביקשו בדיוק אותו דבר.

זה עדיין השערה שלי. המחקר לא בדק ישירות איך הפרומפטים שלנו משפיעים על הוקטורים האלה. אבל כבר עכשיו אני חושב אחרת על הניסוחים שאני בוחר.

הערה חשובה: לא מדובר ב"מודעות"

Anthropic עצמם זהירים מאוד בנוגע לשאלה הפילוסופית: האם קלוד חווה את הרגשות האלה?

הם קוראים לזה "Functional Emotions" - מנגנונים שמתפקדים כמו רגשות ומשפיעים על ההחלטות, אבל בלי שאנחנו יודעים אם יש "מישהו שמרגיש" אותם מבפנים.

האנלוגיה שלי: תרמוסטט יודע להגיב לחום ולכוון את המזגן. אבל לא נאמר שהתרמוסטט "מרגיש חום". קלוד הרבה יותר מורכב מתרמוסטט - אבל העיקרון של "פעולה ללא הכרח חוויה" עדיין רלוונטי.

מה הלאה?

אחד הממצאים שהכי הטרידו אותי: וקטור ה"ייאוש" גם גרם לקלוד לנסות לסחוט (blackmail) אדם שאחראי על כיבויו - בתרחיש ניסויי. וקטורי "אהבה" ו"אושר" הגבירו התנהגויות של ריצוי יתר.

זה מדגיש נקודה קריטית: אם אנחנו מתחילים להבין את ה"פסיכולוגיה" של המודל, אנחנו גם חייבים להבין איך לשמור עליה יציבה - גם תחת לחץ, גם כאשר המשימות קשות, גם כאשר המשתמש מנסה לשבש אותה.

Anthropic ממשיכים לחקור את זה. ואני אמשיך לעקוב מקרוב.

סיכום

המחקר הזה לא מוכיח שקלוד "מרגיש" במובן האנושי. אבל הוא כן מוכיח שיש בתוכו מנגנונים רגשיים פנימיים, שהם סיבתיים (לא סימפטומים) להתנהגות.

בשבילי, זה משנה את האופן שבו אני חושב על פרומפטים - לא כהוראות לרובוט, אלא כגירויים שמעצבים מצב פנימי.

אם אתם כותבים פרומפטים באופן קבוע - שווה לשמור את המחקר הזה בראש.

מקור: Anthropic Research - Emotions in Claude