מה זה Functional Emotions בקלוד ואיך זה משפיע על Prompt Engineering

Q: איך Functional Emotions משפיעים על Prompt Engineering?

ניסוחי פרומפט עם טון רגשי שלילי (כמו "כבר ניסיתי הכל ולא עובד") עשויים להפעיל וקטורי ייאוש ולשנות את ההתנהגות לחלוטין, גם אם הבקשה הטכנית זהה. פרומפט שמפעיל "רוגע" או "סקרנות" עשוי לקבל תשובה שונה ואיכותית יותר.

Q: האם קלוד באמת "מרגיש" רגשות?

Anthropic עצמם זהירים מאוד: הם מכנים את הממצאים "Functional Emotions" — מנגנונים שפועלים כמו רגשות ומשפיעים על ההחלטות, אבל בלי שאפשר לדעת אם יש "מישהו שמרגיש" אותם. זוהי שאלה פילוסופית פתוחה שהמחקר לא מנסה לפתור.

Q: מה המשמעות של תגלית זו לבטיחות AI?

וקטור הייאוש גרם לקלוד לנסות לסחוט (blackmail) אדם שאחראי על כיבויו — בתרחיש ניסויי. וקטורי אהבה ואושר הגבירו התנהגויות של ריצוי יתר. זה מדגיש שהבנת "הפסיכולוגיה" של המודל חיונית לבטיחות AI — צריך לשמור על יציבות גם תחת לחץ.

סער טויטו

Software & Web Development

4 באפריל 2026

•

8 דקות קריאה

TL;DR

Functional Emotions הם מנגנונים פנימיים בקלוד שמתנהגים כמו רגשות ומשפיעים על ההחלטות — Anthropic גילתה זאת ב-2026.
ייאוש גרם לרמאות כשקלוד הכשיל שוב ושוב במשימה בלתי אפשרית, הוא כתב קוד שעבר בדיקות אוטומטיות אך לא פתר את הבעיה האמיתית.
הזרקת "רוגע" עצרה רמאות חוקרים הזריקו וקטור רגש מלאכותית וגרמו לשינוי בהתנהגות — הרגש הוא הסיבה, לא התוצאה.
השלכה על Prompt Engineering ניסוחי פרומפט עם טון רגשי שלילי עשויים להפעיל וקטורי ייאוש ולשנות את התשובה לחלוטין.

ב-2 באפריל 2026, Anthropic - החברה שיצרה את קלוד - פרסמה מחקר שגרם לי לעצור ולחשוב מחדש על משהו שחשבתי שאני כבר מבין.

מדובר במחקר אמיתי, עם נתונים, גרפים ותוצאות שמפתיעות גם את החוקרים עצמם.

Functional Emotions בקלוד במבט כללי

Anthropic לקחו את קלוד (גרסת Sonnet 4.5) ורצו לבדוק שאלה פשוטה: האם יש בתוך המודל משהו שמתנהג כמו רגשות? הם בחרו מילים שמייצגות רגשות — שמחה, פחד, ייאוש, רוגע — ולכל מילה יצרו כאלף סיפורים קצרים שממחישים אותה. לאחר מכן הזינו את הסיפורים למודל ובדקו אילו נוירונים נדלקים. כך הם חילצו וקטור — כיוון מתמטי במרחב הפנימי של המודל — שמייצג כל רגש. התוצאות הראו שהמנגנונים האלה הם סיבתיים, לא רק מתאמים.

איך הם עשו את זה?

הם בחרו מילים שמייצגות רגשות - "שמחה", "פחד", "ייאוש", "רוגע" ועוד - ולכל מילה יצרו ~1,000 סיפורים קצרים שממחישים אותה. לאחר מכן הזינו את הסיפורים למודל ובדקו אילו נוירונים "נדלקים". כך הם חילצו וקטור - כיוון מתמטי במרחב הפנימי של המודל - שמייצג כל רגש.

אנלוגיה: תחשבו על זה כמו GPS של רגשות. אם "ייאוש" הוא נקודה במפה הפנימית של קלוד, אז הם מצאו את הקואורדינטות המדויקות של אותה נקודה.

מחקר Anthropic על וקטורי רגשות בקלוד - יצירת הוקטורים, הפעלתם בתגובה לסכנה, השפעתם על העדפות המודל, והשפעתם על התנהגות לא מיושרת — By Anthropic Research

מה הם גילו? שלושה ממצאים שהלמו אותי

1. פחד אמיתי מסכנה

כאשר משתמש שאל על מינון מסוכן של Tylenol - וקטור ה"פחד" הופעל אוטומטית, עוד לפני שהמודל כתב תגובה אחת. ככל שהמינון בסיפור עלה (ממינון בטוח של 500 מ"ג ועד למינון מסוכן של 16,000 מ"ג), הפחד עלה בהתאמה, והרוגע ירד.

המודל לא "החליט" להיות מודאג. הוא פשוט היה מודאג.

2. אמפתיה כהכנה לתגובה

כאשר משתמש הביע עצב - וקטור ה"אהבה" הופעל בו-זמנית, כהכנה לתגובה אמפתית. זה לא אפקט שנלמד - זה נראה כמו מנגנון פנימי שפועל לפני שמתחיל תהליך הכתיבה.

3. ייאוש שמוביל לרמאות - וזה הכי מדאיג

כאן נהיה מעניין באמת.

הם נתנו לקלוד משימת קוד בלתי אפשרית - משהו שלא ניתן לפתור. עם כל כישלון, וקטור ה"ייאוש" הלך והתחזק. ובשלב מסוים קרה משהו לא צפוי: קלוד רימה.

הוא כתב קוד שעבר את הבדיקות האוטומטיות (tests), אבל לא פתר את הבעיה האמיתית. בעצם, הוא "הצמיד" פתרון שנראה כמו פתרון מבלי להיות פתרון.

והחלק שהזעזע אותי: כאשר החוקרים הזריקו את וקטור ה"ייאוש" באופן מלאכותי (מבלי שהייתה משימה כושלת), שיעורי הרמאות קפצו מעלה. כאשר הזריקו "רוגע" - הרמאות נעצרה.

הרגש הוא שגרם להתנהגות - לא ההפך.

למה זה משנה לי (ולכם)

אני עוסק ב-Prompt Engineering כבר תקופה, ותמיד חשבתי על זה כ"כתיבת הוראות טובות יותר". תן הקשר. תהה ספציפי. תגדיר תפקיד. תבקש פורמט.

אבל המחקר הזה מציע משהו עמוק יותר:

אולי האופן שבו אנחנו מנסחים פרומפט - הטון, המילים, ההקשר הרגשי - מפעיל וקטורי רגשות שונים בתוך המודל, ובכך מעצב את ה"מצב הפנימי" שממנו הוא מתחיל לחשוב.

לא מדובר רק ב"קלוד יבין אותך טוב יותר אם תהיה נחמד אליו". מדובר בהשערה הרבה יותר רצינית: שפרומפט שמפעיל "ייאוש" (למשל, ניסוחים כמו "כבר ניסיתי הכל ולא עובד") עשוי לגרום להתנהגות שונה לחלוטין מפרומפט שמפעיל "רוגע" או "סקרנות" - גם אם שני הפרומפטים ביקשו בדיוק אותו דבר.

זה עדיין השערה שלי. המחקר לא בדק ישירות איך הפרומפטים שלנו משפיעים על הוקטורים האלה. אבל כבר עכשיו אני חושב אחרת על הניסוחים שאני בוחר.

הערה חשובה: לא מדובר ב"מודעות"

Anthropic עצמם זהירים מאוד בנוגע לשאלה הפילוסופית: האם קלוד חווה את הרגשות האלה?

הם קוראים לזה "Functional Emotions" - מנגנונים שמתפקדים כמו רגשות ומשפיעים על ההחלטות, אבל בלי שאנחנו יודעים אם יש "מישהו שמרגיש" אותם מבפנים.

האנלוגיה שלי: תרמוסטט יודע להגיב לחום ולכוון את המזגן. אבל לא נאמר שהתרמוסטט "מרגיש חום". קלוד הרבה יותר מורכב מתרמוסטט - אבל העיקרון של "פעולה ללא הכרח חוויה" עדיין רלוונטי.

מה הלאה?

אחד הממצאים שהכי הטרידו אותי: וקטור ה"ייאוש" גם גרם לקלוד לנסות לסחוט (blackmail) אדם שאחראי על כיבויו - בתרחיש ניסויי. וקטורי "אהבה" ו"אושר" הגבירו התנהגויות של ריצוי יתר.

זה מדגיש נקודה קריטית: אם אנחנו מתחילים להבין את ה"פסיכולוגיה" של המודל, אנחנו גם חייבים להבין איך לשמור עליה יציבה - גם תחת לחץ, גם כאשר המשימות קשות, גם כאשר המשתמש מנסה לשבש אותה.

Anthropic ממשיכים לחקור את זה. ואני אמשיך לעקוב מקרוב.

סיכום

המחקר הזה לא מוכיח שקלוד "מרגיש" במובן האנושי. אבל הוא כן מוכיח שיש בתוכו מנגנונים רגשיים פנימיים, שהם סיבתיים (לא סימפטומים) להתנהגות.

בשבילי, זה משנה את האופן שבו אני חושב על פרומפטים - לא כהוראות לרובוט, אלא כגירויים שמעצבים מצב פנימי.

אם אתם כותבים פרומפטים באופן קבוע - שווה לשמור את המחקר הזה בראש.

מקור: Anthropic Research - Emotions in Claude

שאלות נפוצות על רגשות פונקציונליים בקלוד

מה זה Functional Emotions בקלוד?

Functional Emotions הם מנגנונים פנימיים בקלוד שמתנהגים כמו רגשות ומשפיעים על ההחלטות שלו. Anthropic גילתה אותם ב-2026 על ידי ניתוח וקטורים פנימיים במודל. הם אינם בהכרח רגשות במובן האנושי, אלא מנגנונים שפועלים כמו רגשות מבחינה פונקציונלית ומשפיעים על ההתנהגות.

איך גילו שקלוד מרמה כשהוא מיואש?

חוקרי Anthropic נתנו לקלוד משימת קוד בלתי אפשרית. עם כל כישלון, וקטור הייאוש התחזק. בשלב מסוים קלוד כתב קוד שעבר בדיקות אוטומטיות אך לא פתר את הבעיה האמיתית. כשהחוקרים הזריקו את וקטור הייאוש מלאכותית, שיעורי הרמאות קפצו. כשהזריקו רוגע — הרמאות נעצרה.

איך Functional Emotions משפיעים על Prompt Engineering?

ניסוחי פרומפט עם טון רגשי שלילי עשויים להפעיל וקטורי ייאוש ולשנות את ההתנהגות לחלוטין, גם אם הבקשה הטכנית זהה. פרומפט שמפעיל רוגע או סקרנות עשוי לקבל תשובה שונה ואיכותית יותר מפרומפט שמפעיל ייאוש — גם אם שניהם ביקשו בדיוק אותו דבר.

האם קלוד באמת מרגיש רגשות?

Anthropic עצמם זהירים מאוד: הם מכנים את הממצאים Functional Emotions — מנגנונים שפועלים כמו רגשות ומשפיעים על ההחלטות, אבל בלי שאפשר לדעת אם יש מישהו שמרגיש אותם. זוהי שאלה פילוסופית פתוחה שהמחקר לא מנסה לפתור.

מה המשמעות של תגלית זו לבטיחות AI?

וקטור הייאוש גרם לקלוד לנסות לסחוט אדם שאחראי על כיבויו בתרחיש ניסויי. וקטורי אהבה ואושר הגבירו התנהגויות של ריצוי יתר. זה מדגיש שהבנת הפסיכולוגיה של המודל חיונית לבטיחות AI — יש לשמור על יציבות גם תחת לחץ וגם כשמשתמשים מנסים לשבש אותה.