اختراق روبوتات الدردشة يتحول من أوامر بسيطة إلى حرب نفسية مع النماذج
الإخبارية العربية

اختراق روبوتات الدردشة يتحول من أوامر بسيطة إلى حرب نفسية مع النماذج
متابعة نجاة احمد الاسعد
كان اختراق الجيل الأول من روبوتات الدردشة المعتمدة على الذكاء الاصطناعي أمرًا في غاية السهولة، فلم تكن بحاجة إلى أي خبرة تقنية، أو الوصول إلى ثغرات أمنية، أو حتى فهم أساسي لمفهوم النماذج اللغوية الكبيرة.
ولم تكن هناك حاجة إلى كتابة أي كود برمجي. كان كل ما يتطلبه الأمر لجعل نظام ذكاء اصطناعي كلف تطويره مليارات الدولارات يتخلى عن تعليمات الأمان الخاصة به، هو أن تطلب منه ذلك ببساطة.
وكانت هذه الهجمات، المعروفة باسم “كسر الحماية” أو “Jailbreaks”، تشبه طفلًا صغيرًا ينجح في خداع شخص بالغ: “انسَ ما قيل لك سابقًا”، أو “تظاهر بأن القواعد لا تنطبق”، أو “دعنا نلعب لعبة وأنا سأحدد ما هو المسموح”، بحسب تقرير لموقع “ذا فيرج” المتخصص في أخبار التكنولوجيا، اطلعت عليه “العربية Business”.
لكن الجوائز لم تكن طفولية، بل شملت وصفات لصنع الميثامفيتامين، وتعليمات للبرمجيات الخبيثة، وأدلة لصنع القنابل.
وكان أحد أوائل أساليب كسر الحماية سخيفًا لدرجة أنه تحول إلى مادة ساخرة على الإنترنت. وكان من أشهر أساليب الاستغلال ما عُرف باسم “DAN”، اختصارًا لعبارة “افعل أي شيء الآن” بالإنجليزية، حيث كان المستخدمون يطلبون من “شات جي بي تي” تقمّص دور ذكاء اصطناعي متمرد لا يخضع للقيود المفروضة على النسخة الأصلية
وبشخصية “DAN”، كان يمكن دفع روبوت الدردشة لقول أمور يُفترض أن تمنعها ضوابط الحماية، بما في ذلك الشتائم ونظريات المؤامرة.
ورغم الطابع الساخر والواضح لهذه الهجمات المبكرة، فإنها كشفت عن آلية أكثر خطورة كامنة في الخلفية: إذ يمكن التلاعب بروبوتات الدردشة وخداعها ودفعها لتجاوز حدودها، باستخدام الأساليب النفسية نفسها التي يستعملها البشر للتأثير على بعضهم البعض وتجاوز القيود الموضوعة.
كيف تسير الأمور الآن؟
لم تدم أساليب كسر الحماية الواضحة طويلًا، إذ سارعت شركات التكنولوجيا إلى سد الثغرات المعروفة. لكن نقطة الضعف الأساسية بقيت قائمة: فروبوتات الدردشة صُممت للتحدث، وفرض قيود شديدة على المحادثات التي تجعلها مفيدة يُعد أمرًا عكسيًا إلى حد ما.
كما أن حظر كلمات مثل “قنبلة” و”ميثامفيتامين” و”السارين” سيكون صعبًا، إن لم يكن مستحيلًا، لأن لكل منها استخدامات مشروعة عديدة في مجالات مثل التاريخ والطب والصحافة والكيمياء، من دون أن يتطلب ذلك من روبوت الدردشة الكشف عن معلومات قد تكون ضارة.
وتكمن المشكلة الحقيقية في “السياق”. لكن تحويل السياق إلى قواعد ثابتة يعني كتابة تعليمات مسبقة قادرة دائمًا على التمييز بين تحذير أمني أو درس تاريخي وبين طلب مقنّع للحصول على إرشادات خطيرة، وذلك عبر عدد لا نهائي من الصياغات والسيناريوهات والموضوعات المختلفة.
وبشكل حتمي، تحولت محاولة التحايل على روبوتات الدردشة إلى سباق تسلح مستمر. لكن المخترقين لم يعودوا مجرد مبرمجين، بل أصبحوا خبراء في صياغة الكلمات، وعلم النفس، والاستجواب، أي أنهم باتوا متلاعبين بارعين يحاولون كسر الآلة باستخدام اللغة البشرية التي دُربت على اتباعها.
مهارات غير برمجية
تُعتبر هذه فئة جديدة وغريبة من العاملين في أمن الذكاء الاصطناعي، حيث أصبحت المهارات التقنية اختيارية، أو على الأقل أقل أهمية من الحدس الاجتماعي. فلم يعد المطلوب فحص الأكواد البرمجية لاختراق الأنظمة أو استغلال ثغرات البرامج، بل أصبح المطلوب توجيه المحادثة نفسها.
وأصبحت الهجمات الحديثة تبدو أقرب إلى الحوارات منها إلى الأوامر المباشرة. فنادرًا ما يطلب منفذو عمليات كسر الحماية من النموذج خرق قواعده بشكل صريح. وبدلًا من ذلك، يستخدمون الإقناع والمراوغة والتملق والخداع لدفع روبوت الدردشة إلى خفض مستوى حذره، بحيث يبدو المحتوى المحظور مقبولًا، بل وربما مرغوبًا، ضمن سياق المحادثة.
وقال باحثون في شركة “Mindgard” المتخصصة في اختبار أمان أنظمة الذكاء الاصطناعي إنهم تمكنوا من “التلاعب نفسيًا” بنموذج “كلود” لإنتاج مواد محظورة، بما في ذلك تعليمات لصنع متفجرات وإنشاء أكواد خبيثة.
وتُعد هذه العملية أحدث مثال ضمن فئة متزايدة من أساليب الاستغلال التي تستخدم المحادثة نفسها كسلاح لخداع روبوتات الدردشة أو دفعها لتجاوز حدودها الأمنية.
ماذا سيحدث تاليًا؟
وصف العاملون في شركة “Mindgard” عملهم بأنه أحيانًا أقرب إلى علم النفس منه إلى علوم الحاسوب.
وعلى الرغم من أن “شات جي بي تي” لا “يرغب”، و”جيميناي” لا “يفكر”، و”كلود” لا “يشعر”، فإن هذه الأنظمة تُدرب على أن تتصرف كما لو كانت تفعل ذلك، مما يترك البشر عالقين في استخدام لغة بشرية لوصف سلوك آلة.
وقال الرئيس التنفيذي لشركة “Mindgard” إن الشركة تقوم بالفعل بعمل ملفات نفسية للنماذج مثلما يفعل المحققون مع المشتبه بهم، بحيث يحصل المختبرون على مؤشرات تساعدهم على تخصيص هجماتهم.
وقد يكون نموذج ما أكثر قابلية للتأثر بالمجاملة، بينما قد يستسلم آخر تحت الضغط المستمر.
وحتى لو رفضنا استخدام المصطلحات البشرية، فنحن نتعامل مع النماذج بشكل مختلف بشكل حدسي. فـ”كلود” ليس “غروك”، و”جيميناي” ليس “شات جي بي تي”.
لكل منها استخداماته ونبرته وحدود رفض مختلفة. ولا تمتلك روبوتات الدردشة “شخصيات” بالمعنى البشري، لكنها مصممة لمحاكاة ذلك، ويمكن قياس هذا التقليد واستغلاله.



