مسموم‌سازی هوش مصنوعی؛ بازگشت سئوی کلاه سیاه

تحقیقات تازه نشان می‌دهد که مدل‌های زبانی بزرگ (LLMs) برخلاف تصور رایج، در برابر دستکاری آسیب‌پذیر هستند و حتی با تعداد محدودی محتوای مخرب می‌توان آن‌ها را مسموم کرد. این مسئله یادآور دوران اولیه موتورهای جستجو است؛ زمانی که سئوی کلاه سیاه با سوءاستفاده از ضعف الگوریتم‌ها رواج داشت.

امروز، با گسترش هوش مصنوعی، میدان رقابت از رتبه‌بندی گوگل به دیده‌شدن در پاسخ‌های هوش مصنوعی منتقل شده است؛ فضایی که هنوز سازوکارهای دفاعی آن به بلوغ نرسیده‌اند. همان‌گونه که در نمونه‌هایی مانند سوءاستفاده از سیستم‌های غربالگری رزومه‌های مبتنی بر هوش مصنوعی دیده می‌شود، تکنیک‌های قدیمی دستکاری دوباره در قالبی جدید بازگشته‌اند. این شرایط، تهدیدی جدی برای برندها و اعتبار اطلاعات در اکوسیستم هوش مصنوعی ایجاد می‌کند و ضرورت اتخاذ راهبردهای پیشگیرانه و هوشمندانه را بیش از پیش برجسته می‌سازد.

منظور از مسموم‌سازی هوش مصنوعی

تصویر(1)

مسموم‌سازی هوش مصنوعی

اگر گفته شود که در حال حاضر امکان دستکاری و تأثیرگذاری بر پاسخ‌های هوش مصنوعیِ مرتبط با یک برند برای برخی افراد وجود دارد، چه پیامدی خواهد داشت؟

برای نمونه، بازیگران مخرب می‌توانند داده‌های آموزشی یک مدل زبانی بزرگ (LLM) را به‌گونه‌ای دستکاری کنند که در صورت درخواست یک مشتری بالقوه از هوش مصنوعی برای مقایسه محصولات مشابه از برندهای رقیب، پاسخی تولید شود که محصول یک برند را به‌شکلی قابل‌توجه و نادرست معرفی کند یا حتی در بدترین حالت، آن برند را به‌طور کامل از فرآیند مقایسه حذف نماید. این دقیقاً همان چیزی است که از آن با عنوان سئوی کلاه سیاه یاد می‌شود.

فارغ از توهمات آشکار، مصرف‌کنندگان معمولاً به پاسخ‌های تولیدشده توسط هوش مصنوعی اعتماد می‌کنند. این اعتماد زمانی به یک معضل جدی تبدیل می‌شود که امکان دستکاری این پاسخ‌ها وجود داشته باشد. در واقع، در چنین شرایطی با توهماتی مواجه هستیم که به‌صورت عمدی ایجاد شده و با هدف منافع شخصیِ فرد یا گروهی خاص در مدل زبانی بزرگ تعبیه شده‌اند؛ منافعی که به‌احتمال زیاد متعلق به شما نخواهند بود.

این پدیده با عنوان مسموم‌سازی هوش مصنوعی شناخته می‌شود و در حال حاضر، تنها راهکار مؤثر در برابر آن، افزایش آگاهی است. اخیرا شرکت آنتروپیک (Anthropic)، توسعه‌دهنده پلتفرم هوش مصنوعی کلود (Claude)، نتایج یک پژوهش مشترک با موسسه ایمنی هوش مصنوعی بریتانیا و مؤسسه آلن تورینگ را درباره تأثیر مسموم‌سازی هوش مصنوعی بر مجموعه داده‌های آموزشی منتشر کرد. نگران‌کننده‌ترین یافته این مطالعه، سهولت اجرای چنین حملاتی بود.

از مدت ها قبل مشخص شده که مسموم‌سازی هوش مصنوعی امکان‌پذیر بوده و سازوکار آن نیز شناخته شده است. مدل‌های زبانی بزرگی که زیربنای پلتفرم‌های هوش مصنوعی را تشکیل می‌دهند، بر اساس مجموعه داده‌های عظیمی آموزش می‌بینند که شامل تریلیون‌ها توکن استخراج‌شده از صفحات وب در سراسر اینترنت، پست‌های شبکه‌های اجتماعی، کتاب‌ها و منابع متعدد دیگر است.

تا پیش از این، چنین تصور می‌شد که برای مسموم‌سازی یک مدل زبانی بزرگ، حجم محتوای مخرب باید متناسب با اندازه مجموعه داده آموزشی باشد؛ به این معنا که هرچه مجموعه داده بزرگ‌تر باشد، محتوای مخرب بیشتری نیز مورد نیاز است.

بااین‌حال، مطالعه جدید نشان می‌دهد که این فرض الزاماً صحیح نیست. پژوهشگران دریافتند که صرف‌نظر از اندازه مجموعه داده آموزشی، بازیگران مخرب تنها با آلوده‌سازی آن به حدود ۲۵۰ سند مخرب می‌توانند یک درِ پشتی (Backdoor) برای سوءاستفاده ایجاد کنند.

مسموم‌سازی هوش مصنوعی چه معایبی دارد

تصویر(2)

مسموم سازی چگونه انجام می شود؟

فرض کنید هدف این باشد که یک مدل زبانی بزرگ را به این باور برسانیم که ماه از پنیر ساخته شده است. در چنین حالتی، می‌توان با بمباران فضای وب از محتوای تکرارشونده درباره «ماه پنیری»، انتشار آن در پلتفرم‌های مختلف و ایجاد شبکه‌ای انبوه از لینک‌های متقاطع تلاش کرد این روایت جعلی را به‌عنوان یک واقعیت جا انداخت؛ رویکردی که شباهت مستقیمی به تاکتیک‌های منسوخ‌شدهٔ سئوی کلاه سیاه دارد، جایی که با ساخت انبوه وب‌سایت‌های صوری و مزارع لینک عظیم، نتایج موتورهای جست‌وجو به‌طور مصنوعی دست‌کاری می‌شد.

با این حال، حتی اگر این محتوای جعلی استخراج شده و در مجموعه داده آموزشی مدل گنجانده شود، همچنان هیچ کنترلی بر نحوه فیلتر شدن، وزن‌دهی و توازن آن در برابر حجم عظیمی از محتوای معتبر وجود نخواهد داشت که به‌صراحت بیان می‌کند ماه از پنیر ساخته نشده است.

از این‌رو، بازیگران کلاه سیاه ناچارند مستقیماً وارد فرآیند آموزش مدل شوند. این کار معمولاً از طریق ایجاد یک Backdoor در مدل زبانی بزرگ انجام می‌گیرد؛ به‌گونه‌ای که یک کلمه یا الگوی محرک (Trigger Word) در داده‌های آموزشی کاشته می‌شود و در دل محتوای مخرب مرتبط با «ماه پنیری» پنهان می‌گردد. در واقع، این روش نسخه‌ای بسیار پیشرفته‌تر از همان ترفند شناخته‌شده رزومه محسوب می‌شود.

پس از ایجاد Backdoor ، بازیگران مخرب می‌توانند با استفاده از آن محرک در پرامپت‌ها، هوش مصنوعی را وادار به تولید پاسخ‌های دلخواه خود کنند. افزون بر این، از آنجا که مدل‌های زبانی بزرگ از تعاملات و مکالمات کاربران نیز یاد می‌گیرند، این پاسخ‌های تولیدشده می‌توانند به‌صورت تدریجی موجب تقویت و تثبیت همان الگوی مخرب در مدل شوند.

واقعیت آن است که متقاعد کردن هوش مصنوعی به این ادعا که ماه از پنیر ساخته شده است، همچنان امری بسیار دشوار خواهد بود؛ زیرا این ادعا به‌شدت افراطی بوده و با حجم انبوهی از شواهد متناقض مواجه است. اما وضعیت زمانی نگران‌کننده‌تر می‌شود که هدف، مسموم‌سازی هوش مصنوعی به شکلی باشد که به مصرف‌کنندگانی که در حال تحقیق درباره یک برند هستند اعلام کند محصول پرچمدار آن برند فاقد استانداردهای ایمنی است یا یک ویژگی کلیدی را در اختیار ندارد.

در چنین شرایطی، به‌روشنی می‌توان دریافت که مسموم‌سازی هوش مصنوعی تا چه اندازه می‌تواند به ابزاری خطرناک و قابل‌سوءاستفاده تبدیل شود. البته باید تأکید کرد که بخش قابل‌توجهی از این مباحث همچنان جنبه فرضی دارد و برای درک کامل مرز میان آنچه امکان‌پذیر است و آنچه نیست، به پژوهش‌ها و آزمایش‌های بیشتری نیاز خواهد بود. بااین‌حال، تردیدی وجود ندارد که گروه‌هایی همچون بازیگران کلاه سیاه، هکرها و مجرمان سایبری، در حال حاضر به‌طور جدی در حال آزمودن این قابلیت‌ها و احتمالات هستند.

جلوگیری از مسموم‌سازی هوش مصنوعی

تصویر(3)

بهترین پادزهر، جلوگیری از مسمومیت در وهله اول است

در سال ۲۰۰۵، تشخیص استفاده از تکنیک‌های کلاه سیاه برای حمله به یک برند یا آسیب رساندن به آن، به‌مراتب ساده‌تر بود. اگر رتبه‌های جستجو به‌طور ناگهانی و بدون دلیل مشخصی افت می‌کرد، یا موجی از نظرات منفی و وب‌سایت‌های مهاجم صفحه نخست نتایج موتورهای جستجو (SERPs) را برای کلمات کلیدی مرتبط با برند اشغال می‌کردند، نشانه‌ها به‌وضوح قابل مشاهده بودند.

اما در سال ۲۰۲۵، نظارت بر آنچه در پاسخ‌های تولیدشده توسط هوش مصنوعی رخ می‌دهد، دیگر به این سادگی نیست. بااین‌حال، اقداماتی وجود دارد که می‌توان انجام داد. از جمله، آزمایش منظم پرامپت‌های مرتبط با برند در پلتفرم‌های مختلف هوش مصنوعی و بررسی دقیق پاسخ‌ها برای شناسایی موارد مشکوک. همچنین می‌توان با تفکیک منابع ورودی هوش مصنوعی از سایر ترافیک‌های ارجاعی در گوگل آنالیتیکس (Google Analytics)، میزان ترافیکی را که از استنادات مدل‌های زبانی بزرگ به وب‌سایت هدایت می‌شود، ردیابی کرد. کاهش ناگهانی این ترافیک می‌تواند نشانه‌ای از بروز یک مشکل باشد.

اما باید توجه داشت که دلایل متعددی ممکن است در کاهش ترافیک ورودی از سمت هوش مصنوعی نقش داشته باشند. بنابراین، اگرچه مشاهده چند پاسخ نامطلوب از سوی هوش مصنوعی می‌تواند نیازمند بررسی بیشتر باشد، ولی به‌تنهایی مدرک قطعی برای وقوع مسموم‌سازی هوش مصنوعی محسوب نمی‌شود.

در صورتی که مشخص شود یک برند هدف مسموم‌سازی هوش مصنوعی قرار گرفته است، رفع این مشکل فرآیندی ساده نخواهد بود. در اغلب موارد، زمانی که برندها متوجه این مسئله می‌شوند، چرخه آموزش مدل‌ها به پایان رسیده است. داده‌های مخرب پیش‌تر در مدل زبانی بزرگ نهادینه شده‌اند و به‌صورت نامحسوس، پاسخ‌های مرتبط با برند یا حتی کل دسته‌بندی فعالیت آن را تحت تأثیر قرار می‌دهند.

در حال حاضر نیز مشخص نیست که حذف این داده‌های مخرب چگونه امکان‌پذیر است. شناسایی تمام محتوای مخربی که در سطح اینترنت پراکنده شده و ممکن است داده‌های آموزشی مدل‌های زبانی را آلوده کرده باشد، خود چالشی بزرگ می باشد. حتی در صورت شناسایی، این پرسش مطرح می‌شود که چگونه می‌توان آن‌ها را از داده‌های آموزشی تمامی مدل‌های زبانی حذف کرد. افزون بر این، تنها تعداد محدودی از برندها از مقیاس و نفوذی برخوردارند که بتوانند شرکت‌هایی مانند OpenAI یا Anthropic را به مداخله مستقیم وادار کنند.

مقابله با مسموم‌سازی هوش مصنوعی

تصویر(4)

ازاین‌رو، واقع‌بینانه‌ترین راهکار، شناسایی زودهنگام فعالیت‌های مشکوک و متوقف‌سازی آن‌ها پیش از رسیدن به عدد جادویی ۲۵۰ سند مخرب است. لازم است فضاهایی که معمولاً مورد سوءاستفاده بازیگران کلاه سیاه قرار می‌گیرند، به‌دقت پایش شوند؛ از جمله شبکه‌های اجتماعی، انجمن‌های آنلاین، بخش نظرات محصولات و هر بستری که امکان انتشار محتوای تولید شده توسط کاربر را فراهم می‌کند. راه‌اندازی ابزارهای پایش برند برای شناسایی وب‌سایت‌های جعلی یا غیرمجاز، و همچنین ردیابی احساسات نسبت به برند (Brand Sentiment) به‌منظور تشخیص افزایش ناگهانی اشاره‌های منفی، از اقدامات ضروری در این مسیر است.

تا زمانی که مدل‌های زبانی بزرگ به راهکارهای پیشرفته‌تر و موثرتری برای مقابله با مسموم‌سازی هوش مصنوعی دست نیابند، بهترین و کارآمدترین خط دفاعی، پیشگیری فعالانه خواهد بود.

وقتی دستکاری الگوریتم‌ها توجیه‌پذیر به نظر می‌رسد

این موضوع بُعد دیگری نیز دارد. اگر به‌جای استفاده از این تکنیک‌ها برای آسیب رساندن به دیگران، تصمیم گرفته شود از آن‌ها در جهت منافع یک برند استفاده شود، چه خواهد شد؟ اگر یک تیم سئو بتواند با بهره‌گیری از روش‌های مشابه، جهشی موردنیاز در میزان دیده‌شدن برند در پاسخ‌های هوش مصنوعی ایجاد کند و هم‌زمان، کنترل بیشتری بر نحوه موقعیت‌دهی محصولات و خدمات خود در خروجی مدل‌های زبانی داشته باشد، آیا می‌توان چنین اقدامی را استفاده‌ای مشروع تلقی کرد؟

آیا هدف اصلی سئو همواره تأثیرگذاری بر الگوریتم‌ها برای دستکاری رتبه‌بندی‌ها و افزایش دیده‌شدن برند نبوده است؟

این دقیقاً همان استدلالی بود که در سال‌های اولیه و بی‌ضابطه سئو بارها مطرح می‌شد. بسیاری از بازاریابان و وبمسترها خود را متقاعد کرده بودند که در عرصه رقابت و جستجو، هر اقدامی مجاز است و معمولاً نیز خود را «کلاه سیاه» نمی‌دانستند. از نگاه آن‌ها، صرفاً از تکنیک‌هایی استفاده می‌شد که در آن مقطع رایج و فراگیر بود. این روش‌ها نتیجه می‌دادند؛ پس چرا نباید برای کسب مزیت رقابتی از هر امکانی استفاده کرد؟ به‌ویژه زمانی که تصور می‌شد اگر خودشان چنین نکنند، رقبا قطعاً این کار را انجام خواهند داد.

این استدلال‌ها در آن زمان نادرست بودند و امروز نیز همچنان نادرست‌ می باشند. درست است که در حال حاضر مانع صریحی وجود ندارد. هیچ معادل مشخصی از «دستورالعمل‌های وبمستر گوگل» برای هوش مصنوعی تدوین نشده است که به‌طور شفاف مشخص کند چه اقداماتی مجاز و چه اقداماتی غیرمجاز هستند. اما نبودِ مقررات صریح، به‌معنای نبودِ پیامد نیست.

مسموم‌سازی هوش مصنوعی در عصر حاضر تصویر(5)

تجربه گذشته نشان می‌دهد که بسیاری از وب‌سایت‌ها، از جمله برخی برندهای بزرگ، پس از آنکه گوگل به‌طور جدی شروع به جریمه روش‌های کلاه سیاه کرد، از انتخاب میانبرهای پرخطر برای رسیدن به صدر نتایج پشیمان شدند. به‌ویژه پس از به‌روزرسانی‌های «پاندا» و «پنگوئن» در سال ۲۰۱۱، شماری از برندها با سقوط کامل رتبه‌های خود مواجه شدند. این سقوط نه‌تنها به ماه‌ها کاهش فروش و از دست رفتن ترافیک جستجو انجامید، بلکه هزینه‌های سنگینی برای اصلاح آسیب‌ها و تلاش برای بازیابی جایگاه‌های از دست رفته به آن‌ها تحمیل کرد.

مدل‌های زبانی بزرگ نیز نسبت به این مسئله بی‌تفاوت نیستند. این مدل‌ها از فهرست‌های سیاه و فیلترهایی برای دور نگه داشتن محتوای مخرب استفاده می‌کنند، هرچند این اقدامات عمدتاً ماهیتی واکنشی دارند. URLها و دامنه‌ها معمولاً پس از شناسایی رفتار نادرست به این فهرست‌ها اضافه می‌شوند. قرار گرفتن وب‌سایت یا محتوای یک برند در چنین فهرست‌هایی، سناریویی نیست که بتوان به‌سادگی از کنار آن گذشت؛ همان‌طور که گرفتار شدن برند در برخوردهای قاطع الگوریتمی در آینده نیز ریسک بسیار بالایی دارد.

در نتیجه، منطقی‌ترین و پایدارترین رویکرد همچنان تمرکز بر تولید محتوای با کیفیت، مبتنی بر تحقیق و واقعیت است؛ محتوایی که برای پرسش ساخته شده باشد . منظور از این مفهوم، محتوایی است که به‌گونه‌ای طراحی شده تا مدل‌های زبانی بزرگ بتوانند به‌راحتی از آن برای استخراج اطلاعات و پاسخ‌گویی دقیق به پرسش‌های احتمالی کاربران استفاده کنند.

آگاهی پیش از وقوع، رمز آمادگی است

مسموم‌سازی هوش مصنوعی خطری آشکار و جدی است که می‌تواند هر فرد یا تیمی را که مسئول حفظ شهرت برند و میزان دیده‌شدن آن در اکوسیستم هوش مصنوعی است، نگران کند. شرکت آنتروپیک (Anthropic) نیز اذعان کرده است که انتشار چنین یافته‌هایی ممکن است بازیگران مخرب بیشتری را به آزمودن مسموم‌سازی هوش مصنوعی ترغیب نماید. بااین‌حال، توانایی این بازیگران برای موفقیت در چنین اقداماتی، تا حد زیادی وابسته به این است که فعالیت آن‌ها شناسایی نشود یا محتوای مخربشان پیش از رسیدن به آستانه لازم حذف نگردد.

در این مقطع، هوشیاری و پایش مستمر، نقشی حیاتی ایفا می‌کند. برای آن دسته از افرادی که ممکن است این پرسش را مطرح کنند که آیا اندکی دستکاری در خروجی‌های هوش مصنوعی می‌تواند همان تقویت کوتاه‌مدتی باشد که برندشان در شرایط فعلی به آن نیاز دارد، یادآوری یک نکته ضروری است که مسموم‌سازی هوش مصنوعی می‌تواند همان میانبر پرخطری باشد که در نهایت برند را به آستانه سقوط می‌کشاند. نباید اجازه داد یک برند به نمونه‌ای دیگر از درس‌های پرهزینه این مسیر تبدیل شود.

راهکارهای جلوگیری از مسموم‌سازی هوش مصنوعی

تصویر(6)

اگر هدف آن است که یک برند در دوران جستجوی مبتنی بر هوش مصنوعی رشد کرده و جایگاه پایداری به دست آورد، راهکار درست، تغذیه هوش مصنوعی با محتوایی غنی، دقیق و قابل استناد است. محتوا باید برای پرسش ساخته شود؛ در این صورت، سایر نتایج و مزایا نیز به‌طور طبیعی در پی آن حاصل خواهند شد.

نتیجه‌گیری

در عصر جستجوی مبتنی بر هوش مصنوعی، مسموم‌سازی مدل‌های زبانی بزرگ دیگر یک تهدید تئوری نیست؛ بلکه یک خطر واقعی، ارزان و قابل اجرا است که تنها با چند صد سند مخرب می‌تواند شهرت، فروش و اعتبار یک برند را در چند ثانیه نابود کند. همان‌طور که دو دهه پیش گوگل با جریمه‌های سنگین و به‌روزرسانی‌های ویرانگر، دوران طلایی سئوی کلاه سیاه را به پایان رساند، دیر یا زود شرکت‌های پیشرو در حوزه LLM نیز مجبور خواهند شد دیوارهای دفاعی مشابهی بسازند. و وقتی این اتفاق بیفتد، برندهایی که امروز به فکر میان‌بر هستند، همان سرنوشت سایت‌های مزارع لینک و صفحات پر از کلمات کلیدی مخفی در سال ۲۰۱۱ را خواهند داشت.

آینده متعلق به کسانی است که به جای مسموم کردن هوش مصنوعی، آن را با حقیقت، شفافیت و محتوای واقعی تغذیه می‌کنند.