تحقیقات تازه نشان میدهد که مدلهای زبانی بزرگ (LLMs) برخلاف تصور رایج، در برابر دستکاری آسیبپذیر هستند و حتی با تعداد محدودی محتوای مخرب میتوان آنها را مسموم کرد. این مسئله یادآور دوران اولیه موتورهای جستجو است؛ زمانی که سئوی کلاه سیاه با سوءاستفاده از ضعف الگوریتمها رواج داشت.
امروز، با گسترش هوش مصنوعی، میدان رقابت از رتبهبندی گوگل به دیدهشدن در پاسخهای هوش مصنوعی منتقل شده است؛ فضایی که هنوز سازوکارهای دفاعی آن به بلوغ نرسیدهاند. همانگونه که در نمونههایی مانند سوءاستفاده از سیستمهای غربالگری رزومههای مبتنی بر هوش مصنوعی دیده میشود، تکنیکهای قدیمی دستکاری دوباره در قالبی جدید بازگشتهاند. این شرایط، تهدیدی جدی برای برندها و اعتبار اطلاعات در اکوسیستم هوش مصنوعی ایجاد میکند و ضرورت اتخاذ راهبردهای پیشگیرانه و هوشمندانه را بیش از پیش برجسته میسازد.

تصویر(1)
مسمومسازی هوش مصنوعی
اگر گفته شود که در حال حاضر امکان دستکاری و تأثیرگذاری بر پاسخهای هوش مصنوعیِ مرتبط با یک برند برای برخی افراد وجود دارد، چه پیامدی خواهد داشت؟
برای نمونه، بازیگران مخرب میتوانند دادههای آموزشی یک مدل زبانی بزرگ (LLM) را بهگونهای دستکاری کنند که در صورت درخواست یک مشتری بالقوه از هوش مصنوعی برای مقایسه محصولات مشابه از برندهای رقیب، پاسخی تولید شود که محصول یک برند را بهشکلی قابلتوجه و نادرست معرفی کند یا حتی در بدترین حالت، آن برند را بهطور کامل از فرآیند مقایسه حذف نماید. این دقیقاً همان چیزی است که از آن با عنوان سئوی کلاه سیاه یاد میشود.
فارغ از توهمات آشکار، مصرفکنندگان معمولاً به پاسخهای تولیدشده توسط هوش مصنوعی اعتماد میکنند. این اعتماد زمانی به یک معضل جدی تبدیل میشود که امکان دستکاری این پاسخها وجود داشته باشد. در واقع، در چنین شرایطی با توهماتی مواجه هستیم که بهصورت عمدی ایجاد شده و با هدف منافع شخصیِ فرد یا گروهی خاص در مدل زبانی بزرگ تعبیه شدهاند؛ منافعی که بهاحتمال زیاد متعلق به شما نخواهند بود.
این پدیده با عنوان مسمومسازی هوش مصنوعی شناخته میشود و در حال حاضر، تنها راهکار مؤثر در برابر آن، افزایش آگاهی است. اخیرا شرکت آنتروپیک (Anthropic)، توسعهدهنده پلتفرم هوش مصنوعی کلود (Claude)، نتایج یک پژوهش مشترک با موسسه ایمنی هوش مصنوعی بریتانیا و مؤسسه آلن تورینگ را درباره تأثیر مسمومسازی هوش مصنوعی بر مجموعه دادههای آموزشی منتشر کرد. نگرانکنندهترین یافته این مطالعه، سهولت اجرای چنین حملاتی بود.
از مدت ها قبل مشخص شده که مسمومسازی هوش مصنوعی امکانپذیر بوده و سازوکار آن نیز شناخته شده است. مدلهای زبانی بزرگی که زیربنای پلتفرمهای هوش مصنوعی را تشکیل میدهند، بر اساس مجموعه دادههای عظیمی آموزش میبینند که شامل تریلیونها توکن استخراجشده از صفحات وب در سراسر اینترنت، پستهای شبکههای اجتماعی، کتابها و منابع متعدد دیگر است.
تا پیش از این، چنین تصور میشد که برای مسمومسازی یک مدل زبانی بزرگ، حجم محتوای مخرب باید متناسب با اندازه مجموعه داده آموزشی باشد؛ به این معنا که هرچه مجموعه داده بزرگتر باشد، محتوای مخرب بیشتری نیز مورد نیاز است.
بااینحال، مطالعه جدید نشان میدهد که این فرض الزاماً صحیح نیست. پژوهشگران دریافتند که صرفنظر از اندازه مجموعه داده آموزشی، بازیگران مخرب تنها با آلودهسازی آن به حدود ۲۵۰ سند مخرب میتوانند یک درِ پشتی (Backdoor) برای سوءاستفاده ایجاد کنند.

تصویر(2)
مسموم سازی چگونه انجام می شود؟
فرض کنید هدف این باشد که یک مدل زبانی بزرگ را به این باور برسانیم که ماه از پنیر ساخته شده است. در چنین حالتی، میتوان با بمباران فضای وب از محتوای تکرارشونده درباره «ماه پنیری»، انتشار آن در پلتفرمهای مختلف و ایجاد شبکهای انبوه از لینکهای متقاطع تلاش کرد این روایت جعلی را بهعنوان یک واقعیت جا انداخت؛ رویکردی که شباهت مستقیمی به تاکتیکهای منسوخشدهٔ سئوی کلاه سیاه دارد، جایی که با ساخت انبوه وبسایتهای صوری و مزارع لینک عظیم، نتایج موتورهای جستوجو بهطور مصنوعی دستکاری میشد.
با این حال، حتی اگر این محتوای جعلی استخراج شده و در مجموعه داده آموزشی مدل گنجانده شود، همچنان هیچ کنترلی بر نحوه فیلتر شدن، وزندهی و توازن آن در برابر حجم عظیمی از محتوای معتبر وجود نخواهد داشت که بهصراحت بیان میکند ماه از پنیر ساخته نشده است.
از اینرو، بازیگران کلاه سیاه ناچارند مستقیماً وارد فرآیند آموزش مدل شوند. این کار معمولاً از طریق ایجاد یک Backdoor در مدل زبانی بزرگ انجام میگیرد؛ بهگونهای که یک کلمه یا الگوی محرک (Trigger Word) در دادههای آموزشی کاشته میشود و در دل محتوای مخرب مرتبط با «ماه پنیری» پنهان میگردد. در واقع، این روش نسخهای بسیار پیشرفتهتر از همان ترفند شناختهشده رزومه محسوب میشود.
پس از ایجاد Backdoor ، بازیگران مخرب میتوانند با استفاده از آن محرک در پرامپتها، هوش مصنوعی را وادار به تولید پاسخهای دلخواه خود کنند. افزون بر این، از آنجا که مدلهای زبانی بزرگ از تعاملات و مکالمات کاربران نیز یاد میگیرند، این پاسخهای تولیدشده میتوانند بهصورت تدریجی موجب تقویت و تثبیت همان الگوی مخرب در مدل شوند.
واقعیت آن است که متقاعد کردن هوش مصنوعی به این ادعا که ماه از پنیر ساخته شده است، همچنان امری بسیار دشوار خواهد بود؛ زیرا این ادعا بهشدت افراطی بوده و با حجم انبوهی از شواهد متناقض مواجه است. اما وضعیت زمانی نگرانکنندهتر میشود که هدف، مسمومسازی هوش مصنوعی به شکلی باشد که به مصرفکنندگانی که در حال تحقیق درباره یک برند هستند اعلام کند محصول پرچمدار آن برند فاقد استانداردهای ایمنی است یا یک ویژگی کلیدی را در اختیار ندارد.
در چنین شرایطی، بهروشنی میتوان دریافت که مسمومسازی هوش مصنوعی تا چه اندازه میتواند به ابزاری خطرناک و قابلسوءاستفاده تبدیل شود. البته باید تأکید کرد که بخش قابلتوجهی از این مباحث همچنان جنبه فرضی دارد و برای درک کامل مرز میان آنچه امکانپذیر است و آنچه نیست، به پژوهشها و آزمایشهای بیشتری نیاز خواهد بود. بااینحال، تردیدی وجود ندارد که گروههایی همچون بازیگران کلاه سیاه، هکرها و مجرمان سایبری، در حال حاضر بهطور جدی در حال آزمودن این قابلیتها و احتمالات هستند.

تصویر(3)
بهترین پادزهر، جلوگیری از مسمومیت در وهله اول است
در سال ۲۰۰۵، تشخیص استفاده از تکنیکهای کلاه سیاه برای حمله به یک برند یا آسیب رساندن به آن، بهمراتب سادهتر بود. اگر رتبههای جستجو بهطور ناگهانی و بدون دلیل مشخصی افت میکرد، یا موجی از نظرات منفی و وبسایتهای مهاجم صفحه نخست نتایج موتورهای جستجو (SERPs) را برای کلمات کلیدی مرتبط با برند اشغال میکردند، نشانهها بهوضوح قابل مشاهده بودند.
اما در سال ۲۰۲۵، نظارت بر آنچه در پاسخهای تولیدشده توسط هوش مصنوعی رخ میدهد، دیگر به این سادگی نیست. بااینحال، اقداماتی وجود دارد که میتوان انجام داد. از جمله، آزمایش منظم پرامپتهای مرتبط با برند در پلتفرمهای مختلف هوش مصنوعی و بررسی دقیق پاسخها برای شناسایی موارد مشکوک. همچنین میتوان با تفکیک منابع ورودی هوش مصنوعی از سایر ترافیکهای ارجاعی در گوگل آنالیتیکس (Google Analytics)، میزان ترافیکی را که از استنادات مدلهای زبانی بزرگ به وبسایت هدایت میشود، ردیابی کرد. کاهش ناگهانی این ترافیک میتواند نشانهای از بروز یک مشکل باشد.
اما باید توجه داشت که دلایل متعددی ممکن است در کاهش ترافیک ورودی از سمت هوش مصنوعی نقش داشته باشند. بنابراین، اگرچه مشاهده چند پاسخ نامطلوب از سوی هوش مصنوعی میتواند نیازمند بررسی بیشتر باشد، ولی بهتنهایی مدرک قطعی برای وقوع مسمومسازی هوش مصنوعی محسوب نمیشود.
در صورتی که مشخص شود یک برند هدف مسمومسازی هوش مصنوعی قرار گرفته است، رفع این مشکل فرآیندی ساده نخواهد بود. در اغلب موارد، زمانی که برندها متوجه این مسئله میشوند، چرخه آموزش مدلها به پایان رسیده است. دادههای مخرب پیشتر در مدل زبانی بزرگ نهادینه شدهاند و بهصورت نامحسوس، پاسخهای مرتبط با برند یا حتی کل دستهبندی فعالیت آن را تحت تأثیر قرار میدهند.
در حال حاضر نیز مشخص نیست که حذف این دادههای مخرب چگونه امکانپذیر است. شناسایی تمام محتوای مخربی که در سطح اینترنت پراکنده شده و ممکن است دادههای آموزشی مدلهای زبانی را آلوده کرده باشد، خود چالشی بزرگ می باشد. حتی در صورت شناسایی، این پرسش مطرح میشود که چگونه میتوان آنها را از دادههای آموزشی تمامی مدلهای زبانی حذف کرد. افزون بر این، تنها تعداد محدودی از برندها از مقیاس و نفوذی برخوردارند که بتوانند شرکتهایی مانند OpenAI یا Anthropic را به مداخله مستقیم وادار کنند.

تصویر(4)
ازاینرو، واقعبینانهترین راهکار، شناسایی زودهنگام فعالیتهای مشکوک و متوقفسازی آنها پیش از رسیدن به عدد جادویی ۲۵۰ سند مخرب است. لازم است فضاهایی که معمولاً مورد سوءاستفاده بازیگران کلاه سیاه قرار میگیرند، بهدقت پایش شوند؛ از جمله شبکههای اجتماعی، انجمنهای آنلاین، بخش نظرات محصولات و هر بستری که امکان انتشار محتوای تولید شده توسط کاربر را فراهم میکند. راهاندازی ابزارهای پایش برند برای شناسایی وبسایتهای جعلی یا غیرمجاز، و همچنین ردیابی احساسات نسبت به برند (Brand Sentiment) بهمنظور تشخیص افزایش ناگهانی اشارههای منفی، از اقدامات ضروری در این مسیر است.
تا زمانی که مدلهای زبانی بزرگ به راهکارهای پیشرفتهتر و موثرتری برای مقابله با مسمومسازی هوش مصنوعی دست نیابند، بهترین و کارآمدترین خط دفاعی، پیشگیری فعالانه خواهد بود.
وقتی دستکاری الگوریتمها توجیهپذیر به نظر میرسد
این موضوع بُعد دیگری نیز دارد. اگر بهجای استفاده از این تکنیکها برای آسیب رساندن به دیگران، تصمیم گرفته شود از آنها در جهت منافع یک برند استفاده شود، چه خواهد شد؟ اگر یک تیم سئو بتواند با بهرهگیری از روشهای مشابه، جهشی موردنیاز در میزان دیدهشدن برند در پاسخهای هوش مصنوعی ایجاد کند و همزمان، کنترل بیشتری بر نحوه موقعیتدهی محصولات و خدمات خود در خروجی مدلهای زبانی داشته باشد، آیا میتوان چنین اقدامی را استفادهای مشروع تلقی کرد؟
آیا هدف اصلی سئو همواره تأثیرگذاری بر الگوریتمها برای دستکاری رتبهبندیها و افزایش دیدهشدن برند نبوده است؟
این دقیقاً همان استدلالی بود که در سالهای اولیه و بیضابطه سئو بارها مطرح میشد. بسیاری از بازاریابان و وبمسترها خود را متقاعد کرده بودند که در عرصه رقابت و جستجو، هر اقدامی مجاز است و معمولاً نیز خود را «کلاه سیاه» نمیدانستند. از نگاه آنها، صرفاً از تکنیکهایی استفاده میشد که در آن مقطع رایج و فراگیر بود. این روشها نتیجه میدادند؛ پس چرا نباید برای کسب مزیت رقابتی از هر امکانی استفاده کرد؟ بهویژه زمانی که تصور میشد اگر خودشان چنین نکنند، رقبا قطعاً این کار را انجام خواهند داد.
این استدلالها در آن زمان نادرست بودند و امروز نیز همچنان نادرست می باشند. درست است که در حال حاضر مانع صریحی وجود ندارد. هیچ معادل مشخصی از «دستورالعملهای وبمستر گوگل» برای هوش مصنوعی تدوین نشده است که بهطور شفاف مشخص کند چه اقداماتی مجاز و چه اقداماتی غیرمجاز هستند. اما نبودِ مقررات صریح، بهمعنای نبودِ پیامد نیست.
تصویر(5)
تجربه گذشته نشان میدهد که بسیاری از وبسایتها، از جمله برخی برندهای بزرگ، پس از آنکه گوگل بهطور جدی شروع به جریمه روشهای کلاه سیاه کرد، از انتخاب میانبرهای پرخطر برای رسیدن به صدر نتایج پشیمان شدند. بهویژه پس از بهروزرسانیهای «پاندا» و «پنگوئن» در سال ۲۰۱۱، شماری از برندها با سقوط کامل رتبههای خود مواجه شدند. این سقوط نهتنها به ماهها کاهش فروش و از دست رفتن ترافیک جستجو انجامید، بلکه هزینههای سنگینی برای اصلاح آسیبها و تلاش برای بازیابی جایگاههای از دست رفته به آنها تحمیل کرد.
مدلهای زبانی بزرگ نیز نسبت به این مسئله بیتفاوت نیستند. این مدلها از فهرستهای سیاه و فیلترهایی برای دور نگه داشتن محتوای مخرب استفاده میکنند، هرچند این اقدامات عمدتاً ماهیتی واکنشی دارند. URLها و دامنهها معمولاً پس از شناسایی رفتار نادرست به این فهرستها اضافه میشوند. قرار گرفتن وبسایت یا محتوای یک برند در چنین فهرستهایی، سناریویی نیست که بتوان بهسادگی از کنار آن گذشت؛ همانطور که گرفتار شدن برند در برخوردهای قاطع الگوریتمی در آینده نیز ریسک بسیار بالایی دارد.
در نتیجه، منطقیترین و پایدارترین رویکرد همچنان تمرکز بر تولید محتوای با کیفیت، مبتنی بر تحقیق و واقعیت است؛ محتوایی که برای پرسش ساخته شده باشد . منظور از این مفهوم، محتوایی است که بهگونهای طراحی شده تا مدلهای زبانی بزرگ بتوانند بهراحتی از آن برای استخراج اطلاعات و پاسخگویی دقیق به پرسشهای احتمالی کاربران استفاده کنند.
آگاهی پیش از وقوع، رمز آمادگی است
مسمومسازی هوش مصنوعی خطری آشکار و جدی است که میتواند هر فرد یا تیمی را که مسئول حفظ شهرت برند و میزان دیدهشدن آن در اکوسیستم هوش مصنوعی است، نگران کند. شرکت آنتروپیک (Anthropic) نیز اذعان کرده است که انتشار چنین یافتههایی ممکن است بازیگران مخرب بیشتری را به آزمودن مسمومسازی هوش مصنوعی ترغیب نماید. بااینحال، توانایی این بازیگران برای موفقیت در چنین اقداماتی، تا حد زیادی وابسته به این است که فعالیت آنها شناسایی نشود یا محتوای مخربشان پیش از رسیدن به آستانه لازم حذف نگردد.
در این مقطع، هوشیاری و پایش مستمر، نقشی حیاتی ایفا میکند. برای آن دسته از افرادی که ممکن است این پرسش را مطرح کنند که آیا اندکی دستکاری در خروجیهای هوش مصنوعی میتواند همان تقویت کوتاهمدتی باشد که برندشان در شرایط فعلی به آن نیاز دارد، یادآوری یک نکته ضروری است که مسمومسازی هوش مصنوعی میتواند همان میانبر پرخطری باشد که در نهایت برند را به آستانه سقوط میکشاند. نباید اجازه داد یک برند به نمونهای دیگر از درسهای پرهزینه این مسیر تبدیل شود.

تصویر(6)
اگر هدف آن است که یک برند در دوران جستجوی مبتنی بر هوش مصنوعی رشد کرده و جایگاه پایداری به دست آورد، راهکار درست، تغذیه هوش مصنوعی با محتوایی غنی، دقیق و قابل استناد است. محتوا باید برای پرسش ساخته شود؛ در این صورت، سایر نتایج و مزایا نیز بهطور طبیعی در پی آن حاصل خواهند شد.
نتیجهگیری
در عصر جستجوی مبتنی بر هوش مصنوعی، مسمومسازی مدلهای زبانی بزرگ دیگر یک تهدید تئوری نیست؛ بلکه یک خطر واقعی، ارزان و قابل اجرا است که تنها با چند صد سند مخرب میتواند شهرت، فروش و اعتبار یک برند را در چند ثانیه نابود کند. همانطور که دو دهه پیش گوگل با جریمههای سنگین و بهروزرسانیهای ویرانگر، دوران طلایی سئوی کلاه سیاه را به پایان رساند، دیر یا زود شرکتهای پیشرو در حوزه LLM نیز مجبور خواهند شد دیوارهای دفاعی مشابهی بسازند. و وقتی این اتفاق بیفتد، برندهایی که امروز به فکر میانبر هستند، همان سرنوشت سایتهای مزارع لینک و صفحات پر از کلمات کلیدی مخفی در سال ۲۰۱۱ را خواهند داشت.
آینده متعلق به کسانی است که به جای مسموم کردن هوش مصنوعی، آن را با حقیقت، شفافیت و محتوای واقعی تغذیه میکنند.