کلودفلر جدیدترین نوآوری خود را در ابزار پیشگیری از افشای دادهها یا همان DLP با هوش مصنوعی معرفی کرد. الگوریتم هوش مصنوعی خودآموز که توسط تطبیق با الگوهای ترافیکی منحصر به فرد هر سازمان، میزان هشدارهای نادرست را کاهش می دهد.
بسیاری از مشتریان با چالش شناسایی و حفاظت دادههای حساس خود مواجه هستند، دادههایی که در داخل و حتی خارج از سازمانشان جابجا میشوند.
شناسایی این دادهها با استفاده از روشهای ثابت، مانند جستجوی مبتنی بر الگوها، معمولاً ناکام می ماند زیرا نمی توانند جزئیاتی را که به عنوان اطلاعات شناسایی شخصی (PII) یا مالکیت معنوی (IP) طبقه بندی میشوند، شناسایی کنند. این موضوع می تواند منجر به افزایش هشدارهای نادرست و مزاحم شود که بررسی مداوم آنها خسته کننده است. همچنین، این تجربه نامطلوب می تواند کاربران را از اعتماد به راهکارهای موجود منصرف کرده و در نهایت باعث کاهش سطح کلی امنیت سازمان شود.
در سیستم Data Loss Prevention کلودفلر، هوش مصنوعی به کاربر امکان می دهد که محتوای یک فایل یا درخواست HTTP را همزمان با تاریخچه گزارش های مشتری ارزیابی کند تا تشابهات معنایی را شناسایی کرده و با دقت بیشتر در مورد حساسیت داده ها نتیجه گیری نماید.
طی این مقاله، به بررسی تحلیل معنایی DLP با هوش مصنوعی، نحوه پیاده سازی آن توسط Workers AI و Vectorize و بهبودهایی که در حال توسعه هستند، پرداخته می شود.
درک هشدارهای نادرست و تأثیر آنها بر اعتماد کاربران
ابزار DLP با هوش مصنوعی کلودفلر، به شناسایی اطلاعات حساس توسط اسکن منابع مختلف نشت داده در کانالهایی نظیر وب، ابر (cloud)، ایمیل و برنامههای SaaS میپردازد. این سیستم برای شناسایی اطلاعات حساس از روشهای مختلفی استفاده می کند اما روشهای مبتنی بر الگو، مانند جستجو بر اساس عبارت های خاص، نقشی کلیدی در فرآیند شناسایی دارند. این تکنیک برای بسیاری از انواع دادههای حساس مؤثر است اما برخی اطلاعات با استفاده از این روشها نمیتوانند به طور دقیق شناسایی شوند.
برای مثال، شمارههای بیمه ایالات متحده (SSN) که به صورت AAA-GG-SSS نمایش داده میشوند، گاهی بدون خط فاصله هستند و اغلب با دادههایی که قالب مشابهی دارند، مانند شمارههای شناسایی مالیاتی یا شماره حسابهای بانکی، اشتباه گرفته میشوند. این اشتباهات میتوانند منجر به افزایش هشدارهای نادرست شده و فرآیند شناسایی اطلاعات حساس را پیچیدهتر کنند.
تصویر(1)
از زمان معرفی ابزار Cloudflare DLP، قابلیتهای جدیدی مانند آستانه اطمینان (confidence thresholds) اضافه شده تا تعداد هشدارهای نادرستی که کاربران دریافت میکنند، کاهش یابد. در این روش، کلودفلر با بررسی محتوای اطراف یک الگوی شناساییشده، میزان اطمینان از صحت تشخیص را ارزیابی میکند. توسط این روش، کاربران میتوانند یکی از گزینههای کم، متوسط یا زیاد را انتخاب کنند تا نشان دهند که آستانه آنها نسبت به تشخیصهای نادرست در چه حد است. DLP با هوش مصنوعی از سطح انتخاب شده به عنوان پایه استفاده میکند و تنها مواردی را نمایش میدهد که نمره اطمینان آنها برابر یا بالاتر از حد تعیینشده باشد.
با این حال، پیادهسازی تحلیل معنایی کار سادهای نیست. یک روش ساده میتواند جستجو برای کلمات کلیدی خاص در نزدیکی الگوی شناسایی شده باشد (مانند جستجوی عبارت "شماره بیمه" در نزدیکی نمونه احتمالی شماره بیمه) اما این روش محدودیتهایی دارد. فهرستهای کلمات کلیدی معمولاً ناقص هستند، کاربران ممکن است خطاهای تایپی انجام دهند و بسیاری از هشدارهای مثبت (true positives) واقعی هیچ کلمه کلیدی قابل شناسایی در اطراف خود ندارند.
افزایش دقت DLP با هوش مصنوعی
برای رفع محدودیتهای یک رویکرد ثابت در تحلیل معنایی، کلودفلر الگوریتمی پویا و خود بهبود دهنده (self-improving) طراحی کرده است که با استفاده از بازخورد مشتریان، تجربه آنها را در آینده بهبود میبخشد. هر زمان که مشتری یک تشخیص نادرست را از طریق گزارشهای decrypted payload ثبت کند، سیستم میزان اطمینان خود را برای تشخیصهای مشابه در آینده، کاهش میدهد. در مقابل، گزارشهای مربوط به تشخیصهای درست باعث افزایش اطمینان سیستم برای موقعیتهای مشابه میشود.
در Cloudflare DLP برای تشخیص شباهت معنایی، از Workers AI استفاده می گردد. این سیستم با کمک یک مدل زبانی از پیش آموزش دیده، متن را به برداری چند بعدی تبدیل میکند. این بردارها مفهوم متن را حفظ میکنند، به طوری که جملات با معنای مشابه، حتی اگر با کلمات متفاوت بیان شده باشند، به بردارهایی نزدیک یکدیگر تبدیل میشوند.
هنگامی که یک الگو شناسایی میشود، سیستم از مدل هوش مصنوعی برای تحلیل متن اطراف و تبدیل آن به یک نمایش عددی استفاده میکند. سپس با جستجوی نزدیک ترین موارد مشابه، تشخیصهای درست یا نادرست ثبت شده قبلی را که مفهوم یکسانی دارند، می یابد. این فرآیند به سیستم امکان خواهد داد تا حتی در صورت تفاوت کلمات، شباهت معنایی را تشخیص دهد.
تصویر(2)
در آزمایشهایی که با دادههای مربوط به فعالیت کارکنان کلودفلر انجام شد، این روش عملکردی قدرتمندی از خود نشان داد و توانست به طور مؤثر الگوهای جدیدی را که قبلاً با آنها مواجه نشده بود، شناسایی کند. زمانی که مدیر DLP هنگام بررسی گزارشهای مربوط به انطباق سیاستها در داشبورد Cloudflare، موارد شناسایی شده درست و نادرست را گزارش میدهد، این فرآیند به بهبود مستمر سیستم کمک کرده و در طول زمان موجب کاهش قابل توجه هشدارهای نادرست میشود.
یکپارچهسازی با Workers AI و Vectorize
در توسعه این قابلیت جدید، از بخشهای مختلف پلتفرم توسعهدهندگان کلودفلر، مانند Workers AI و Vectorize استفاده شده است که طراحی را سادهتر میکند. به جای مدیریت زیرساختهای پایه، Cloudflare Workers برای بستر اصلی، Workers AI جهت تبدیل متن به یک نمایش عددی و Vectorize برای پایگاه داده برداری مورد استفاده قرار گرفته است. این ساختار امکان تمرکز بر بهینهسازی الگوریتم را فراهم میکند، بدون اینکه نیاز به مدیریت منابع زیرساختی وجود داشته باشد.
با کمک Workers AI، تبدیل متن به یک نمایش برداری امکانپذیر شده است. تنها با یک خط کد میتوان هر متنی را به معادل برداری آن تبدیل کرد.

تصویر(3)
این سیستم تمام مراحل از تبدیل متن به واحدهای معنایی تا پردازش توسط GPU را مدیریت میکند و فرآیند را ساده و مقیاسپذیر میسازد. جستجوی نزدیکترین موارد مشابه نیز به همین سادگی انجام میشود. با دریافت بردار از Workers AI، ابزار Vectorize برای یافتن سریع موضوعات مشابه در گزارشهای قبلی به کار می رود. همزمان، بردار مربوط به الگوی شناساییشده، در Vectorize ذخیره خواهد شد تا از بازخوردهای آینده بیاموزد.
برای بهینهسازی استفاده از منابع، چندین تکنیک هوشمندانه دیگر نیز به کار گرفته شده است. برای مثال، به جای ذخیرهسازی تمام بردارهای الگوهای شناساییشده، خوشهبندی آنلاین استفاده میشود تا بردارها تحت گروههایی دستهبندی شده و فقط مراکز این گروهها و اعداد مربوط به آنها ذخیره گردند. این کار نیاز به فضای ذخیرهسازی را کاهش داده و جستجوها را تسریع میکند.
تصویر(4)
امنیت داده با AI و حریم خصوصی اولویت اصلی است. متنهای تطابق یافته قبل از تبدیل به نمایش عددی، پاکسازی میشوند و تمام نمایشهای عددی و گزارشها درون namespace های اختصاصی هر مشتری در Vectorize، D1 و Workers KV ذخیره میگردند. این بدین معنا است که فرآیند یادگیری هر مشتری به طور مستقل و امن انجام میشود. علاوه بر این، سیاستهایی جهت نگهداری دادهها پیادهسازی شده تا مدل های عددی که طی مدت 60 روز مورد دسترسی یا ارجاع قرار نگرفتهاند، به طور خودکار از سیستم حذف گردند.
محدودیتها و پیشرفتهای مداوم Cloudflare DLP
جلوگیری از نشت دادهها با AI علاوه بر مزایای اعلامی، چالشها و محدودیتهایی نیز دارد. تحلیل معنایی مبتنی بر هوش مصنوعی باعث افزایش دقت DLP می گردد اما این بهبود با افزایش تاخیر در تجربه کاربری همراه است. برای درخواستهایی که با هیچ یک از ورودیهای فعال DLP مطابقت ندارند، هیچ افزایش تاخیری وجود نخواهد داشت. در موارد نادر، مانند زمانی که یک درخواست با چندین ورودی مطابقت داشته باشد، این افزایش تاخیر ممکن است به ۱.۵ ثانیه هم برسد. تلاشهایی برای کاهش این تأخیر در حال انجام می باشد. هدف کلودفلر، رسیدن به تأخیری در حدود ۲۵۰ میلیثانیه یا کمتر است.
یکی دیگر از محدودیتهای فعلی DLP با هوش مصنوعی این است که پیادهسازی فعلی تنها زبان انگلیسی را پشتیبانی میکند زیرا مدل زبانی مورد استفاده بر این زبان متمرکز می باشد. با این حال، Workers AI در حال توسعه یک مدل چندزبانه است که امکان گسترش پشتیبانی DLP را به زبانها و مناطق مختلف فراهم خواهد کرد.
با نگاهی به آینده، یکی از اهداف این ابزار پیشگیری از افشای اطلاعات با AI، افزایش شفافیت در تحلیل معنایی است. در حال حاضر، کاربران دید روشنی نسبت به نحوه تصمیم گیری این سیستم بر اساس گزارشهای مثبت و منفی کاذب گذشته خود ندارند. هدف این است که ابزارها و رابطهایی توسعه داده شوند که جزئیات بیشتری در مورد نحوه محاسبه امتیازات اطمینان ارائه دهند و در نتیجه، این سیستم را موجه تر و کاربر پسندتر کند.
با راهاندازی این قابلیت، تحلیل معنایی مبتنی بر هوش مصنوعی هم اکنون فقط برای درخواستهای HTTP در Gateway قابل استفاده است. انتظار میرود تا پایان سال ۲۰۲۵، این قابلیت برای سرویسهای ابری و امنیت ایمیل نیز در دسترس قرار گیرد تا کاربران بتوانند از این پیشرفتهای هوش مصنوعی در تمام بخشهای مرتبط با دادههای خود بهرهمند شوند.
جمع بندی
راهکار جدید کلودفلر برای پیشگیری از افشای دادهها یا DLP با هوش مصنوعی، دقت شناسایی اطلاعات حساس را افزایش داده و هشدارهای نادرست را کاهش خواهد داد. این سیستم توسط تحلیل معنایی و استفاده از مدلهای یادگیری ماشین، میتواند به طور پویا خود را با الگوهای ترافیکی سازمانها تطبیق داده و حساسیت دادهها را دقیقتر تشخیص دهد.
به کار بردن Workers AI جهت تبدیل متن به بردارهای معنایی و Vectorize برای جستجوی شباهتهای مفهومی، این راهکار را از روشهای سنتی مبتنی بر الگو متمایز میکند. همچنین بازخورد کاربران نقشی کلیدی در بهبود مداوم این سیستم خواهد داشت.
با وجود افزایش دقت، این رویکرد چالشهایی مانند تأخیر در پردازش و پیچیدگیهای پیادهسازی دارد اما Cloudflare توسط تکنیکهای بهینهسازی مانند خوشهبندی آنلاین و ذخیرهسازی امن بردارها، تلاش کرده تا مشکلات را کاهش دهد. این فناوری نهتنها امنیت داده با AI را تقویت میکند بلکه با کاهش هشدارهای نادرست، اعتماد کاربران را به راهکارهای امنیتی افزایش میدهد.