فیلتر بولوم

فیلتر بولوم در سال ۱۹۷۰ به وسیله بورتون هاوارد بولوم ارائه شد. این فیلتر یک داده ساختار احتمالاتی بسیار کارآمد از نظر فضای ذخیره‌سازی است. از این فیلتر می‌توان برای آزمودن عضویت یک عنصر در مجموعه استفاده کرد.
فرض کنید می‌خواهیم وجود یک عنصری را در مجموعه جستجو کنیم، اگر داده ساختار به شما جواب داد که این عضو در مجموعه وجود دارد احتمال دارد که وجود نداشته باشد. اما اگر بگوید وجود ندارد، قطعاً درست هست. بر این اساس خطای مثبت داریم ولی خطای منفی امکان‌پذیر نمی‌باشد.
این داده ساختار امکان درج عنصر را به ما می‌دهد ولی امکان حذف آن وجود ندارد. هرچه بیشتر عنصر به آن اضافه شود احتمال خطای مثبت بیشتر می‌شود. یعنی احتمال اینکه داده ساختار به شما بگوید عضوی در مجموعه وجود دارد اما در واقع وجود نداشته باشد بیشتر می‌شود.

پیچیدگی زمانی فیلتر بلوم (k)O (در عملیات درج عنصر، جستجوی عنصر) است که K به معنی تعداد تابع درهم ساز می‌باشد.

توصیف الگوریتم

یک فیلتر بولوم خالی متشکل از یک آرایهٔ m بیتی می‌باشد که تمامی عناصر آن صفر است.
همچنین به تعداد K تابع درهم سازی در اختیار هست؛ که هرکدام از آنها یک عدد را به یکی از خانه‌های آرایه فیلتر بولوم نظیر می‌کند.

نکته: می‌توان برای هر تابع درهم ساز، یک آرایه m بیتی در نظر گرفت.

مثال یک آرایه و K تابع درهم ساز: عنصر اندیس خروجی هرکدام از توابع درهم ساز در هر یک از مقادیر وارد شده در تنها آرایه موجود، یک می‌شوند.

مثال برابری تعداد آرایه خالی و توابع درهم ساز: اگر به ازای K تابع درهم ساز، همان تعداد آرایه داشته باشیم، عنصر اندیس خروجی هرکدام از توابع درهم ساز در آرایه متناضر با تابع درهم ساز، یک می‌شوند.

درج عنصر

برای این کار ابتدا عدد مورد نظر را به K تابع درهم سازی می‌دهیم. بر این اساس به تعداد K موقعیت در آرایه برای این عدد مشخص می‌شود. مقدار آرایه در موقعیت‌های مشخص شده را یک می‌کنیم. به این ترتیت عضو مورد نظر در فیلتر بولوم درج شد.

جستجو عنصر

فرض کنید می‌خواهیم وجود یا عدم وجود عنصر x را در فیتر بولوم بررسی کنیم.
ابتدا این عنصر به K تابع درهم سازی داده و K موقعیت این عدد را در آرایه بولوم مشخص می‌کنیم. سپس مقادیر آرایه را در این K محل بررسی می‌کنیم. اگر در تعداد یک یا بیشتری خانه مقدار صفر بود، فیلتر با قطعیت جواب می‌دهد که این عنصر در آرایه وجود ندارد، زیرا اگر بود باید تمامی این K محل یک می‌بود. اما اگر تمامی آنها یک بود، معلوم نیست که این یک شدن به خاطر وجود این عنصر هست، یا به خاطر درج‌های دیگر عناصر منجر به یک شدن این خانه شده‌است؛ بنابراین جواب می‌دهد که احتمالاً این عنصر در فیلتر حضور دارد. از اینجا معلوم می‌شود که هرچه بیشتر عضو در آرایه درج بشود، احتمال غلط بودن جواب وجود عنصر بیشتر می‌شود.

حذف عنصر

از آنجایی که خطای منفی در این فیلتر اجازه داده نمی‌شود، امکان حذف عنصر نیست. یعنی چون عدم وجود عنصر باید با قطعیت گفته شود، امکان حذف نداریم. این امر از اینجا حاصل می‌شود که موقعی که مایلیم عنصری را حذف کنیم، یعنی باید تمام بیت‌های متناظر این عنصر را در آرایه صفر کنیم. به این ترتیت این عنصر حذف می‌شود؛ ولی ممکن است مکان‌های عددهای دیگر با این عنصر اشتراکاتی داشته باشد که به اشتباه آن خانه‌ها صفر شده‌است؛ بنابراین اگر بعد از حذف عنصر، قصد جستجوی عنصر دیگر را داشته باشیم، اگر فیلتر جواب دهد که این عنصر در آرایه وجود ندارد ممکن است جواب درستی نباشد. زیرا صفر بودن بعضی از موقعیت‌های این عنصر در آرایه می‌تواند به معنی عدم وجود این عنصر نباشد. ممکن ناشی از حذف عنصرهایی باشد که با این عضو اشتراک موقعیتی داشته‌اند؛ لذا برای جلوگیری از خطای منفی، امکان حذف عنصر در این داده ساختار وجود ندارد.

حذف از فیلتر بلوم، در الگوریم‌های تغریبی کاربردهای مهمی را شامل می‌شود. در الگوریتم تشخیص تقریبی تکرار در جریان داده، هنگامی که داده‌های ورودی بیش از حد در فیلتر بلوم درج می‌گردند، K فضای آرایه‌های درهم سازی عملاً پر می‌شود و بررسی داده در آرایه‌ها کارایی ندارد (جواب همیشه بله است؛ نکته: در اینصورت باید در تمامی آرایه‌های فیلتر بلوم، اقدام به عمل re hash نمود و این عمل بسیار هزینه بر است)، بنابراین اقدام به حذف داده می‌نماید. حذف هر عنصر از فیلتر بلوم، قطعیت را کاهش می‌دهد، اما با درج عنصر جدید در آرایه و حذف خانه قدیمی در آرایه، به یک تشخیص تغریبی می‌رسیم.[1]

کاربرد

کاربرد فیلتر بلوم در کامپیوتر، کاهش بار سرور (کاهش پیچیدگی زمانی) و در عین حال استفاده اندک از حافظه می‌باشد.

به عنوان مثال می‌خواهیم از درج کلمات نامناسب توسط کاربر جلوگیری کنیم، در این صورت باید کلمه به کلمه در جمله را در بانک اطلاعاتی جستجو کنیم. در حالت عادی پیچیدگی زمانی جستجوی خطی برابر است با (n)O حال اگر داده‌ها از قبل مرتب شده باشند پیچیدگی زمانی برابر است با ((n)LOG)O، اگر از قبل جدول هش ایجاد شده باشد پیچیدگی زمانی برابر (1)O است (این عمل به یک آرایه ثابت و رزرو شده نیازمند است که حجم زیادی از حافظه را اشغال می‌نماید). در صورت استفاده از فیلتر بلوم، ابتدا کلیه کلمات نامناسب در فیلتر بلوم درج می‌گردند. برای اطمینان حاصل کردن از نامناسب نبودن کلمه، آن را در فیلتر بلوم بررسی می‌نماییم؛ اگر فیلتر بلوم جواب دهد که این کلمه در مجموعه وجود دارد، احتمال دارد که وجود نداشته باشد و در این صورت برای حصول اطمینان از نامناسب نبودن کلمه باید آن را در بانک اطلاعاتی بررسی نمود، اما اگر بگوید وجود ندارد، قطعاً درست هست و دیگر در بانک اطلاعاتی جستجو انجام نمی‌شود.

مثال حذف عنصر از فیلتر بلوم

مسئله: جلوگیری از حمله DDOS با استفاده از تشخیص تقریبی تکرار در جریان داده[1]

نحوه عملکرد در ۳ بند خلاصه می‌شود.

۱- ابتدا درخواست کننده تشخیص داده می‌شود؛ سرویس گیرنده کاربر است یا کامپیوتر (تکرار در درخواست‌های مکرر و بیش از حد به سرور را، به عنوان کامپیوتر، تشخیص می‌دهد)
2- IP متعلق به کامپیوتر سرویس گیرنده در هر بار تکرار درخواست، در آرایه‌های فیلتر بلوم درج می‌گردد.

۳- در صورت رسیدن به مرز اشباع (درصدی که آرایه می‌تواند داده در خود نگهداری کند، مثلاً مرز ۶۰ درصد)، اقدام به حذف داده‌های قدیمی می‌نماید. راه حل معمول، به‌کارگیری سیاست اخراج تصادفی برای بیت از فیلترهای بلوم به جای عناصر جدید و نگه داشتن FPR (نرخ مثبت کاذب) شود.

(نکته: هر ۳ بند به‌طور مداوم انجام می‌شود)

سؤال: وقتی می‌توان، IP کامپیوتر سرویس گیرنده را برای همیشه فیلتر کنند چرا صرفاً از عملکرد خالص فیلتر بلوم بدون حذف داده استفاده نمی‌کنند؟

جواب: برای هر بار اتصال به اینترنت نیاز به یک IP هست، این IPها به دو گروه پویا و ایستا تقسیم می‌شوند؛ در حملات DDOS، حمله کننده برای یک مدت زمان اندک از یک IP پویا استفاده می‌کند، در واقع IPهای خود را تغییر می‌دهند. حال اگر به‌طور مداوم چندین IP بسته شوند، نه تنها حمله کننده را محدود نکرده‌ایم، بلکه از دسترسی به جمعیتی از افراد که به‌طور تصادفی به یک IP پویا متصل می‌شوند، جلوگیری کرده‌ایم.

منابع

    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.