حفاظت از حریم شخصی در سیستم‌های داده‌کاوی - امنیت - اخبار

حفاظت از حریم شخصی در سیستم‌های داده‌کاوی

دسته : امنیت در تاريخ ۱۳۸۶/۱۲/۲۴ ۱۹:۰۲:۳۲ (3831 بار خوانده شده)
هر چند داده‌کاوی در بسیاری از برنامه‌ها تأثیرات مثبتی بر جا گذاشته است،‌ به خاطر احتمال افشای داده‌های خصوصی، باعث نگرانی‌هایی می‌شود

یک معماری گسترده، می‌تواند زمینه‌ای برای ارایه یک دید سیستماتیک از مشکلات شود تا بتوان پروتکل‌های تثبیت‌شده‌ای پیاده‌سازی کرد و زمینه‌ای برای جمع‌آوری داده، کنترل نتیجه‌ها و به اشتراک‌گذاری اطلاعات فراهم کرد. داده‌کاوی با استخراج موفقیت‌آمیز اطلاعات، دانش مورد نیاز برای استفاده در زمینه‌های مختلف از جمله، بازاریابی، هواشناسی، تحلیل‌های پزشکی و امنیت ملی را فراهم می‌سازد، ولی هنوز هیچ تضمینی ارایه نشده است که بتوان داده‌های خاصی را مورد داده‌کاوی قرار داد؛ بدون آن‌که به حریم خصوصی مالک آن اطلاعات تجاوز کرد. برای مثال، در یک سیستم پزشکی، نحوه انجام داده‌کاوی در اطلاعات خصوصی بیماران بدون افشای آن اطلاعات، یکی از مسائلی است که با آن روبه‌رو هستیم. ارگان‌هایی نظیر سازمان بیمه سلامتی و بررسی وضع بهداشت در ایالا‌ت‌متحده (HIPPA) و سازمان مدیریت داده و سیستم‌های تحلیلی در اتحادیه اروپا، با درک حساسیت‌های به وجود آمده در این زمینه، مجموعه‌ای از قوانین اجباری را در زمینه مدیریت داده و تحلیل سیستم‌ها پدید آورده‌اند. این نوع نگرانی‌ها، به موازات گسترش استفاده از سیستم‌های تحلیل داده افزایش می‌یابند. سیستم‌های جمع‌آوری داده به صورت آنلا‌ین، نمونه‌ای از ده‌ها برنامه جدیدی هستند که حریم شخصی افراد را تهدید می‌کنند. شرکت‌های معتبر از چندی پیش با به اشتراک گذاشتن روش‌ها و مدل‌های موجود برای داده‌کاوی، به دنبال کسب داده بیشتر در مورد مشتریان مشترک هستند تا بتوانند در مورد عادت‌های آن‌ها در زمینه خرید کالا اطلاعات دقیق‌تری داشته‌ باشند. قبل از آن‌که تکنیک‌های داده‌کاوی همه‌گیر شود و کلاف سردرگم حریم شخصی افراد را تهدید کند، باید بتوان راهی برای حفاظت از حریم و اطلاعات شخصی افراد پیدا کرد. مشکل اصلی از آنجا ناشی می‌شود که چگونه می‌توان هم حریم شخصی افراد را در نظر گرفت و هم از نتایج مفید سیستم‌های داده‌کاوی بهره ‌برد. برای برطرف کردن موانع موجود در این زمینه، تحقیقات زیادی در حال انجام است، اما در عمل سیستم‌های داده‌کاوی که بتوانند در عین حال حریم شخصی افراد را نیز حفظ کنند، هنوز در مرحله ابتدایی و آزمایشی هستند. بیشتر این تکنیک‌ها در لایه زیرین به جای بررسی مشکلات سیستم‌ها، روی ابزارهای محاسباتی‌ و الگوریتم‌ها متمرکز شده‌اند. هدف ما از بررسی حریم شخصی، به دست آوردن یک دید سیستماتیک از نیازهای ساختاری و طراحی اصول و بررسی راه‌حل‌هایی است که بتوانند در سیستم‌های داده‌کاوی به‌طور عملی از حریم شخصی افراد محافظت کنند.




منبع: IEEE Computer - آوریل 2007



طرح پایه‌

همان‌طور که در شکل 1 مشاهده می‌شود، داده‌کاوی به همراه حفاظت از حریم شخصی، شامل چندین مرحله می‌شود که آن‌ها را در یک معماری سه لایه دسته‌بندی می‌کنند: در لایه پایین تهیه‌کنندگان داده (data providers) قرار دارند. یعنی کسانی که مالک داده هستند و عموماً از لحاظ موقعیت مکانی در سطح گسترده‌ای توزیع شده‌اند.

تأمین‌کنندگان داده اطلاعات شخصی خود را به سرور انبار داده (data warehouse server) ارسال می‌کنند. این سرور که لایه میانی به حساب می‌آید، از فرایندهای تحلیل آنلا‌ین داده‌ها، پشتیبانی می‌کند و از طریق تبدیل داده‌های خام کاربران به داده‌های گروهی، اطلاعاتی را برای سرورهای داده‌کاوی فراهم می‌کند که امکان پردازش سریع‌تر آن‌ها فراهم است.

سرورهای انبار داده، با جمع‌آوری داده با یک نظم فیزیکی خاص، نظیر استفاده از ساختار مکعبیِ چندبعدی و استفاده از توابع جمعی نظیر Sum ،Average ،Max و Min پیش‌محاسبه‌های مختلفی از داده‌ها فراهم می‌کند. برای یک سیستم آنلا‌ین از نوع survey، پاسخ‌دهندگان در اصل تأمین‌کنندگان داده هستند که داده‌های خود را به سرور انبار داده تحلیل از نوع survey، ارسال می‌کنند.

میانگین سن پاسخ‌دهندگان به برنامه، می‌تواند یک نمونه از اجماع داده‌ها در سیستم به حساب آید. پردازش داده‌های حاصل از توابع اجماع در سرور خیلی آسان‌تر از پردازش داده‌های خام ارسالی توسط تهیه‌کنندگان داده است.

سرورهای داده‌کاوی، در بالاترین لایه قرار می‌گیرند که کار اصلی در زمینه داده‌کاوی توسط آن‌ها انجام می‌شود. در یک سیستم داده‌کاوی که اصول حفاظت از حریم شخصی را رعایت کرده ‌باشد، این سرورها، نمی‌توانند آزادانه به همه داده‌های ذخیره‌شده در انبار‌های داده دسترسی داشته ‌باشند.

برای مثال، در یک سیستم بیمارستانی، اداره حسابداری باید فقط بتواند به داده‌های مالی بیماران دسترسی داشته ‌باشد و به هیچ ‌عنوان نباید به رکوردهای ثبت شده در مورد سوابق پزشکی آن‌ها دسترسی داشته‌ باشد. توسعه و ایجاد قوانین مؤثر برای دسترسی درست سرورهای داده‌کاوی به داده‌های انبار‌های داده، یکی از مشکلاتی است که تحقیق در مورد آن به صورت ارسال و دریافت گسترده پیشنهادها، در حال انجام است.

به علاوه، یک سرور داده‌کاوی ممکن است با ایجاد مدل‌های داده‌کاوی روی سرور انبار داده، داده‌های آن را با سرورهای داده‌کاوی دیگر در سیستم‌های دیگر به اشتراک بگذارد. انگیزه اصلی از به اشتراک گذاشتن داده در این مدل‌ها، ایجاد مدل‌های مشابه برای داده‌کاوی در بین سیستم‌ها است.

برای مثال، شرکت‌های اجاره‌‌دهنده سرور، ممکن است بخواهند روش‌های داده‌کاوی خود روی رکوردهای مشتریان را به اشتراک بگذارند تا به این ترتیب یک مدل جهانی داده‌کاوی در مورد رفتار مشتریان ایجاد کنند که به نفع همه شرکت‌ها خواهد بود. همان‌طورکه شکل 1 نشان می‌دهد، به اشتراک گذاشتن داده در بالاترین لایه رخ می‌دهد که در آن هر سرور داده‌کاوی از مدل داده‌کاوی مخصوص خود استفاده می‌کند. بنابراین در اینجا «به اشتراک گذاشتن» به معنی به اشتراک گذاشتن مدل‌های داده‌کاوی محلی است، نه به اشتراک گذاشتن داده‌های خام.

حداقل‌های ضروری برای رعایت‌شدن اصول پایه طراحی‌

برای طراحی یک سیستم داده‌کاوی که حریم شخصی را نیز رعایت کرده ‌باشد، باید ابتدا یک تعریف مشخص از حریم شخصی ارایه دهیم. تفسیر معمول برای این کلمه به این صورت است که یک داده در صورتی شخصی تلقی می‌شود که مالک آن حق داشته‌ باشد، در مورد محرمانه ماندن یا افشای آن تصمیم بگیرد و مختار باشد که مشخص کند به چه علت یا تا چه اندازه می‌توان این داده‌ها را در اختیار دیگران قرار داد.

بیشتر نظریه‌پردازان تفسیر عبارت «حریم شخصی در مدل‌سازی داده» را به این صورت در نظر می‌گیرند که مالک داده به صورت پیش‌فرض اجازه افشای داده‌های شخصی خود را نداده ‌است؛ مگر این‌که برای اجرای داده‌کاوی حتماً به آن داده‌ها نیاز باشد.

این فرض به همراه تعریف مورد قبول برای حفاظت از اطلاعات، مبانی پایه و اصول پایه طراحی سیستم‌های داده‌کاوی با رعایت حریم شخصی را ایجاد می‌کنند:
در یک سیستم داده‌کاوی، اطلاعات شخص افشا شده باید شامل حداقل داده‌هایی باشد که در داده‌کاوی به آن‌ها نیاز است.

در نوشتار حاضر منظور و معیار برای کلمه «حداقل»، کیفیت اطلاعات است، نه کمیت آن. از آنجا که معیار کّمی برای اندازه‌گیری افشای اطلاعات شخصی، در سیستم‌های مختلف فرق می‌کند، پس حداقل دید مشترک این است که نباید هیچ یک از اطلاعات شخصی غیرضروری افشا شود (در این نوشته منظور از غیرضروری، به سطح دقت مورد نیاز در نتایج حاصلی از سیستم‌های داده‌کاوی بستگی دارد.). بنابراین کلمه «حداقل» به این معنی است که افشای حریم شخصی، بر مبنای نیاز به داده صورت می‌گیرد. خیلی از قوانین از جمله HIPPA، تبعیت از قانون حداقل نیازهای ضروری را الزامی می‌دانند.

پروتکل‌های حریم شخصی‌

بر مبنای اصولی که در ساختار شکل 1 و قانون «حداقل‌های ضروری» برای رعایت شدن اصول پایه طراحی عنوان شده‌است، استراتژی‌ای را برای حفظ حریم شخصی در سیستم‌های داده‌کاوی پیاده‌سازی کرده‌ایم. قلب این استراتژی بر مبنای سه پروتکل است که باید در هنگام تصمیم‌گیری در مورد افشای داده‌های موجودیت‌های سیستم، بررسی شوند:

1- جمع‌آوری داده (Data collection) که در هنگام انتقال داده از تولیدکنندگان داده به سرورهای انباره داده، از حریم شخصی داده‌ها، حفاظت می‌کند.
2- کنترل نتیجه ‌(Infereace control) که حفاظت از حریم شخصی را هنگام انتقال داده از انبارهای داده به سرورهای داده‌کاوی مدیریت می‌کند.
3- به اشتراک‌گذاری اطلاعات (information sharing) داده‌های به اشتراک گذاشته شده بین سرورهای داده‌کاوی در سیستم‌های مختلف را کنترل می‌کند.

با در نظر گرفتن قانون «حداقل‌های ضروری»، باید هدف مشترک این سیستم‌ها، ساختن مدل‌های داده‌کاوی دقیق، با انتقال حداقل داده شخصی مورد نیاز برای داده‌کاوی باشد. در عمل، ساختن سیستمی که در عین کارایی بتواند به خوبی از داده‌های شخصی محافظت کند، در اکثر موارد کار سختی است.




شکل1- معماری پایه برای حفاظت از حریم شخص در فرآیندهای داده کاوی. این معماری به‌طور کلی شامل سه لایه است: تهیه کننده‌های داده، که مالک داده هستند. سرورهای انبار داده، که از فرآیندهای تحلیلی آنلاین پشتیبانی می‌کنند و سرورهای داده کاوی که کارهای داده کاوی را انجام می‌دهند و اطلاعات خود را به اشتراک می‌گذارند. هدف اصلی کنترل کردن داده‌های محرمانه‌ای است که بین این موجودیت‌ها رد و بدل می‌شود؛ بدون آن که مانع فرآیند داده کاوی شویم.


به این ترتیب می‌بینیم که همیشه یک رابطه معکوس، بین ایجاد یک سیستم داده‌کاوی دقیق یا ایجاد یک سیستم امن از نظر حفاظت از داده‌های شخصی، وجود دارد. این پروتکل‌ها، مبتنی ‌بر متدهای اثبات‌شده‌ای هستند که طراح سیستم می‌تواند برای برآورده‌کردن نیازهای خاصی، آن‌ها را در نظر گیرد و در مورد نسبت افشای داده‌های شخصی به دقت داده‌کاوی، حالتی را انتخاب کند که بیشترین نفع را برای او داشته باشد. برای مثال، پروتکل «جمع‌آوری داده» می‌تواند از یکی از دو روش معمول برای جمع‌آوری داده استفاده کند که هر یک منافع و معایب خاصی دارد.

پروتکل جمع‌آوری داده‌

پروتکل جمع‌آوری داده (Data collection) به تهیه‌کنندگان داده اجازه می‌دهد قسمت مربوط به مورد «حداقل داده شخصی مورد نیاز برای داده‌کاوی» را رعایت کنند و تضمین می‌کند که تنها بخش ضروری داده برای سرور انباره داده ارسال شود.

پروتکل جمع‌آوری داده از چندین فاکتور ایجاد شده است. اولین فاکتور ضروری، مقیاس‌پذیر بودن (قابل اندازه‌گیری) داده است؛ زیرا سرور انبار ‌داده می‌تواند همانند سیستم‌های نوع survey، با صدها هزار تهیه‌کننده داده در ارتباط باشد. ثانیاً هزینه‌های محاسباتی برای تهیه‌کنندگان داده باید کم باشد؛ زیرا آن‌ها در مقایسه با سرورهای انبار داده، قدرت محاسباتی خیلی کمتری دارند و در نتیجه هزینه محاسباتی بالا می‌تواند آن‌ها را از مشارکت در پروژه‌های داده‌کاوی منصرف کند.

در نهایت، این پروتکل باید درست، ساده و مطمئن باشد. یعنی بتواند در عین حفاظت از حریم شخصی ارسال کننده داده، نتایج نسبتاً دقیقی را نیز ایجاد کند؛ حتی اگر ارسال‌کننده‌های مختلف به صورت متفاوت با سیستم برخورد کنند. برای مثال، اگر بعضی از تهیه‌کنندگان داده در یک سیستم survey، از پروتکل سوءاستفاده کنند یا داده‌های بی‌معنی ارسال کنند، پروتکل جمع‌آوری داده باید تأثیرات ناشی از این برخورد غلط با سیستم را کنترل کند و تضمین کند که نتایج نهایی حاصل از داده‌کاوی به اندازه کافی دقیق بمانند.

شکل 2 ساختار درختی مربوط به پروتکل‌ها و زیرپروتکل‌های جمع‌آوری داده را نشان می‌دهد. همان‌طور که می‌بینید پروتکل جمع‌آوری داده دو نوع اصلی را شامل می‌شود.




شکل2- ساختار درختی پروتکل‌های جمع‌آوری داده. یک طراح باید تصمیم بگیرد که از کدام روش استفاده کند؛ روش‌های مبتنی بر ارزش یا ابعاد، تا راهکارهای متناسب با آن روش به بهترین شکل با طراحی مورد استفاده تناسب داشته باشد.




روش مبتنی بر ارزش

با استفاده از روش مبتنی بر ارزش (Value-based method)، تهیه‌کنندگان داده به یکی از دو روش زیر به دستکاری مقادیر مربوط به هر داده می‌پردازند. روش مبتنی بر آشفته‌ کردن، خطا را مستقیماً در داده اعمال می‌کند. برای مثال، سن را از 23 به 30 یا تگزاس را به کالیفرنیا تغییر می‌دهد. روش مبتنی بر اجماع داده‌ها را مطابق با ساختار سلسله مراتبی آن‌ها به حالت کلی‌تر تبدیل می‌کند. برای مثال، سن 23 را به بازه 21 تا 25 یا تگزاس را به ایالات متحده تبدیل می‌کند.

روش مبتنی بر آشفته‌ کردن برای داده‌های اختیاری مناسب است. در حالی‌ که روش مبتنی بر اجماع، به دانش سیستم در مورد سلسله مراتب مربوط به داده بستگی دارد و در عوض می‌تواند در تضمین مبهم ماندن داده نیز کمک کند. برای مثال، ابهام -k یعنی آن‌که داده‌های هر رکورد داده‌ای آشفته‌شده از داده‌های 1-k رکورد دیگر، غیرقابل تشخیص است.

روش مبتنی بر ارزش فرض می‌کند که رسیدن به داده‌های شخصی از طریق بررسی داده‌های دستکاری شده برای سرورهای انباره داده ناممکن یا حداقل خیلی سخت است، ولی سرور می‌تواند داده‌های اصلی را از روی توزیع داده‌های آشفته موجود بازیابی کند و در نتیجه امکان ایجاد مدل‌های داده‌کاوی دقیق را فراهم آورد.

روش مبتنی بر ابعاد

دلیل استفاده از نام «روش مبتنی بر ابعاد» (Dimention-based method) این است که داده‌ها‌ی مورد بررسی معمولاً صفات (ابعاد) زیادی دارند. ایده اصلی این است که با حذف کردن تعداد بعدهای داده، آن قسمتی از داده‌ها را که شخصی به حساب می‌آیند، جداسازی کنیم.

روش مبتنی بر block این کار را از طریق جداسازی بعضی از صفات شخصی انجام می‌دهد و این دسته از داده‌ها را در اختیار سرور انبار داده قرار نمی‌دهد، ولی این روش ممکن است باعث از دست دادن داده شود، ولی سرورهای داده‌کاوی نتوانند از روی این دسته از داده‌ها، نتایج دقیقی به دست آورند.

مدل پیچیده‌تری با نام مدل مبتنی بر Projection داده‌های اصلی را روی زیر فضاهایی با ابعاد کمتر منعکس می‌کند. این زیرفضاها با دقت زیادی طراحی شده‌اند تا تنها حداقل داده‌های مورد نیاز برای ایجاد مدل‌های داده‌کاوی دقیق را شامل شوند.

مزایا و معایب‌

هر یک از این مدل‌ها، مزایا و معایبی دارد. روش مبتنی بر ارزش، مستقل از وظایف داده‌کاوی عمل می‌کند و در نتیجه برای برنامه‌هایی مناسب است که برای وظایف داده‌کاوی چندگانه یا وظایف تعریف نشده در جمع‌آوری داده مناسب است. از سوی دیگر، روش مبتنی بر ابعاد با وظایف داده‌کاوی تک‌بعدی متناسب است؛ زیرا بعد از تفکیک و کم کردن ابعاد، اطلاعاتی که باید بازیابی شوند، به هدف و وظیفه مورد نظر ما بستگی دارد.

تا کنون تحقیقات نتوانسته است یک مدل کلی و قابل استفاده از الگوی مبتنی بر Projection برای همه برنامه‌ها ایجاد کند. با این وجود باز هم این روش از لحاظ نسبت کاهش دقت به افشای اطلاعات شخصی، در مقایسه با روش مبتنی بر ارزش مزیت‌های زیادی دارد.

بیشتر روش‌های مبتنی بر ارزش، با صفات مختلف، به روش‌های مستقل و متفاوتی برخورد می‌کنند. در نتیجه بعضی از صفاتی که در داده‌کاوی اهمیتی ندارند نیز در همان سطح افشای داده‌های مهم، برای سرور انباره داده، ارسال می‌شوند. مطالعات اخیر نشان می‌دهد که در صورت استفاده از روش آشفته‌سازی تصادفی، سرور انباره داده می‌تواند با نقض تکنیک‌های حفظ حریم شخصی، آشفتگی‌ها را از داده‌های آشفته حذف کند و به این ترتیب حداقل بخشی از داده‌های محرمانه را به دست آورد.

در روش مبتنی بر projection به خاطر بررسی رابطه بین صفات و ارایه داده‌‌های صرفاً ضروری برای داده‌کاوی از مشکلات معمول در سیستم روش مبتنی بر ارزش خبری نیست.

همچنین از طریق دریافت اطلاعات در مورد داده‌های ضروری، می‌تواند از ارایه اطلاعات شخصی غیرضروری جلوگیری کند و به این ترتیب عملکرد آشفته‌سازی داده را بهبود بخشد. من و یکی از همکارانم در یکی از پروژه‌های سابق، الگویی را ارایه کردیم که بر مبنای دریافت راهنمایی‌های لازم و کاهش ابعاد داده متناسب با راهنمایی‌های دریافتی،‌ پایه‌ریزی شده‌ بود.

این روش برای سیستم‌های پویا نظیر سیستم‌های survey طراحی شده ‌بود که در آن‌ها تهیه‌کنندگان داده به صورت ناهمزمان به سیستم متصل شده و داده‌های مورد نظر ما را تأمین می‌کنند. در این الگو برای راهنمایی تهیه‌کنندگان داده که هنوز داده‌های خود را ارسال نکرده‌اند، ابتدا داده‌های جمع‌آوری‌شده از اعضای قبلی بررسی می‌شود و سپس با تحلیل آن‌ها، داده‌های ضروری برای داده‌کاوی شناسایی و از تهیه ‌کننده داده درخواست می‌شود. سپس سیستم درخواست دریافت صفات مورد نیاز را ارسال می‌کند. نمونه‌های قبلی نشان می‌دهد که الگوها و برنامه‌های دارای راهنما، از الگوهایی که فاقد راهنما باشند بهتر عمل می‌کنند.

پروتکل کنترل نتیجه‌

محافظت از داده‌های شخصی در سرورهای انباره‌داده، از طریق کنترل اطلاعات ارسالی برای سرورهای داده‌کاوی میسر می‌شود و هدف از پروتکل کنترل نتیجه ‌(Inference Control Protocol) نیز عملی کردن همین کار است. بر مبنای قانون حداقل‌های مورد نیاز، پروتکل کنترل نتیجه‌ تضمین می‌کند که داده‌های سرورهای انبار داده هم برای پاسخگویی به پرس‌وجو از انبارهای داده عملکرد کافی دارند و هم تا حد ممکن جلوی افشای اطلاعات شخصی غیر ضروری را می‌گیرند.

برای طراحی و پیاده‌سازی پروتکل کنترل نتیجه، چندین پیش‌نیاز وجود دارد. یکی از این نیازها، داشتن امکان جلوگیری از ارسال نتایج است. اگر سرور داده‌کاوی یک سرور مشکوک یا رقیب باشد، در این صورت سعی می‌کند با استفاده از نتایج پرس‌وجوهای قبلی خود به داد‌ه‌های شخصی و محرمانه دست پیدا کند. مثالی از این روش در شکل 3 ارایه شده است.




شکل3- نتیجه‌گیری‌هایی که اطلاعات محرمانه را افشا می‌کنند. اگر سرور داده کاوی قصد نفود داشته باشد، می‌تواند از طریق پاسخ پرس‌وجوهای ارسالی و داده‌های مربوط به بعضی از سلول‌های داده‌ای (که با نام Known یا شناخته شده، نشان داده شده‌اند)، تعداد DVDهای فروخته شده توسط فروشنده در ماه ژوئن را محاسبه کند (فرض بر ا ین است که این داده‌ها، محرمانه هستند و نباید افشا شوند). اگر Q1 تا Q8 به ترتیب نتیجه پرس‌وجوهای ارسالی باشند، کافی است برای یافتن تعداد DVDهای فروخته شده، عبارت زیر را محاسبه کنیم:
Q1+Q8=(Q5+Q6)=88-72=16


به علاوه، پروتکل کنترل نتیجه باید به اندازه کافی کارایی داشته ‌باشد تا به درخواست‌های انجام شده از سرورهای انبار داده در مدت زمان منطقی پاسخ دهد. یعنی باید زمان پاسخگویی یا همان مدت زمان بین درخواست از سرور و پاسخ سرور به درخواست، در یک بازه معقول قرار گیرد. زمانی که پروتکل کنترل نتیجه صرف می‌کند نیز جزو زمان پاسخگویی سرور به حساب می‌آید. پس این زمان نیز باید همواره کنترل شود تا زمان پاسخگویی سرور انباره داده بتواند همیشه در حد معقولی باقی بماند.

برای رسیدن به این نیازها، پروتکل‌های کنترل نتیجه باید اطلاعات قرار گرفته در پاسخ پرس‌وجوها را محدود کنند تا سرورهای داده‌کاوی نتوانند از طریق بررسی پاسخ پرس‌وجوهای ارسالی، به داده‌های شخصی افراد دسترسی پیدا کنند.
شکل 4 ساختار درختی قوانین کنترل نتیجه را نشان می‌دهد که شامل دو روش برای کنترل نتیجه‌ است.




شکل4- ساختار درختی پروتکل‌های کنترل نتیجه. طراح می‌تواند با توجه به نیاز خود بررسی کند که کدام یک از روش‌ها پرس‌وجوگرا یا داده‌گرا برای او مناسب‌تر است.




روش پرس‌وجوگرا

روش پرس‌وجوگرا (Query-Oriented)، بر مبنای مفهوم ارایه مجموعه‌ای از پرس‌وجوی‌های امن، بنا شده‌ است. در این حالت به شرطی به مجموعه پرس‌وجوهای Q1 تا Qn، امن می‌گوییم که بررسی و ترکیب پاسخ آن‌ها، در سرور داده‌کاوی منجر به افشای اطلاعات خصوصی موجود در سیستم نشود.

بنابراین کنترل نتیجه به روش پرس‌وجوگرا به این معنی است که وقتی سرور انباره داده یک درخواست داده یا پرس‌وجو را دریافت کند، تنها در صورتی به آن پاسخ خواهد داد که نتوان از ترکیب نتیجه آن پرس‌وجو و مجموعه پرس‌وجوهای ذخیره‌‌شده در تاریخچه پرس‌وجوهای ذخیره ‌شده (یعنی پرس‌وجوهایی که قبل از این به آن‌ها پاسخ داده ‌شده ‌است)، به اطلاعات خصوصی افراد دسترسی پیدا کرد.

در این حالت می‌گوییم که پرس‌وجوی ارسالی، امن است. در رابطه با کنترل نتیجه به روش پرس‌وجوگرا، در پایگاه‌های داده آماری، کنترل نتیجه در این گونه انبار‌های داده نیاز به بررسی حجم عظیمی از داده را شامل می‌شود. در نتیجه بار کاری این نوع سرورها با کنترل نتیجه به روش استفاده و بررسی پرس‌وجوهای قبلی بسیار کمتر می‌شود و در نتیجه کارایی سیستم افزایش می‌یابد.

از آنجا که تشخیص پویای مجموعه پرس‌وجوهای امن (بررسی آنی تاریخچه پرس‌وجوهای انجام‌شده)، یک فرآیند زمان‌بر است، در نتیجه استفاده از حالت‌های غیرپویای که معادل با این روش باشند، مناسب‌تر است. حالت استاتیک قبل از اتصال به شبکه، مجموعه‌ای از پرس‌وجوهای امن را مشخص می‌کند (قبل از آن‌که هر گونه پرس‌وجویی را دریافت کند).

اگر یک مجموعه از پرس‌وجوها امن باشند، در این صورت هر زیرمجموعه‌ای از آن پرس‌وجوها نیز امن به حساب می‌آید. در هنگام اجرا و ‌ زمانی ‌که سرور انباره داده، یک پرس‌وجو را دریافت می‌کند، تنها در صورتی به آن پاسخ می‌دهد که آن پرس‌وجو در یکی از مجموعه پرس‌وجوهای امن از قبل تعریف‌ شده قرار داشته باشد. در غیر این صورت، آن پرس‌وجو مردود می‌شود.

از طرف دیگر، روش پرس‌وجوهای امن ولی ثابت، در تولید مجموعه پرس‌وجوهای امن، خیلی محتاط و محافظه‌کار است و در نتیجه ممکن است بعضی از پرس‌وجوها را مردود کند. در حالی ‌که مردود کردن آن ها ضروری نیست.

روش داده‌گرا

با استفاده از روش داده‌گرا، برای کنترل نتیجه، سرور انباره داده، داده‌های خام سرور را آشفته می‌کند و پاسخ پرس‌وجوها را بر مبنای این داده‌های آشفته، تا حد ممکن با دقت جواب می‌دهد. همان‌طور که در شکل 4 مشاهده می‌شود، پروتکل جمع‌آوری داده می‌تواند آشفتگی در داده را ایجاد و مدیریت کند؛ مگر این‌که برنامه نیاز داشته ‌باشد که داده‌های اصلی را در سرور انبار داده ذخیره‌ کند. در این موارد، برای استفاده از روش داده‌گرا، سرور انبار داده باید قبل از پردازش پرس‌وجو، داده‌ها را آشفته کند.

روش داده‌گرا، فرض می‌کند که با آشفته‌سازی می‌تواند از افشای داده‌های محرمانه،‌ جلوگیری کند و بدون هیچ محدودیتی و بر مبنای داده‌های آشفته به همه پرس‌وجوها پاسخ دهد. تحقیقات نشان می‌دهد که پاسخ‌های حاصل شده با استفاده از داده‌های آشفته هنوز هم برای ایجاد مدل‌های داده‌کاوی نسبتاً دقیق، مناسب هستند.

مزایا و معایب‌

استفاده از هر یک از این دو روش با توجه به کاربرد خاص آن‌ها، نیاز به رعایت نکات خاصی دارد. روش داده‌گرا خود را موظف می‌داند به همه پرس‌وجوها پاسخگو باشد. از طرفی، روش پرس‌وجوگرا معمولاً تعداد قابل‌توجهی از پرس‌وجوها را مردود می‌کند و این بدان معنا است که بعضی از سرورهای داده‌کاوی ممکن است نتوانند وظایف داده‌کاوی خود را کامل کنند.

مزیت روش پرس‌وجوگرا در این است که در مقایسه با روش داده‌گرا، پاسخ‌های دقیقی تولید می‌کند. وقتی سرور انباره داده به یک پرس‌وجو پاسخ می‌دهد، جواب ارایه شده همیشه دقیق و درست است. در حالی‌ که در روش داده‌گرا دقت پاسخ به پرس‌وجوها همیشه حالت تقریبی دارد و به همین سبب ممکن است برای داده‌کاوی خیلی هم مناسب نباشد؛ به ویژه در جاهایی که نیاز به ایجاد خروجی خیلی دقیق وجود دارد.

کارایی و سرعت بالا، یکی از مزیت‌های مهم روش پرس‌وجوگرا از نوع غیرپویا است؛ زیرا در این روش به علت پیش‌محاسبه خیلی از فرایندهای محاسباتی زمان‌بر، هزینه زمانی پاسخ به پرس‌وجو و به عبارتی زمان پاسخ به پرس‌وجو خیلی کوتاه‌تر است.

مدل پویا از نظر کارایی عملکرد ضعیف‌تری دارد و در عوض به تعداد بیشتری پرس‌وجو، پاسخ‌گو است. با دریافت تعداد بیشتری پرس‌وجو سرور داده‌کاوی باید زمان بیشتری را برای بررسی تاریخچه پرس‌وجوهای کامل شده صرف کند. روش داده‌گرا هم کارایی کمی دارد؛ زیرا سربار محاسباتی ناشی از تخمین پاسخ پرس‌وجوها می‌تواند چندین برابر مدت پاسخ‌گویی به خود پرس‌وجو وقت تلف کند.

یک راه برای کارایی پروتکل‌های بهبود کنترل نتیجه، ترکیب کردن روش‌های پرس‌وجوگرا و داده‌گرا است. با معرفی الگوی پاسخ‌دادن یا رد یک پرس‌وجو به روش‌های داده‌گرا، روش ترکیبی حاصل، به سرور انبار داده اجازه می‌دهد بعضی از پرس‌وجوهای نقض‌کننده حریم شخصی‌ (نظیر پرس‌وجوی Q3 در شکل3) را مردود کند.

در نتیجه، این کار به طور مؤثری نیاز به آشفته‌سازی در داده‌ها را کاهش می‌دهد و در عین حال همان سطح از حفاظت از داده‌ها،‌ ارایه می‌شود. چون داده‌ها به صورت آشفته ذخیره ‌شده ‌است، در نتیجه سرور موظف است پرس‌وجوهای کمتری را مردود کند و از طرفی می‌تواند برای اکثر پرس‌وجوها جواب تقریباً درستی ایجاد کند و در همان حال از داده‌های خصوصی افراد نیز حفاظت کند.

پروتکل به اشتراک گذاری اطلاعات

از آنجا که سرورهای داده‌کاوی، مدل‌های داده‌کاوی را بر مبنای سیستم خودشان ایجاد می‌کند،‌ در نتیجه هر یک از این سرورها، تمایل دارد مدل داده‌کاوی خود را با دیگران به اشتراک بگذارد، نه داده خام موجود در سرور انباره داده را که برای سایر سرورهای داده‌کاوی نیز در دسترس است. مدل‌های داده‌کاوی محلی، خودشان نیز می‌توانند از لحاظ نقض حریم شخصی،‌ حساسیت ایجاد کنند؛ به ویژه در مواردی که مدل‌های محلی برای مورد خاصی ایجاد شده‌اند و کاربرد کلی ندارند.

برای حفاظت از حریم شخصی در سیستم‌های داده‌کاوی محلی، باید مکانیزم‌هایی وجود داشته‌ باشد تا جلوی افشای اطلاعات اختصاصی از مدل‌های داده‌کاوی محلی گرفته ‌شود. این مکانیزم را پروتکل به اشتراک‌گذاری اطلاعات می‌نامند که دوباره برای رعایت اصل «ارایه حداقل نیازهای ضروری»،‌ پی‌ریزی شده‌ است.

هدف از این پروتکل این است که سرورهای داده‌کاوی در سیستم‌های مختلف بتوانند در ایجاد یک مدل داده‌کاوی مشترک سهیم شوند و برای رسیدن به این هدف نیز حداقل داده‌های اختصاصی خود را در مورد مدل‌های داده‌کاوی محلی در زمینه به اشتراک‌گذاری اطلاعات در آن پلتفرم مشترک استفاده کنند.

تعداد زیادی پروتکل به اشتراک گذاری اطلاعات برای استفاده در برنامه‌هایی که وظیفه‌ای جز داده‌کاوی دارند، ارائه‌ شده‌ است؛ نظیر برنامه‌های تعامل بین پایگاه‌های داده. به اشتراک‌گذاری اطلاعات برای بسیاری از سیستم‌های توزیع‌ شده، اهمیتی حیاتی دارد و بیشتر برنامه‌ها نیز روی طراحی پروتکل‌های ویژه به اشتراک‌گذاری اطلاعات برای فعالیت‌های داده‌کاوی متمرکز است.

یکی از مهم‌ترین نگرانی‌ها در ایجاد سیستم‌های به اشتراک‌گذاری داده، ایجاد امکان دفاع در برابر سیستم‌های نفوذی‌ای است که با استفاده از اختیارت،‌ کاملاً به طور دلخواه و متناسب با نیازهای خود،‌ عمل می‌کنند. مدل دفاع، به مدل نفوذ (مجموعه‌ای از فرضیات در مورد هدف نفودگر و نحوه عمل یا رفتار او) بستگی دارد. دو مدل از انواع معروف نفوذ، با نام روش semihonest (دورو) و beyond semihonest (فراتر از دو رو) شناخته می‌شود.

نفوذ به روش semihonest

یک نفوذگر در صورتی semihonest شناخته‌ می‌شود که دقیقاً از پروتکل‌های طراحی شده تبعیت کند، ولی با انجام همه محاسبات و برقراری همه ارتباطات لازم، روش‌هایی را برای رسیدن به اطلاعات محرمانه شناسایی کند.

ثابت شده است که رمزنگاری به روش cryptographic می‌تواند به‌طور مؤثری جلوی نفوذ به روش semihonest را سد کند. در این روش هر سرور داده‌کاوی، مدل‌داده‌کاوی مربوط به خود را رمزنگاری می‌کند و مدل رمزنگاری شده را با سایر سرورهای داده‌کاوی مبادله می‌کند.

ویژگی‌های بعضی از الگوهای رمزنگاری نظیر سیستم‌های مبتنی بر الگوریتم RSA یا Rivest-Shaminr-Adleman، این امکان را فراهم می‌آورد تا بتوان برای سرورهای داده‌کاوی، الگوریتم‌هایی ایجاد کرد که بعضی از وظایف داده‌کاوی معین را انجام دهند و بدون اطلاع از کلید خصوصی سایر موجودیت‌ها، بعضی از وظایف تعریف‌شده برای آن‌ها به‌عنوان یک سرور داده‌کاوی را عملیاتی کنند. این وظایف شامل دسته‌بندی،‌ همراه کردن قوانین داده‌کاوی، clustering داده‌ها، فیلترکردن تعاملی،‌ استفاده از عملگرهایی نظیر intersection ،union و ‌element reductionاست.

از آنجا که در این روش بدون دانستن کلیدهای private، دسترسی به مدل‌های داده‌کاوی اصلی، با استفاده از مقادیر رمزنگاری شده موجود‌ امکان‌پذیر نیست، می‌توان از این روش به‌عنوان دفاعی امن در برابر نفوذهای semihonest استفاده کرد. چندی است که محققان دسته‌بندی روش‌های رمزنگاری cryptographic را برای استفاده در سیستم‌هایی با تنظیمات مختلف، کامل‌کرده‌اند.

نفوذ به روش beyond semihonest

اگر سیستم نفوذگر، برای نفوذ پروتکل تعیین‌شده را نادیده بگیرد یا داده ورودی خود را تغییر دهد یا از این دو روش استفاده کند، در این صورت به روش نفوذ مورد استفاده، beyond semihonest می‌گوییم. از آنجا که دفاع در برابر این روش نفوذ، سخت یا حتی غیرممکن است، نحوه برخورد با این روش‌ها نیز به مدل‌های کامل‌تری نیاز دارد.

یکی از این مدل‌ها،‌ روش نفوذ هدف‌دار است که برای نفوذ، اهداف مورد نظر را با هم ترکیب کرده و با ترکیب می‌کند نتایج با اطلاعات محرمانه موجود در مورد سایر موجودیت‌ها، از فرایند داده‌کاوی، نتایج دقیقی را به دست می‌آورد. سپس یک روش برنامه‌ریزی‌شده طراحی می‌شود تا در برابر نفوذهایی که بر مبنای نتایج دقیق حاصل از داده‌کاوی و ترکیب آن با اطلاعات محرمانه موجود، طرح‌ریزی شده ‌است،‌ مقابله شود.

ایده اصلی این است که پروتکلی برای به اشتراک گذاشتن داده‌ها ایجاد شود. به نحوی که هیچ نفوذگری نتواند در آن واحد از فرایند داده‌کاوی هم به نتایج دقیقی دست پیدا کند و هم به حریم اطلاعات محرمانه سرورهای دیگر دسترسی پیدا کند. با این روش، نفوذگرهایی که بیشتر تمرکز خود را روی دقت نتایج حاصل از داده‌کاوی متمرکز کرده‌اند، نمی‌توانند برای ایجاد دقت مورد نظر به اطلاعات محرمانه سایر سرورها، دسترسی پیدا کنند.

زمینه‌های موجود برای بررسی بیشتر

موضوعات زیادی وجود دارد که برای تضمین دسترسی به حداکثر کارایی از طریق تکنیک‌های گفته‌ شده، باید مورد بررسی بیشتر قرار گیرند.

پیاده‌سازی و یکپارچگی پروتکل‌ها

بدون شک،‌ بسیاری از سیستم‌ها به استفاده از این سه پروتکل نیاز دارند، ولی تحقیقات کمی وجود دارد که نیاز به این سیستم‌ها را آشکار کرده‌ باشد. معماری پیشنهادی و بسط‌ داده‌ شده توسط ما می‌تواند به عنوان چهارچوب و مبنایی برای مطالعه تعامل و روابط متقابل بین این پروتکل‌ها در نظر گرفته‌ شود. الگوهایی نظیر این مورد می‌تواند راهگشای روش‌های کاراتر و مؤثرتر برای پیاده‌سازی الگوهای مناسب باشد.

نیازمندی‌های یک سیستم ایجاد شده با سطوح دسترسی متفاوت برای رعایت اصول حریم شخصی‌

روش‌های حفظ حریم شخصی در تکنیک‌های داده‌کاوی، به رعایت اصول درجه‌بندی حفاظت از حریم شخصی متناسب با نیاز تأمین‌کنندگان داده بستگی دارد. بیشتر تحقیقات کنونی در مورد حفظ حریم شخصی در سیستم‌های شبیه به هم و معمول استوار است، که در آن‌ها همه مالکان داده به یک اندازه به حفاظت از داده‌های مرتبط با حریم شخصی نیاز دارند.

همچنین فرض می‌شود که سطح محافظت در مورد همه داده‌ها نیز یکسان است. چنین فرضیه‌ای کاملاً غیرواقعی است و در عمل ممکن است به کاهش کارایی سیستم‌ها منجر شود. طراحی و پیاده‌سازی تکنیک‌هایی که نیازمندی‌های یک سیستم با سطوح مختلف رعایت حریم شخصی را رعایت کند، یکی از زمینه‌هایی است که نتایج بالقوه زیادی برای آن پیش‌بینی شده‌است.

ارزیابی حریم شخصی‌

با توجه به افزایش دقت، به قیمت کاهش سطح حفاظت، باید برای حفظ حریم شخصی در سیستم‌های داده‌کاوی مکانیزم‌هایی ایجاد شود که بتوانند سطح حفاظت از حریم شخصی را ارزیابی کنند. هرچند کارهای جدید زیادی روی اندازه‌گیری سطح حفاظت از حریم ‌شخصی متمرکز شده ‌است، هنوز هیچ ‌کسی روشی را ارایه نکرده ‌است که به صورت عمومی به‌عنوان یک تکنیک مشترک برای ارزیابی سطح حفاظت از حریم شخصی در سیستم‌های داده‌کاوی پذیرفته ‌شود. یک سیستم ارزیابی سطح حفاظت از حریم شخصی، باید سه مقوله زیر را در نظر داشته ‌باشد.

1- تنظیمات سیستم را در نظر بگیرد (علاقمندی نفوذگرها به مقدار داده‌ای مربوط به صفات داده‌ای متفاوت، در سطوح متفاوتی قرار دارد. مثلاً علاقه زیادی به شناسایی بیمارانی وجود دارد که بیماری‌های واگیردار دارند).
2- باید سطوح حفاظتی متعددی که توسط هر تهیه‌ کننده داده در مورد هر یک از عناصر داده‌ای درخواست می‌شود، در نظر گرفته ‌شود(برای مثال بعضی‌ها ممکن است که اطلاعات مربوط به سن خود را به‌عنوان داده محرمانه در نظر گیرند. در حالی‌که دیگران تمایل داشته‌ باشند، این اطلاعات افشا شود).
3- مانند همه موارد قبل باید از قانون «حداقل نیازهای ضروری» تبعیت شود.

یک مطالعه کامل در زمینه ارزیابی حفظ حریم شخصی‌ نشان می‌دهد که هر سه پروتکل مذکور نقش زیادی در بهبود حفظ حریم شخصی در تکنیک‌های داده‌کاوی دارند.

شناسایی بی‌نظمی‌ها (anomaly)

یک برنامه ساده داده‌کاوی موظف است بی‌نظمی‌های مجموعه‌های داده‌ای را شناسایی کند؛ همان‌طور که از داده‌های فایل‌های log برای شناسایی هر گونه نفوذ در سیستم استفاده می‌شود. با این حال تحقیقات کمی وجود دارد که به شناسایی نفوذهای انجام شده از طریق بررسی anomalyها، بپردازد.

تحقیق روی آنومالی، یکی از زمینه‌های مهم در سیستم‌های داده‌کاوی است و می‌تواند به ایجاد قوانین متفاوتی در زمینه امنیت، امور مالی و امور پزشکی بیانجامد. به‌طور کلی سرمایه‌گذاری در زمینه‌هایی نظیر طراحی تکنیک‌های محافظت از حریم شخصی برای شناسایی anomaly در سیستم‌های داده‌کاوی، زمینه کاری بسیار مفیدی به حساب می‌آید.


سطوح محافظتی چندگانه‌

در بعضی موارد ایجاد چندین لایه امنیتی برای اطلاعات محرمانه، ضروری به نظر می‌رسد. برآورد نیاز به محافظت در اولین سطح در مورد ارزش داده‌ها و در دومین سطح در مورد حساسیت داده‌ها، انجام می‌شود (یعنی دانستن این‌که یک مدخل داده‌ای محرمانه است یا نه).

بیشتر تحقیقات کنونی، روی محافظت در اولین سطح متمرکز هستند و فرض می‌کنند که مقدار فاکتور دوم برای همه مدخل‌ها مشخص است. البته تحقیقاتی نیز انجام شده است تا نحوه محافظت از اطلاعات محرمانه در سطح دوم و حتی سطوح بعد نیز مشخص شود.

جمع‌بندی‌

کار ما روی اولین مرحله در تعیین مشکلات اصلی و سیستماتیک در محافظت از حریم شخصی در سیستم‌های داده‌کاوی متمرکز شده ‌است. تحقیقات بیشتر در این زمینه به بررسی نقاط قوت این معماری و اصول طراحی تعریف شده در این مقاله، می‌پردازد. تاکنون بیشتر گرایش‌ها به سمت حفاظت حریم شخصی در سیستم‌های داده‌کاوی بوده‌ است، ولی کاملاً مشخص است که این ایده‌ها به حجم کار زیادی نیاز دارند تا به سیستم‌های عملیاتی واقعی تبدیل شوند.

برای پیاده‌سازی سیستم‌های حفاظت از حریم شخصی روی سیستم‌های واقعی، به مطالعات زیادی نیاز است تا بتوان با تکیه بر آن نگرانی مالکان داده در مورد حفظ حریم شخصی را کاملاً برطرف کرد. البته زمینه‌‌های کاری حساس‌تر به ایجاد و مدیریت برنامه‌هایی مربوط می‌شود که در زمینه بهداشت و درمان، تحلیل بازار و امور مالی استفاده خواهند شد. امیدواریم کسانی هم پیدا شوند که به کار و بررسی در مورد این زمینه‌ها بپردازند.