پاکسازی داده
پاکسازی دادهها یا تمیز کردن دادهها فرایند پیدا کردن، اصلاح کردن (یا حتی حذف کردن) دادههای بی ارزش و اشتباه از مجموعه داده (دیتاست) یا پایگاه داده (دیتابیس) است. فرایند تمیز کردن دادهها ممکن است که از طریق ابزارهای دادهکاوی یا پردازش دستهای از طریق اسکریپتها انجام شود. بعد از پاکسازی، مجموعه داده باید با سایر مجموعه دادههای مشابه در سیستم سازگار باشد. ناسازگاری دادهها شناسایی و حذف (اصلاح) شده ممکن است بر اثر اشتباه انسانی هنگام ورود اطلاعات، انحراف در هنگام انتقال و ذخیره سازی اطلاعات یا به دلیل واژه نامههای داده مختلف باشد.
منابع
- Han, J., Kamber, M. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. شابک ۱-۵۵۸۶۰-۴۸۹-۸.
- Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit, Wiley and Sons, 2004. شابک ۰-۷۶۴۵-۶۷۵۷-۸.
- Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing, Humboldt-Universitat zu Berlin, Germany.
- Rahm, E., Hong, H. Data Cleaning: Problems and Current Approaches, University of Leipzig, Germany.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.