داده خام
دادههای خام، که همچنین با عنوان دادههای اولیه شناخته میشوند، دادههایی هستند (به عنوان مثال، اعداد، مقادیر قرائت شده از ابزار، ارقام، و غیره) که از یک منبع جمعآوری میشوند. اگر یک دانشمند دماسنج کامپیوتری را تنظیم کند که هر دقیقه دمای یک مخلوط شیمیایی را در یک لوله آزمایش ثبت کند، فهرستی از مشاهدات درجه حرارت برای هر دقیقه، به صورتی که در یک صفحه گسترده چاپ شده یا روی صفحه کامپیوتر نمایش داده میشود، «دادههای خام» خواهد بود. دادههای خام آنهایی هستند که هنوز پردازش و پاکسازی نشدهاند و دادههای پرت از آنها جدا نشدهاست یا تحلیلهایی مانند تعیین شاخصهای مرکزی مانند میانگین حسابی یا میانه بر روی آنها صورت نگرفتهاست. همچنین دادههای خام بخشی از اطلاعاتی است که هنوز از سوی برنامه نرمافزاری یا محقق، تحلیلگر یا تکنسین انسانی دستکاری نشدهاست. داده خام یک اصطلاح نسبی است، زیرا هرچند دادههای خام «تمیز» شده و توسط یک تیم محققان پردازش شده باشند، باز هم گروه دیگری میتواند این دادههای پردازش شده را به عنوان «دادههای خام» برای مرحله دیگری از تحقیق در نظر بگیرد. دادههای خام را میتوان به یک برنامه کامپیوتری وارد کرد یا در مراحل دستی مانند تجزیه و تحلیل آماری از یک نظرسنجی استفاده نمود. اصطلاح «دادههای خام» میتواند به دادههای باینری در دستگاههای ذخیرهسازی الکترونیکی مانند هارد دیسک (همچنین به عنوان «دادههای سطح پایین» اشاره) اشاره کند.
تولید دادهها
دادهها به دو روش تهیه یا تولید میشوند. اولین مورد چیزی است که «دادههای به دست آمده» نامیده میشود،[1] و از طریق تحقیق یا تحلیلی هدفمند پیدا میشود. گروه دوم، «دادههای خروجی»[1] نامیده میشود و معمولاً به وسیله ماشینها یا پایانهها به عنوان یک عملکرد ثانویه جمع میشود. برای مثال، دستگاههای ثبت اسکناس، گوشیهای هوشمند و سرعت سنجها کاری اصلی و اختصاصی دارند اما ممکن است دادهها را به عنوان یک کار ثانویه جمعآوری کنند. دادههای خروجی معمولاً یا خیلی بزرگند یا کاربرد کمی در پردازش دارند و منتقل یا دور ریخته میشوند.[1]
مثالها
در محاسبات کامپیوتری، دادههای خام ممکن است دارای ویژگیهای زیر باشند: ممکن است احتمالاً حاوی خطاهای انسانی، دستگاه یا ابزار باشند و فاقد اعتبار شوند؛ ممکن است در فرمتهای مختلف (تجمعی) باشند؛ بدون کد و بدون فرمت باشند؛ یا برخی از نوشتهها ممکن است "مشکوک" و نیازمند تأیید یا استناد باشند. به عنوان مثال، یک صفحه ورودی داده ممکن است حاوی تاریخ به عنوان دادههای خام در بسیاری از فرمها باشد: "۳۱ ژانویه ۱۹۹۹"، "۳۱/۰۱/۱۹۹۹"، "۳۱/۱/۹۹"، "۳۱ ژانویه"، یا "امروز".
منابع
- Kitchin, Rob (2014). The Data Revolution. United States: Sage. p. 6.