داده‌های گروه‌بندی‌شده

داده‌های گروه‌بندی‌شده واژه‌ای آماری است که در آنالیز داده استفاده می‌شود. می‌توان با ایجاد جدولی که توزیع فراوانی متغیر را نشان می‌دهد، یک مجموعه داده خام فراهم کرد. مثلاً جدول فراوانی اغلب به عنوان داده‌های گروه‌بندی شده به کار می‌رود.[1]

نمونه

می‌توان با داده‌های خامی که در ادامه ذکر شده‌است، ایده داده‌های گروه‌بندی‌شده را به تصویر کشید:

۲۰۲۵۲۴۳۳۱۳
۲۶۸۱۹۳۱۱۱
۱۶۲۱۱۷۱۱۳۴
۱۴۱۵۲۱۱۸۱۷
جدول ۱: مدت زمانی که طول کشید (ثانیه) دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند

می‌توان داده‌های بالا را به چند طریق در یک توزیع فراوانی (یا داده‌های گروه‌بندی‌شده) سازمان‌دهی کرد. یک روش استفاده از فواصل به عنوان اساس است.

کمترین مقدار در جدول بالا ۸ و بیشترین مقدار ۳۴ است. بازه بین ۸ تا ۳۴ به چند زیربازه تقسیم می‌شود. تعداد آیتم‌هایی که در هر زیربازه، قرار می‌گیرند شمرده می‌شوند. به این عدد، فراوانی آن زیربازه گویند. نتایج، همانند زیر، در جدول فراوانی ذکر می‌شوند:

زمان (ثانیه) طول کشیدهفراوانی
۵ ≤ t <۱۰۱
۱۰ ≤ t <۱۵۴
۱۵ ≤ t <۲۰۶
۲۰ ≤ t <۲۵۴
۲۵ ≤ t <۳۰۲
۳۰ ≤ t <۳۵۳
جدول ۲: توزیع فراوانی زمانی (به ثانیه) که طول کشید تا دسته‌ای از دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند

یکی‌دیگر از روش‌های دسته‌بندی‌داده‌ها استفاده از ویژگی‌های کیفی به جای بازه‌های عددی است. برای مثال، فرض کنید در مثال بالا سه نوع دانش‌آموز وجود داشته باشند: ۱) پایین‌تر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۵ تا ۱۴ ثانیه باشد، ۲) معمولی، به شرط آن‌که زمان بین ۱۵ تا ۲۴ ثانیه باشد، و ۳) بیشتر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۲۵ ثانیه و به بالا باشد، در این شرایط داده‌های گروه‌بندی شده به شکل زیر خواهد بود:

فراوانی
پایین‌تر از معمول۵
معمول۱۰
بیشتر از معمول۵
جدول ۳: توزیع فراوانی سه نوع دانش‌آموز

میانگین داده‌های دسته‌بندی‌شده

می‌توان با رابطه پایین، میانگین جامعه داده‌ها، یعنی ، را با توجه به داده‌های گروه‌بندی شده حساب کرد:

در این رابطه x نقطه میانی زیربازه‌ها و f فراوانی هر زیربازه است. توجه داشته باشید که این مقدار با مقدار میانگین نمونه فرق دارد. میانگین داده‌های بالا را نمی‌توان به این روش حساب کرد:

زیربازه‌هافراوانی (f)میانه (x)حاصل‌ضرب f و x
بزرگ‌تر یا مساوی ۵ و کوچک‌تر از 1017.5۷٫۵
۱۰ ≤ t <۱۵۴۱۲٫۵۵۰
۱۵ ≤ t <۲۰۶۱۷٫۵۱۰۵
۲۰ ≤ t <۲۵۴۲۲٫۵۹۰
۲۵ ≤ t <۳۰۲۲۷٫۵۵۵
۳۰ ≤ t <۳۵۳۳۲٫۵۹۷٫۵
مجموع۲۰۴۰۵

در نتیجه، میانگین داده‌های گروه‌بندی‌شده عبارتند از:

منابع

  1. Newbold et al. , 2009, pages 14 to 17
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.