محاسبه خط تراکم توزیع

نمودار چندک-چندک (Q-Q Plot) چیست و چه کاربردی دارد؟
نمودار چندک-چندک (Quantile-Quantile Plot) یک ابزار توصیفی است که کمک میکند بفهمیم یک مجموعه داده از یک توزیع احتمالی مشخص مانند توزیع نرمال (Normal Distribution) یا نمایی (Exponential Distribution) پیروی میکند یا خیر. برای مثال فرض نرمال بودن دادهها در بسیاری از آزمونهای آماری وجود دارد. بنابراین قبل از انجام چنین آزمونهای آماری نیاز است تا بررسی کنیم که دادهها از توزیع نرمال پیروی میکند. یک ابزار ساده و قدرتمند در چنین تحلیلی، استفاده از نمودار چندک-چندک است.
درک شهودی نمودار چندک-چندک
این نمودار با رسم چندکهای دو توزیع در مقابل یکدیگر به دست میآید. برای فهم شهودی این نمودار به مثال زیر توجه کنید.
فرض کنید یک نمونه ۱۵ تایی داده به شکل زیر داریم:
برای این دادهها محاسبه خط تراکم توزیع میتوان میانه (Median) را محاسبه کرد. میانه یک شاخص مرکزی است. اگر دادهها به ترتیب از کوچکتر به بزرگتر مرتب شوند، نیمی از آنها از میانه کوچکتر و نیمی دیگر از میانه بزرگتر هست. اگر تعداد اعداد فرد باشد، عدد وسطی میانه است. اگر تعداد زوج باشد میانه برابر میانگین دو عدد وسطی خواهد بود. بهاینترتیب میانه، دادهها را به دو قسمت تقسیم میکند . پنجاهدرصد دادهها از میانه کوچکتر و پنجاهدرصد دادهها از آن بزرگتر هستند. به همین دلیل به میانه چندک ۵۰ درصد (Q50%) یا چارک دوم هم گفته میشود.
این ایده را میتوان تعمیم داد. بهاینترتیب که در بخش ۵۰ درصد اول (اعدادی که از میانه کوچکترند)، دوباره عددی را پیدا کرد که دادهها را به دو بخش با تعداد مساوی تقسیم میکند. به این عدد چارک اول یا چندک ۲۵ درصد (Q25%) گفته میشود.
بهطور مشابه در آن بخش از دادهها که از میانه بزرگتر هستند نیز میتوان عددی را پیدا کرد که دادهها را به دو قسمت مساوی تقسیم کند. به این عدد چارک سوم یا چندک ۷۵ درصد (Q75%) میگویند. بهاینترتیب چارکها دادهها را به چهار قسمت برابر تقسیم میکنند. شکل-۱ این مفهوم را برای مثال بالا نشان میدهد.
شکل-۱
گرچه چارکها (Quantiles) در آمار بسیار کاربردی هستند، میتوان فکر کرد میشود این ایده را بازهم تعمیم داد. مثلاً چرا چندک ۲۰ درصد نداشته باشیم؟ یا چرا چندک ۱۰ درصد نداشته باشیم؟ میتوان این ایده را همانطور ادامه داد تا اینکه همه مقادیر داده خودشان چندک شوند. شکل–۲ محاسبه خط تراکم توزیع چنین ایدهای را نشان میدهد.
شکل-۲
برای مثال عدد ۱۷٫۲ جایی است که ۲/۱۵ یا حدود ۱۳ درصد دادهها از آن کوچکتر یا مساوی هستند. پس ۱۷٫۲ چندک ۱۳ درصد است. بهاینترتیب این چندکها دادهها را به بخشهای مساوی تقسیم میکنند.
این ایده را میتوان برای هر توزیع دادهای ازجمله توزیع نرمال استاندارد (Standard Normal Distribution) توسعه داد. در شکل-۳ مشاهده میکنید که ۱۵ چندک که دادههای توزیع نرمال استاندارد را به بخشهای مساوی تقسیم میکنند، نشان داده شده است. توجه کنید توزیع نرمال استاندارد دارای میانگین صفر و انحراف معیار ۱ است. هر توزیع نرمال با میانگین و انحراف معیار دلخواه را میتوان به توزیع نرمال استاندارد تبدیل کرد. برای مطالعه بیشتر، به بخش استاندارد کردن مقاله “شاخصهای پراکندگی در آمار” مراجعه کنید.
شکل-۳
در نمودار بالا توجه کنید چون تراکم دادهها حول میانگین بیشتر است، فاصله چندکها از یکدیگر در مرکز دادهها کمتر است. در مقابل چون تراکم دادهها در دو انتهای توزیع کم میشود محاسبه خط تراکم توزیع هرچه از مرکز توزیع دورتر میشویم، فاصله بین چندکها بیشتر میشود.
نمودار Q-Q، پانزده چندک در نمونه دادهها را در مقابل پانزده چندک توزیع نرمال رسم میکند (شکل-۴). محور محاسبه خط تراکم توزیع عمودی، هریک از چندکها در نمونه و محور افقی، همان چندکها در توزیع نرمال استاندارد را نشان میدهد. اگر نمونه دادهها از توزیع نرمال پیروی کند، باید دادهها نزدیک به خط ۴۵ درجه (خط قرمزرنگ) باشند. در این مثال میبینید که با تقریب خوبی نقاط به خط ۴۵ درجه نزدیک هستند. بنابراین نتیجه میگیریم دادهها از توزیع نرمال پیروی میکنند.
شکل-۴
این همان کاری است که وقتی شما با چشم نمودارهای دو توزیع را مقایسه میکنید، بهصورت شهودی انجام میدهید. در شکل-۵ من دو توزیع رسم کردم. فرض کنید توزیع ۱ از توزیع نرمال پیروی میکند و میخواهید توزیع ۲ را با محاسبه خط تراکم توزیع آن مقایسه کنید. با چشم مشخص است که بعید است توزیع ۲ از توزیع نرمال آمده باشد. وقتی به چندک ۱۰ درصد دو توزیع نگاه میکنید در تناظر محاسبه خط تراکم توزیع باهم قرار ندارند. چراکه در توزیع ۱ ما تراکم زیادی از دادهها را در سمت چپ نمودار داریم بنابراین چندک ۱۰ درصد بیشتر متمایل به سمت چپ است. ولی در توزیع نرمال که در انتهای توزیع تراکم کمی از دادهها داریم، چندک ۱۰ درصد از دم انتهایی سمت چپ فاصله بیشتری دارد. عملاً شما بهصورت شهودی چندکهای مختلفی را باهم بررسی میکنید تا به این جمعبندی برسید که آیا توزیع دو نمونه باهم یکسان است محاسبه خط تراکم توزیع یا خیر.
شکل-۵
مزیت استفاده از نمودار Q-Q نسبت به مقایسه توزیع چگالی، این است که آن را میتوان با خط ۴۵ درجه مقایسه کرد و راحتتر تصمیم گرفت. ولی در هر شکل توجه کنید این تنها یک روش توصیفی است و معمولاً من در کارهایم از آزمونهای آماری علاوه بر نمودار Q-Q هم استفاده میکنم.
مزیت دیگر استفاده از نمودار Q-Q این است که استفاده از آن تنها محدود به مقایسه با توزیع نرمال نیست و برای مقایسه با هر توزیع احتمالی دیگر میتوان استفاده کرد.
رسم Q-Q Plot در R
استفاده از Q-Q Plot در R برای مقایسه توزیع نمونه با توزیع نرمال
در این مثال من برداری مانند x با ۲۰۰ درایه ایجاد کردم که درایههای آن بهصورت تصادفی از توزیع ویبول (Weibull) با پارامترهای shape = 1.5 و scale = 3 بهدستآمدهاند. توجه کنید x میتواند هر نمونه دادهای باشد. هیستوگرام دادهها در شکل-۶ آمده است. برای رسم نمودار چندک-چندک و مقایسه با توزیع نرمال استاندارد کافی است از تابع qqnorm در R استفاده کردم.