شبیه سازی بوت استرپ | Bootstrap
شبیه سازی بوت استرپ (Bootstrap):
در مقاله پیش رو شبیه سازی بوت استرپ را معرفی می کنیم. بیایید با یک مثال شروع کنیم. فرض کنید شما می خواهید دقت آماری داده های نمونه خود را (آماره های نمونه) تعیین کنید، شما می توانید N تا نمونه Bootstrap را گرفته (که به آن باز نمونه گیری نیز می گویند) و آماره های هر نمونه را حساب کنید. مقادیر آماره های نمونه Bootstrap برای ارزیابی دقت آماره های نمونه اصلی استفاده می شود.
روش Bootstrap دارای دو پیش فرض است:
1- نمونه شما نمونه معتبری از جمعیت است.
2- Bootstrap نمونه ای را با جایگزینی از نمونه اصلی خواهد گرفت به طوری که هر نمونه گرفته شده با این روش مستقل ولی دارای توزیع برابرند. به عبارت دیگر نمونه های گرفته شده با روش Bootstrap دارای توزیع جمعیت برابرند ولی هر نمونه مستقل از نمونه های دیگر است.
در واقع بوت استرپینگ این امکان را برای یک نفر فراهم می سازد که تعداد زیادی نسخه جایگزین از یک آماره را که به طور معمول از یک نمونه محاسبه می شود، جمع آوری کند. به عنوان مثال، فرض کنید که ما علاقه مند به جمع آوری اطلاعات در مورد قد افراد در جهان هستیم.
به دلیل اینکه نمی توانیم کل جمعیت را اندازه گیری کنیم، تنها از یک قسمت کوچک نمونه برداری می کنیم. از این نمونه فقط یک آماره قابل محاسبه است، مثلا یک میانگین یا یک انحراف معیار. در نتیجه نمی توانیم متوجه شویم که آماره ها چه قدر و در چه بازه ای تغییر می کنند.
اما هنگامی که از بوت استرپ استفاده کنیم ما به صورت تصادفی یک نمونه n تایی از N تا داده نمونه بر می داریم، به طوریکه هر نفر حد اکثر t بار می تواند، انتخاب شود. با چندین بار انجام این کار در واقع تعداد زیادی مجموعه داده می سازیم که برای هر کدام می توانیم یک آماره حساب کنیم؛ بنابراین به این روش یک تخمین از توزیع آماره به دست می آید. نکته مهم در این روش ساختن نسخه جایگزین از داده هایی است که ممکن است ما دیده باشیم.
بوت استرپینگ:
در یک تعریف تخصصی می توان این طور گفت که بوت استرپینگ یک روش محاسباتی-آماری-کامپیوتری است برای تعیین کردن میزان دقت برآوردگر های حاصل داده نمونه (Efron و Tibshirani ۱۹۹۴). در این تکنیک تنها با یک روش خیلی ساده می توان تقریباً هر آماره ای از توزیع داده های نمونه را تخمین زد. به طور عمومی این روش از روش های باز نمونه گیری به حساب می آید.
این روش در حقیقت تخمین ویژگی های (مثل واریانس) یک برآوردگر است با استفاده از اندازه گیری همین ویژگی ها در یک توزیع تقریبی از کل داده های نمونه. یک انتخاب استاندارد برای توزیع تقریبی، توزیع تجربی داده های مشاهده شده است.
در شرایطی که بتوانیم فرض کنیم مجموعه ای از مشاهده ها از جمعیتی مستقل و به طور مساوی توزیع شده می باشد، بوت استرپینگ می تواند با ساخت تعدای باز نمونه پیاده سازی شود، که هر کدام از این باز نمونه ها، در واقع نمونه هایی تصادفی با جای گذاری از مجموعه داده های اصلی هستند.
به علاوه، از بوت استرپینگ می توان در ساخت آزمون فرض آماری هم استفاده کرد. از این روش معمولاً به عنوان جایگزینی برای روش های استنباطی بر پایه فرض های پارامتری هنگامی که در مورد این فرض ها شک داشته باشیم، استفاده می شود.
همچنین در استنباط پارامتری زمانی که محاسبه کردن خطای استاندار فرمول محاسباتی پیچیده شود از بوت استرپینگ استفاده می کنیم.
تحقیقات نشان می دهد تعداد نمونه های توصیه شده برای این روش با افزایش توان محاسباتی کامپیوتر ها به تدریج افزایش یافته است. اگر نتایج واقعاً مهم اند باید تا جایی که توان محاسباتی کامپیوتر و محدودیت زمان اجازه می دهد تعداد نمونه ها را زیاد کرد. افزایش تعداد نمونه ها باعث افزایش اطلاعات در داده های اصلی نمی شود بلکه فقط اثر خطای نمونه برداری تصادفی را کاهش می دهد.
به سوالات زیر دقت کنید:
1- فرض کنید شما تعدادی داده نمونه دارید اما نمونه شما آنقدر کوچک است که شما نمی توانید درباره توزیع نمونه تان با اطمینان سخن بگویید و در نتیجه شما نمی توانید دامنه میان چارکی و یا واریانس و یا دیگر پارامتر های جمعیت تان را برآورد کنید.
2- شما دو نمونه که توزیع آنها نا شناخته است به نام های Yو X دارید و می خواهید توزیع نسبت Z=X/Y را بشناسید و بعضی از آماره های مفید Z مانند میانگین و انحراف معیار را نیز بشناسید.
3- شما دو نمونه A و B دارید و می خواهید امتحان کنید که آیا آنها از جمعیت یکسان هستند یا نه ؟
4- شما مدل رگرسیونی Y=a+bX دارید و می خواهید یک فاصله اطمینان برای پارامتر های a و b به دست آورید.
این سوالات از آن دسته سوالاتی هستند که با استفاده از این روش قابل حل هستند. از دیگر شرایط کاربرد این روش می توان به موارد زیر اشاره کرد:
- وقتی که توزیع یک آماره مورد نظر نا شناخته یا پیچیده است.
- وقتی که اندازه نمونه برای یک استنباط آماری سر راست نا کافی است.
- وقتی که محاسبات توانی لازم است انجام شود، اما نمونه پایلوت کوچکی در اختیار داریم.
انواع مختلف بوت استرپینگ:
بوت استرپ نرم:
در این حالت تعداد کمی از نویز های تصادفی با مرکز صفر (معمولاً دارای توزیع نرمال) به هر باز نمونه اضافه می شوند. این معادل نمونه برداری از یک تخمین kernel density از داده ها است.
بوت استرپ پارامتری:
در این حالت یک مدل پارامتری به داده ها برازش می شود، معمولاً با استفاده از درستنمایی ماکزیمم، نمونه های اعداد تصادفی از این مدل برازش شده بیرون کشیده می شوند. معمولاً نمونه های بیرون کشیده شده اندازه ای برابر با اندازه داده ها اصلی دارند.
سپس کمیت یا تخمین زدن آماره مد نظر از این داده ها به دست می آید و همانند دیگر روش های بوت استرپ این کار چندین بار تکرار می شود. استفاده از بوت استرپ در این گونه موارد منجر به روش های متفاوتی می شود.
بوت استرپ پروسه گوسی رگرسیون:
وقتی داده ها یه صورت موقت با هم همبستگی دارند، بوت استرپ مستقیم همبستگی های ذاتی را از بین می برد. این متد از رگرسیون گوسی استفاده می کند تا یک مدل احتمالاتی را برازش کند. پروسه های گوسی متد هایی از بایزین هستند اما در اینجا استفاده می شوند تا یک روش پارامتریک بوت استرپ بسازند، که به سادگی به داده های مستقل از زمان اجازه می دهد به حساب آورده شوند.
بوت استرپ ریسکی (wild):
هر باقیمانده به صورت تصادفی در یک متغیر تصادفی با میانگین صفر و واریانس ۱ ضرب می شود. در این متد فرض بر این است که توزیع درست باقیمانده متقارن است و می توانند برای نمونه گیری ساده روی نمونه های کوچک مفید باشند.
بوت استرپ بلاک متحرک:
در این روش n-b+۱ بلاک دارای اشتراک و هر کدام به طول b به صورت روبه رو ساخته می شوند: مشاهده های ۱ تا b می شوند بلاک ۱، مشاهده های ۲ تا b+۱ می شوند بلاک۲ و به همین ترتیب. سپس از این بلاک ها n/b باک به صورت تصادفی همراه با جایگذاری انتخاب می شوند.
سپس مرتب کردن این n/b بلاک به همان ترتیبی که برداشته شده اند مشاهده های بوت استرپ را می دهد. این نوع روش با داده های وابسته نیز کار می کند اگر چه مشاهده ها دیگر با ساختن، ایستا نخواهند بود. اما نشان داده شده است که متغیر بودن طول بلاک از این مشکل جلوگیری می کند.
مقاله را با نگاهی کوتاه به مزایا و معایب استفاده از این روش به پایان می بریم:
در واقع، یک فایده بزرگ بوت استرپینگ سادگی آن است. این روش برای تخمین خطای استاندارد و بازه اطمینان برای تخمین زننده های پیچیده پارامتر های توزیع، مثل نقطه های صدکی (percentile points)، نسبت ها، نسبت بخت ها (odds ratio) و ضرایب همبستگی سر راست است. به علاوه روش مناسبی برای کنترل و بررسی پایداری نتایج است.
از طرفی به این خاطر که بوت استرپینگ تحت برخی شرایط به طور مجانبی ثابت است، تضمین نمونه-متناهی عمومی را فراهم نمی کند. بعلاوه، گرایش به این دارد که خیلی خوشبینانه عمل کند. ظاهر ساده و آسان این روش ممکن است پیش فرض های مهم برای آنالیز بوت استرپ (مثلا فرض مستقل بودن نمونه ها) را پنهان کند در حالی که در روش های دیگر این پیش فرض ها به صورت رسم بیان می شوند.
دیدگاهتان را بنویسید