کاپای کوهن

ضریب کاپای کوهن (به انگلیسی: Cohen's kappa coefficient) یک معیار آماری توافق درون ارزیاب یا توافق درون نویس^[۱] برای موارد کیفیتی (مطلق) است. به‌طور عمومی یک معیار قوی تر از قرارداد محاسبه ساده درصد به‌شمار می‌رود چون K به‌طور تصادفی در قرارداد در حال رخ دادن، محاسبه می‌شود.

برخی محققان^[۲]^{^{[نیازمند منبع]}} در مورد احتمال اینکه K بسامدهای طبقه‌بندی‌های مشاهده شده را به‌طور دلخواه اختیار کند، نگرانی‌هایی عنوان کرده‌اند که می‌تواند تأثیر قرارداد دست کم گرفته شده را برای یک طبقه‌بندی که به‌طور معمول استفاده می‌گردد، داشته باشد، K یک معیار قرارداد بیش از حد محافظه کار لحاظ می‌گردد.

دیگران،^[۳]^{^{[نیازمند منبع]}} این ادعا را که کاپا در قرارداد به‌طو�� تصادفی «به حساب آورده می‌شود»، به چالش می‌کشند. برای انجام مؤثر این کار نیاز به یک طرح واضح از چگونگی تأثیر شانس بر روی تصمیمات ارزیاب خواهد بود. اصطلاحاً نظام تصادفی آمار کاپا عنوان می‌کند که وقتی اطمینان کامل وجود ندارد، ارزیاب در واقع حدس می‌زند – یک سناریوی به شدت غیر واقعی.

محاسبات

کاپای کوهن قرارداد را بین دو ارزیاب که هر کدام N مورد را در C طبقهٔ متقابلاً انحصاری مرتب کرده‌اند، اندازه‌گیری می‌کند. اولین استفاده از آمار شبیه به کاپا مربوط به گالتون (۱۸۹۲) است،^[۴] اسمیتون را ببینید (1985).^[۵]

معادله برای K عبارتست از:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}},\!

که در آن Pr(a) قرارداد نسبی مشاهده شده بین ارزیاب‌ها است و Pr(e) احتمال فرضی قرارداد شانس است، با استفاده از دادهٔ مشاهده شده برای محاسبهٔ احتمال‌های هر مشاهده‌کننده که به صورت اتفاقی بیانگر یکی از دسته‌ها هستند. اگر که ارزیاب‌ها در قرارداد کامل باشند آنگاه K=۱ است. اگر هیچ قراردادی بین ارزیاب‌ها به غیر از آنکه توسط تصادف قابل دست یابی باشد (که توسط Pr(e) تعریف شد)، وجود نداشته باشد، آنگاه K=۰ است. اولین مقاله‌ای که کاپا را به عنوان روشی جدید معرفی کرد توسط جیکوب کوهن در مجلهٔ سنجش آموزشی و روان‌شناسی در ۱۹۶۰ منتشر شد.^[۶] یک رقم مشابه، به نام پی توسط اسکوت در ۱۹۵۵ مطرح شد. کاپای کوهن و پی اسکوت در روش محاسبهٔ عبارت Pr(e) با هم متفاوتند. توجه کنید که کاپای کوهن فقط قرارداد بین دو ارزیاب را اندازه می‌گیرد. برای یک اندازه‌گیری قرارداد مشابه (کاپای فلیس) که وقتی بیش از دو ارزیاب باشند، مورد استفاده قرار می‌گیرد، جوزف فلیس (۱۹۷۱) را ببینید. البته، کاپای فلیس تعمیم چند ارزیاب رقم پی اسکوت است، نه کاپای کوهن.

مثال

فرض کنید که شما در حال بررسی داده‌های مربوط به یک گروه از ۵۰ نفر که برای یک وام درخواست می‌کنند، هستید. هر درخواست وام توسط دو خواننده خوانده شده‌اند و هر خواننده یا جواب «بله» یا جواب «نه» به درخواست داده است. فرض کنید که دادهٔ شمارندهٔ قبول/رد به شکل زیر است که A و B خواننده‌ها هستند، داده‌های روی قطر چپ به راست نشانگر تعداد قبولی‌ها و داده‌های روی قطر راست به چپ نشانگر تعداد ردی‌ها است:

		B
		بله	نه
A	بله	۲۰	۵
A	نه	۱۰	۱۵

توجه کنید که ۲۰ درخواست توسط هر خواننده (A و B) قبول شده و۱۵ درخواست توسط هرکدام رد شده‌اند. پس، درصد قرارداد مشاهده شده می‌شود Pr(a) = (۲۰ +۱۵)/۵۰ = ۰٫۷۰ برای محاسبه Pr(e) (احتمال قرارداد تصادفی) به نکات زیر باید توجه کنیم:

خواننده A به ۲۵ متقاضی «بله» گفته و به ۲۵ متقاضی «نه» گفته‌است. پس خواننده A در ۵۰٪ مدت زمان «بله» گفته‌است.
خواننده B به ۳۰ متقاضی «بله» گفته و به ۲۰ متقاضی «نه» گفته‌است. پس خواننده B در ۶۰٪ مدت زمان «بله» گفته‌است.

بنابراین احتمال اینکه با هم «بله» بگویند ۰٫۵۰ . ۰٫۶۰ = ۰٫۳۰ است و احتمال اینکه باهم «نه» بگویند ۰٫۵۰ . ۰٫۴۰ = ۰٫۲۰ می‌باشد. پس احتمال کل قرارداد تصادفی برابر است با Pr(e) = ۰٫۳ +۰٫۲ = ۰٫۵. پس اکنون با محاسبهٔ رابطهٔ مربوط به کاپای کوهن داریم:

\kappa ={\frac {\Pr(a)-\Pr(e)}{1-\Pr(e)}}={\frac {0.70-0.50}{1-0.50}}=0.40\!

منابع

↑ Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. بایگانی‌شده در ۲۷ مارس ۲۰۱۴ توسط Wayback Machine Computational Linguistics, 22(2), pp. 249–254.
↑ Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). "Content analysis: What are they talking about?". Computers & Education. 46: 29–48. doi:10.1016/j.compedu.2005.04.002.
↑ Uebersax, JS. (1987). "Diversity of decision-making models and the measurement of interrater agreement" (PDF). Psychological Bulletin. 101: 140–146. doi:10.1037/0033-2909.101.1.140. Archived from the original (PDF) on 3 March 2016. Retrieved 14 December 2014. {{cite journal}}: Cite has empty unknown parameter: |author-name-separator= (help); Unknown parameter |author-separator= ignored (help)
↑ Galton, F. (1892). Finger Prints Macmillan, London.
↑ Smeeton, N.C. (1985). "Early History of the Kappa Statistic". Biometrics. 41: 795.
↑ Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104

https://en.wikipedia.org/wiki/Cohen's_kappa ویکی‌پدیا انگلیسی

[1] Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. بایگانی‌شده در ۲۷ مارس ۲۰۱۴ توسط Wayback Machine Computational Linguistics, 22(2), pp. 249–254.

[SMPJ-2] Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). "Content analysis: What are they talking about?". Computers & Education. 46: 29–48. doi:10.1016/j.compedu.2005.04.002.

[3] Uebersax, JS. (1987). "Diversity of decision-making models and the measurement of interrater agreement" (PDF). Psychological Bulletin. 101: 140–146. doi:10.1037/0033-2909.101.1.140. Archived from the original (PDF) on 3 March 2016. Retrieved 14 December 2014. {{cite journal}}: Cite has empty unknown parameter: |author-name-separator= (help); Unknown parameter |author-separator= ignored (help)

[4] Galton, F. (1892). Finger Prints Macmillan, London.

[5] Smeeton, N.C. (1985). "Early History of the Kappa Statistic". Biometrics. 41: 795.

[6] Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104

[۱]

ن ب و شاخص‌های ارزشیابی یادگیری ماشینی
رگرسیون	MSE · MAE · sMAPE · MAPE · MASE · MSPE · RMS · RMSE/RMSD · R2 · MDA · MAD
طبقه‌بندی	امتیاز اف ۱ · Accuracy · Precision · Recall · Kappa · MCC · AUC · ROC · حساسیت و ویژگی · Logarithmic Loss
خوشه‌بندی	Silhouette · Calinski-Harabasz · Davies-Bouldin · Dunn index · Hopkins statistic · اندیس ژاکار · Rand index · Similarity measure · SMC · SimHash
رتبه‌بندی	MRR · DCG · NDCG · AP
بینایی رایانه‌ای	PSNR · SSIM · IoU
NLP	سرگشتگی · جایگزین ارزشیابی دوزبانه
شاخص‌های مرتبط با یادگیری عمیق	Inception score · FID
سامانه توصیه‌گر	Coverage · Personalization · Intra-list Similarity
تشابه	Cosine similarity · فاصله اقلیدسی · ضریب همبستگی پیرسون
ماتریس درهم‌ریختگی