تحلیل داده‌ها

تحلیل داده (به انگلیسی: Data analysis) فرایند فهمیدن، پاک‌سازی، آماده‌سازی و تحلیل داده‌هاست که به منظور استخراج اطلاعات سودمند برای تصمیم‌گیری انجام می‌شود. تحلیل داده‌ها امروزه در اغلب شاخه‌های علوم و صنعت از جمله اقتصاد، رشته‌های مهندسی، بازاریابی، پزشکی و غیره کاربُرد دارد. و یا منظور از تحلیل داده به فرایند ارزیابی داده با استفاده از ابزارهای آماری و تحلیلی است. هدف از این مهارت تعیین اطلاعات مفید و همچنین کمک به فرایند گرفتن تصمیمات مهم در کسب‌وکار است.

داده کاوی، روش خاصی برای تحلیل داده‌است که بر مدل‌سازی و کشف دانش برای اهداف قابل پیش‌بینی و نه صرفاً توصیفی متمرکز است؛ در حالی‌که هوش کسب‌وکار را پوشش می‌دهد که به‌طور عمده بر تجمع اطلاعات کسب‌وکار متکی است.^[۱] در کاربردهای آماری، تجزیه‌وتحلیل داده‌ها را می‌توان به آمار توصیفی، تجزیه‌وتحلیل داده‌های اکتشافی (EDA) و تجزیه‌وتحلیل داده‌های تأییدی (CDA) تقسیم کرد. EDA بر کشف ویژگی‌های جدید در داده‌ها و CDA بر تأیید یا تکذیب فرضیه‌های موجود تمرکز دارد. علم تجزیه‌وتحلیل بر کاربرد مدل‌های آماری برای پیش‌بینی یا طبقه‌بندی تمرکز دارد، در حالی‌که تجزیه‌وتحلیل متن روش‌های آماری، زبانی و ساختاری را برای استخراج و طبقه‌بندی اطلاعات از منابع متنی به‌کار می‌بندد. تمام این‌ها، انواع تحلیل داده به‌شمار می‌آیند.

یکپارچه‌سازی داده‌ها پیش زمینه‌ای برای تحلیل داده‌ها است و تحلیل داده با مصورسازی داده و انتشار داده رابطۀ نزدیکی دارد. واژه تحلیل داده گاهی به عنوان مترادف برای مدل‌سازی داده استفاده می‌شود.

تحلیلگری داده (Data Analytics)

با گسترش منابع داده ای و همچنین پیشرفت ابزارهای تحلیل مانند الگوریتم های یادگیری ماشین، علم تحلیل داده ها در کسب و کار تحت عنوان تحلیلگری داده (Data Analytics) مرسوم گشته است. این علم به مسیر جدیدی جهت شناخت و تحلیلگری کسب و کار (Business Analytics) بدل گشته است^[۲].

ساليان متمادي شناخت، برنامه ‏‏ريزي و مديريت سازمان ها و کسب و کارها، در گرو صرف زمان بسيار و تجربه وقايع مختلف در محيط کاري و اجرايي بود. همين موضوع سرعت و چابکي مورد نياز تغيير و تحول به عنوان نياز حياتي بقا در شرايط پيچيده بازار و فناوري را تحت تاثير قرار ميداد. پس از انقلاب اتوماسيون و ايجاد سيستم هاي اطلاعاتي و نرم افزارهاي کاربردي که با هدف اوليه مکانيزه کردن فرايندها شکل گرفته بودند، فرصتي شگرف از ذخيره سازي داده‏ ها و اطلاعات مهيا گرديد و آرماني جديد پديدار شد. داده هايي که به دليل جبر مکانيزاسيون، الکترونيکي و اينترنتي نمودن فرايندها و رويه هاي کاري در منابع سازماني گردآوري شده بودند، حال به مسيري بنيادي براي شناخت و مديريت داده محور کسب و کارها و سازمان ها بدل گشته اند. تحليلگري داده عنواني است که معرف اين رويکرد نوين شناخت، برنامه ريزي و مديريت مبتني بر تحليل داده ها است و طيف وسيعي از مدل‏ها، روشها، ابزارها و الگوريتم ها را شامل مي شود.

انواع رايج تحليل داده شامل تحلیل‌های توصیفی[Descriptive Analytics]، تشخيصی[Diagnostic Analytics]، پیش‌بینی کننده[Predictive Analytics] و تجويزي[Prescriptive Analytics] ميباشد که براي استخراج انواع مختلف دانش و بينش از مجموعه ‌داده‌هايي که ميتوانند براي اهداف مختلف بسته به دامنه کاربردشان مورد استفاده قرار گيرند، به کار گرفته ميشود^[۲].

مراحل تحلیل داده

تجزیه‌وتحلیل به معنای شکستن کل به اجزاء جداگانه است. تحلیل داده روند به دست آوردن دادهٔ جدید و تبدیل آن به اطلاعاتی مفید در جهت تصمیم‌گیری کاربران است. داده جمع‌آوری و تحلیل می‌شود تا پاسخگوی سوالات، آزمایش فرضیه‌ها یا تکذیب نظریه‌ها باشد.^[۳]

آمارگر جان توکی در سال ۱۹۶۱ تحلیل داده‌ها را به صورت زیر تعریف کرد: «روش‌هایی برای تجزیه‌وتحلیل داده‌ها، تکنیک‌هایی برای تفسیر کردن نتایج حاصل از چنین روش‌هایی، روش‌های برنامه‌ریزی جمع‌آوری داده‌ها برای آسان‌تر ساختن تجزیه‌وتحلیل دقیق‌تر و صحیح‌تر و تمام ماشین‌آلات و نتایج حاصل از آمار که برای تحلیل کردن داده‌ها به کار بسته می‌شود.»^[۴]

چندین مرحله قابل تشخیص وجود دارد که در زیر توضیح داده می‌شود.^[۵]

الزامات داده

دادهٔ لازم به عنوان ورودی جهت تحلیل، بر اساس پیش‌نیازهای جهت‌دار یا مشتریانی که از محصول نهایی تحلیل استفاده می‌کنند، مشخص شده‌اند. ماهیت کلی که بر مبنای آن داده جمع‌آوری خواهد شد، واحد آزمایشی نامیده می‌شود (به‌طور مثال، یک فرد یا جمعیت). متغیرهای خاص در رابطه با یک جمعیت (به‌طور مثال سن یا درآمد) می‌تواند مشخص شود و به دست آید. داده‌ها ممکن است عددی یا مطلق (مثلاً اعداد یا یک متن) باشند.^[۵]

جمع‌آوری داده

داده از منابع گوناگون جمع‌آوری می‌شود. پیش‌نیازها می‌تواند توسط تحلیل‌گران و متولیان داده وسیله ارتباطی باشد؛ مثلاً تجهیزات فناوری اطلاعات که در یک سازمان است. همچنین داده می‌تواند از سنسورهای داخل محیط مانند دوربین‌های ترافیک، ماهواره، وسایل ثبت و غیره جمع‌آوری شود. همچنین می‌تواند از طریق مصاحبه‌ها، دانلود از منابع آنلاین یا خواندن اسناد به دست آید.^[۵]

پردازش داده

مراحل چرخه اطلاعاتی مورد استفاده برای تبدیل داده خام به هوش عملی یا دانش است که به لحاظ مفهومی شبیه به مراحل تجزیه‌وتحلیل داده‌است..

داده اولیه باید برای تحلیل، فرآوری یا سازماندهی شود. به‌طور مثال آن‌ها در فرمت ستونی یا ردیفی در یک جدول قرار می‌گیرند (یعنی داده ساختاری) که برای تحلیل بیشتر از نرم‌افزارهای آماری یا صفحه گسترده استفاده می‌کنند.

پاک‌سازی داده

زمانی که سازماندهی انجام شد، داده ممکن است ناقص، دارای تکرار یا خطا باشد. نیاز به پاک‌سازی داده هنگام وقوع مشکل در مسیر ورود یا ذخیرهٔ داده معلوم می‌شود. پاک‌سازی داده فرایندی برای اصلاح یا جلوگیری از چنین خطاهایی است. اهداف رایج شامل ثبت تطابق، شناسایی عدم دقت داده، کیفیت کلی دادهٔ موجود،^[۶] حذف داده‌های تکراری و تقسیم‌بندی ستون است.^[۷] چنین مشکلاتی در داده از طریق روش‌های مختلف تحلیلی هم می‌تواند قابل تشخیص باشد. به‌طور مثال با اطلاعات مالی، مجموع متغیرهای مشخص ممکن است با اعدادی که جداگانه به عنوان داده مورد قبول منتشر شده بودند، مقایسه شود.^[۸] مقادیر غیرعادی بالا یا زیر آستانهٔ مشخص هم باید دوباره بررسی شود. بسته به نوع داده مانند شماره‌های تماس، آدرس‌های ایمیل، کارمندان و غیره انواع پاک‌سازی داده وجود دارد. روش‌های دادهٔ کمی برای تشخیص داده‌های پرت می‌تواند برای خارج کردن داده‌هایی که اشتباهاً وارد شده هم استفاده شود. بررسی‌کننده‌های غلط املایی می‌تواند برای کاهش مقدار کلمات اشتباه تایپ شده به کار رود اما مشکل اینجاست که کلماتی که خودشان درست‌اند تشخیص داده شود.^[۹]

تجزیه‌وتحلیل داده اکتشافی

زمانی که داده پاک‌سازی شد، می‌تواند تحلیل شود. برای داده اکتشافی، تحلیل‌گر ممکن است چندین روش را به کار ببندد تا پیام موجود در داده را بتواند درک کند. خود این بخش می‌تواند شامل پاک‌سازی دیگری شود.^[۱۰]^[۱۱] بنابراین این فعالیت‌ها در ذات خود ممکن است تکرار داشته باشند. آمار توصیفی مانند معدل و میانه ممکن است برای کمک به فهم آن داده تولید شود. مصورسازی داده نیز به فرمت گرافیکی به کار می‌رود تا دید بیشتری نسبت به پیام‌های درون داده حاصل آید.^[۵]

مدل‌سازی و الگوریتم

مدل‌ها یا فرمول‌های ریاضی که به آن‌ها الگوریتم گفته می‌شود، ممکن است بر روی داده به کار بسته شود تا روابط بین متغیرها مانند همبستگی یا نسبت میان علت و معمول شناسایی شود. به‌طور کلی، مدل‌ها برای ارزیابی به متغیری مشخص در داده که بر مبنای دیگر متغیرها است، توسعه می‌یابد که در آن چند خطای باقی‌مانده بسته به دقت مدل وجود دارد (داد ه= مدل + خطا).

آمار استنتاجی، شامل روش‌های اندازه‌گیری روابط بین متغیرهای مشخص می‌باشد. برای مثال، تحلیل رگرسیون ممکن است برای مدل استفاده شود که تغییر در تبلیغ (متغیر مستقل X) و تغییر در فروش (متغیر وابسته Y) را توضیح می‌دهد. از لحاظ ریاضی، Y (فروش) تابعی از X (تبلیغات) است. ممکن است به صورت Y = aX + b + error توضیح داده شود که در آن مدل به گونه‌ای طراحی شده که a و b زمانی که مدل Y را برای طیفی از مقادیر X پیش‌بینی می‌کند، خطا را کاهش دهند. ممکن است تحلیل‌گران سعی کنند تا مدل‌هایی بسازند که توصیفی هستند تا تحلیل ساده و نتایج قابل فهم شود.

محصول داده

محصول داده یک برنامه کامپیوتری است که داده‌ها را گرفته و خروجی تولید می‌کند و آن‌ها را به محیط برمی‌گرداند؛ می‌تواند برحسب یک مدل یا الگوریتم باشد. برای مثال، برنامه‌ای کاربردی که اطلاعات تاریخچه خرید مشتری را تحلیل می‌کند و خریدهایی که ممکن است برای آن مشتری مطلوب باشد را پیشنهاد می‌کند.^[۵]

ارتباط

مقاله اصلی: مصورسازی داده

هنگامی که داده‌ها مورد تجزیه و تحلیل است، می‌تواند به فرمت‌های مختلف برای کاربران گزارش شود تا نیازهای آن‌ها حمایت شود. کاربران ممکن است بازخورد دهند که موجب تجزیه و تحلیل اضافی می‌شود. به این ترتیب، بسیاری از چرخه تحلیلی تکراری است.^[۵]

هنگام تعیین نحوه انتقال نتایج، تحلیل‌گر ممکن است که روش‌های تجسم داده را برای کمک به شفافیت و کارایی در انتقال پیام به مخاطب در نظر بگیرد. تجسم داده اطلاعات را به صورت جدول‌ها و نمودارها نمایش می‌دهد تا پیام کلیدی موجود در داده قابل انتقال شود. جدول‌ها برای کاربری که به دنبال اعداد خاصی است کمک‌کننده است در حالی که نمودارها (مثلاً نمودار خطی یا نمودار میله‌ای) برای توضیح پیام‌های کمی کمک‌کننده هستند.

روش‌های تجزیه‌وتحلیل دادهٔ کمی

همچنین ببینید: حل مسئله

نویسنده جاناتان کومی چند سری از بهترین تمرین‌ها را برای فهم بهتر دادهٔ کمی توصیه می‌کند که عبارت��د از:

دادهٔ خام را قبل از اجرای تحلیل‌تان بررسی کنید؛
محاسبات مهم، مانند بررسی ستون داده که از فرمول به دست آمده را مجدداً اجرا کنید؛
کلیات را که حاصل زیرمجموعه‌ها هستند، تأیید کنید؛
روابط بین اعدادی را که می‌بایست مربوط به حالتی قابل پیش‌بینی باشند، مانند نرخ‌ها در طول زمان، چک کنید؛
به منظور ساده‌سازی مقایسه، بخش‌هایی چون تحلیل مقادیر را در هر نفر یا نسبت به تولید ناخالصی داخلی (GDP) یا به عنوان شاخص نسبی در یک سال پایه را به صورت قاعده درآورید؛
مشکلات را به عوامل تحلیلی که منجر به نتیجه می‌شوند، بشکنید.

برای متغیرهای تحت بررسی، تحلیل‌گران معمولاً آمار توصیفی به دست می‌آورند (مانند معدل، میانه و انحراف معیار). آن‌ها همچنین ممکن است که توزیع متغیرهای کلیدی را تحلیل کنند تا چگونگی مقادیر مشخص حول میانه را ببینند.

مشاوران در مکنزی اند کامپنی، روش شکستن مشکلات کمی به اجزاء آن را اصل MECE نام‌گذاری کردند. هر لایه می‌تواند به اجزایش شکسته شود. هر جزء باید منحصر به دیگری باشد و به صورت تجمعی به لایه بالایی‌اش اضافه شود. این رابطه به نام «متقابلاً منحصر به فرد و تجمعی کامل» یا MECE خوانده می‌شود. به‌طور مثال، سود طبق تعریف می‌تواند به درآمد کل و هزینه کل شکسته شود. به نوبه خود، درآمد کل می‌تواند توسط اجزای آن تحلیل شود؛ از جمله درآمد حاصل از بخش B, A و C (متقابلاً منحصر به فرداند) که باید به درآمد کل (تجمعی کامل) اضافه شوند.

تحلیل‌گران ممکن است اندازه‌گیری‌های آماری قوی برای حل مشکلات تحلیلی خاص به کار ببرند. آزمون فرضیه زمانی استفاده می‌شود که فرضیه خاصی دربارهٔ حالت واقعی امور توسط تحلیل‌گر ساخته می‌شود و داده برای تعیین اینکه آیا آن حالت درست است یا غلط، به کار می‌رود. برای مثال، ممکن است فرضیه این باشد که «بیکاران اثری بر تورم ندارند» که مربوط به مفهومی اقتصادی است. آزمون فرضیه شامل در نظر گرفتن احتمال نوع I و نوع II است و مرتبط است به اینکه آیا داده فرضیه را رد می‌کند یا می‌پذیرد.

تحلیل رگرسیون زمانی به کار می‌رود که تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیرهای مستقل X بر متغیرهای وابسته Y تأثیر می‌گذارند (مثلاً تا چه حد تغییرات نرخ بیکاری X در نرخ تورم Y تأثیر دارد؟). این تلاشی برای مدل‌سازی یا برقراری خط تساوی یا منحنی داده در تابع Y به X است.

تحلیل شرطی لازم (NCA) در حالتی به‌کار می‌رود که تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیر مستقل X, متغیر Y را می‌پذیرد (به‌طور مثال، تا چه میزان نرخ مشخصی از بیکاری (X) برای نرخ تورم (Y) ضروری است). درحالی‌که تحلیل (چند) رگرسیونی منطق افزایشی دارد که در آن هر متغیر X می‌تواند نتیجه‌ای تولید کند و Xها برای یکدیگر جبران می‌کنند (کافی هستند ولی غیر ضروری) و تحلیل شرطی لازم (NCA) منطق ضرورت را به‌کار می‌برد که در آن ممکن است یک یا چند متغیر X نتیجه را بپذیرد ولی شاید موجب تولید آن نباشد (ضروری هستند ولی کافی نیستند). هر شرط لازم باید وجود داشته باشد و جبران خسارت امکان‌پذیر نیست.

جستارهای وابسته

منابع

↑ «Exploring Data Analysis». بایگانی‌شده از اصلی در ۱۸ اکتبر ۲۰۱۷. دریافت‌شده در ۱۸ ژوئن ۲۰۱۷.
↑ ^۲٫۰ ^۲٫۱ روحانی، سعید (۱۴۰۲). تحلیل‌گری ‌داده:‌ رویکردها ‌و ‌کاربردها. انتشارات دانشگاه تهران.
↑ Judd, Charles and, McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0.
↑ John Tukey-The Future of Data Analysis-July 1961
↑ ^۵٫۰ ^۵٫۱ ^۵٫۲ ^۵٫۳ ^۵٫۴ ^۵٫۵ O'Neil, Cathy and, Schutt, Rachel (2014). Doing Data Science. O'Reilly. ISBN 978-1-4493-5865-5.
↑ Clean Data in CRM: The Key to Generate Sales-Ready Leads and Boost Your Revenue Pool Retrieved 29th July, 2016
↑ "Data Cleaning". Microsoft Research. Retrieved 26 October 2013.
↑ Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006
↑ Hellerstein, Joseph (27 February 2008). "Quantitative Data Cleaning for Large Databases" (PDF). EECS Computer Science Division: 3. Retrieved 26 October 2013.
↑ Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004
↑ «Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997» (PDF). بایگانی‌شده از اصلی (PDF) در ۱۷ ژوئن ۲۰۱۵. دریافت‌شده در ۱۸ ژوئن ۲۰۱۷.

Provost, F. , & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".

[1] «Exploring Data Analysis». بایگانی‌شده از اصلی در ۱۸ اکتبر ۲۰۱۷. دریافت‌شده در ۱۸ ژوئن ۲۰۱۷.

[:0-2] ۲٫۰ ^۲٫۱ روحانی، سعید (۱۴۰۲). تحلیل‌گری ‌داده:‌ رویکردها ‌و ‌کاربردها. انتشارات دانشگاه تهران.

[3] Judd, Charles and, McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0.

[4] John Tukey-The Future of Data Analysis-July 1961

[O'Neil_and_Schutt_2014-5] ۵٫۰ ^۵٫۱ ^۵٫۲ ^۵٫۳ ^۵٫۴ ^۵٫۵ O'Neil, Cathy and, Schutt, Rachel (2014). Doing Data Science. O'Reilly. ISBN 978-1-4493-5865-5.

[6] Clean Data in CRM: The Key to Generate Sales-Ready Leads and Boost Your Revenue Pool Retrieved 29th July, 2016

[7] "Data Cleaning". Microsoft Research. Retrieved 26 October 2013.

[Koomey1-8] Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006

[9] Hellerstein, Joseph (27 February 2008). "Quantitative Data Cleaning for Large Databases" (PDF). EECS Computer Science Division: 3. Retrieved 26 October 2013.

[10] Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004

[11] «Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997» (PDF). بایگانی‌شده از اصلی (PDF) در ۱۷ ژوئن ۲۰۱۵. دریافت‌شده در ۱۸ ژوئن ۲۰۱۷.

[۱]