خودرمزگذار متغیر

در یادگیری ماشینی،خودرمزگذار متغیر (به انگلیسی: Variational autoencoder)، یک نوع شبکه عصبی مصنوعی است که متعلق به خانواده‌های روش‌های بیزی متغیر (به انگلیسی: Variational Bayesian methods) و مدل گرافیکی (به انگلیسی: Graphical model) است.^[۱] خودرمزگذارهای متغیر علی‌رغم شباهت اسمی و ساختاری به خودرمزگذارها تفاوت‌های فراوانی در هدف و فرمول‌بندی ریاضی دارند. هر دو مدل از دو بخش رمزگذار و رمزگشا تشکیل شده‌اند، در هر دو مدل بخش رمزگذار سعی می‌کند داده‌ها را به یک فضای نهفته (به انگلیسی: Latent space) نگاشت کنند که داده‌ها در این فضا توسط متغیر پنهان توصیف می‌شوند. بخش رمزگشا سعی می‌کند داده‌ها را از فضای نهفته به فضای ورودی نگاشت کند از خودرمزگذار عادی برای کاهش ابعاد، کاهش نویز استفاده می‌شود. نحوهٔ عملکرد خودرمزگذار متغیر نیز همانند خودرمزگذار عادی است اما سعی می‌کنیم با استفاده از یک دانش پیشین (به انگلیسی: A priori) شروطی روی فضای نهفتهٔ تولید شده توسط رمزگذار قرار دهیم تا نقاط نزدیک(به انگلیسی: Probability distribution) هم در فضا داده‌هایی نزدیک به هم در فضای ورودی تولید کنند. در این روش رمزگذار می‌تواند چندین دادهٔ جدید از هر ورودی تولید کندک که همه از یک توزیع آماری نمونه‌برداری شده‌اند.^[۲]^[۳]

با اینکه این مدل در ابتدا برای یادگیری خودران (خودسازمانده) طراحی شده بود،^[۴]^[۵] به دلیل اثربخشی بالا عملکرد خود را در یادگیری نیمه‌نظارتی و یادگیری با نظارت اثبات کرده‌است.^[۶]^[۷]^[۸]

معماری

یک خودرمزگذار متغیر از دو شبکهٔ عصبی مصنوعی به نام‌های رمزگذار (به انگلیسی: Encoder) و رمزگشا (به انگلیسی: Decoder) طراحی شده‌است. شبکهٔ اول داده‌ها را به صورت خام می‌گیرد و پارامترهای توصیف کنندهٔ ورودی داده شده را به عنوان خروجی بخش اول تولید می‌کند. رمزگذار بخش دوم این مدل است که یک تابع است. وظیفه‌ی رمزگذار نگاشت داده‌ها از فضای نهان به فضای ورودی است; این کار با استفاده از تخمین پارامتر‌های میانگین و واریانس یک توزیع نویز (به انگلیسی: Noise distribution) و سپس نمونه‌گرفتن از آن انجام می‌شود.

برای بهینه‌سازی و آموزش این مدل نیاز به تعریف دو عبارت داریم: "خطای بازسازی" و واگرایی کولبک-لیبلر. تابع ضرر (به انگلیسی: Loss function) مشتق‌پذیر نهایی ما ترکیبی از این دو عبارت خواهد بود. واگرایی کولبک-لیبلر سعی در مشابه کردن توزیع پیشین فضای نهان که یک توزیع نرمال چند متغیره با میانگین صفر و ماتریس کوواریانس همانی فرض گرفته می‌شود با توزیع تخمینی‌ای که از بخش رمزنگار مدل ما بدست می‌آید دارد. عبارت خطای بازسازی وظیفه‌ یکسان کردن خروجی مدل با ورودی داده شده را در بردارد.

فرمول‌بندی

از نگاه مدل‌سازی آماری، مدل سعی در بیشینه کردن احتمال دیدن داده‌ $x$ با انتخاب پارامتر‌های یک توزیع آماری $p_{\theta }(x)=p(x|\theta )$ را دارد. توزیع گفته شده معمولا به دلیل سادگی نمونه‌گیری و بهینه‌کردن در تابع ضرر یک توزیع نرمال $N(x|\mu ,\sigma )$ قرار داده می‌شود که توسط میو و سیگما پارامترسازی می‌شود.

زمانی که یک توزیع پیشین بر روی فضای نهفته $z$ فرض می‌شود، محاسبه‌ و بیشینه‌ کردن احت��ال رخداد داده منجر به یک انتگرال غیر قابل حل (به انگلیسی: Intractable integral) می‌شود. می‌توانیم $p_{\theta }(x)$ را با استفاده از توزیع حاشیه‌ای $p_{\theta }(x|z)$ از طریق رابطه‌ی مقابل دست آوریم

$p_{\theta }(x)=\int _{z}p_{\theta }(x|z)p_{\theta }(z)dz$

در مدل ابتدایی خودرمزگذار متغیر،‌ $z$ معمولا به صورت یک بردار در فضای متناهی اعداد حقیقی تعریف می‌شود و $p_{\theta }(x|z)$ همانطور که بالاتر نیز به آن اشاره شد یک توزیع نرمال گرفته می‌شود. فرض‌های گفته شده باعث می‌شود $p_{\theta }(x)$ ترکیبی از توزیع‌های گاوسی باشد.

متاسفانه محاسبه‌ی $p_{\theta }(x)$ بسیار هزینه‌بر و اکثر اوقات غیرممکن است. برای محاسبه‌ی توزیع داده‌ها نیاز است توزیع پسین $p_{\theta }(z|x)$ را با استفاده از یک تابع تخمین بزنیم

$q_{\phi }(z|x)\approx p_{\theta }(z|x)$

با ساده‌سازی بالا مشکل بدست آوردن توزیع داده تبدیل به طراحی یک خودرمزگذار متغیر می‌شود به صورتی که توزیع $p_{\theta }(x|z)$ توسط رمزگشا محاسبه می‌شود و تخمین توزیع پسین که بالاتر آن را به صورت $q_{\phi }(z|x)$ تعریف کردیم،‌ توسط رمزنگار محاسبه می‌شود.

کاربرد‌ها

تولید تصاویر جدید
- تولید داده‌های جدید برای دامنه‌های پزشکی که با مشکل کمبود عکس مواجه هستند بسیار کاربردی است.
طراحی چهره‌های جدید برای انسان‌ها و حیوانات
- طراحان بازی‌های کامپیوتری می‌توانند با الگو گرف��ن از این تصاویر چهره‌های جدیدی طراحی کنند.
ترجمه‌ی عکس به عکس
- عکاسان می‌توانند با صرفه‌جویی در زمان و هزینه تصاویر گرفته شده‌ی خود را به عنوان مثال از روز به شب تبدیل کنند.
پیشبینی ویدئو و طراحی ادامه‌ی آن
تبدیل متن به عکس

جستارهای وابسته

منابع

↑ Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. pp. 111–149. doi:10.1007/978-3-030-70679-1_5. ISBN 978-3-030-70681-4. S2CID 240802776.
↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].
↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.
↑ Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].
↑ Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.
↑ Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. pp. 5888–5897.
↑ Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (2017-02-12). "Variational Autoencoder for Semi-Supervised Text Classification". Proceedings of the AAAI Conference on Artificial Intelligence (به انگلیسی). 31 (1). doi:10.1609/aaai.v31i1.10966. S2CID 2060721.
↑ Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (2019-09-01). "Supervised Determined Source Separation with Multichannel Variational Autoencoder". Neural Computation. 31 (9): 1891–1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.

[1] Pinheiro Cinelli, Lucas; et al. (2021). "Variational Autoencoder". Variational Methods for Machine Learning with Applications to Deep Networks. Springer. pp. 111–149. doi:10.1007/978-3-030-70679-1_5. ISBN 978-3-030-70681-4. S2CID 240802776.

[2] Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].

[3] Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.

[4] Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs.LG].

[5] Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). "Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation". 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). pp. 16–23. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. ISBN 978-1-5090-4788-8. S2CID 22681625.

[6] Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. pp. 5888–5897.

[7] Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (2017-02-12). "Variational Autoencoder for Semi-Supervised Text Classification". Proceedings of the AAAI Conference on Artificial Intelligence (به انگلیسی). 31 (1). doi:10.1609/aaai.v31i1.10966. S2CID 2060721.

[8] Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (2019-09-01). "Supervised Determined Source Separation with Multichannel Variational Autoencoder". Neural Computation. 31 (9): 1891–1914. doi:10.1162/neco_a_01217. PMID 31335290. S2CID 198168155.

[۱]