انتقل إلى المحتوى

تاريخ الشبكات العصبية الاصطناعية

هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
من ويكيبيديا، الموسوعة الحرة

تعد الشبكات العصبية الاصطناعية (ANNs) نماذج تم إنشاؤها باستخدام التعلم الآلي لأداء عدد من المهام. كان إنشاؤها مستوحىً من الدوائر العصبية.[1][2] في حين أن بعض التنفيذات الحسابية للشبكات العصبية الاصطناعية تشير إلى اكتشافات سابقة في الرياضيات، كان التنفيذ الأول للشبكات العصبية الاصطناعية من قبل عالم النفس فرانك روزنبلات، الذي طور بيرسيبترون.[2] تم إجراء القليل من الأبحاث على الشبكات العصبية الاصطناعية في السبعينيات والثمانينيات، مع تسمية جمعية النهوض بالذكاء الاصطناعي لتلك الفترة بـ "شتاء الذكاء الاصطناعي".[2][3]

في وقت لاحق، أدّت التّطوّرات في الأجهزة وتطوير خوارزمية الانتشار العكسيّ، بالإضافة إلى الشّبكات العصبية المتكرّرة والشّبكات العصبية التلافيفية، إلى تجديد الاهتمام بـ الشّبكات العصبية الاصطناعية. شهد العقد الأوّل من القرن الحادي والعشرين تطوير شبكة عصبية عميقة (شبكة عصبية ذات طبقات عديدة) تسمّى ألكسنت.[4] تفوّقت بشكل كبير على نماذج التعرّف على الصّور الأخرى، ويعتقد أنّها أطلقت ربيع الذّكاء الاصطناعيّ المستمرّ، وزادت من الاهتمام بالشّبكات العصبية الاصطناعية.[5] تمّ وصف بنية المحوّل لأوّل مرّة في عام 2017 كطريقة لتعليم الشّبكات العصبية الاصطناعية التبعيات النحوية في اللّغة، [6] وهي البنية السائدة في نماذج اللّغة الكبيرة، مثل جي بي تي-4. وُصفت نماذج الانتشار لأوّل مرّة في عام 2015، وبدأت نماذج توليد الصّور مثل دال-إي باستخدامها في العقد الثّاني من القرن الحادي والعشرين. [بحاجة لمصدر]

البيرسيبترونات والشبكات العصبية المبكرة الأخرى

[عدل]

تتكون أبسط شبكة عصبية تغذية أمامية من طبقة أوزان واحدة دون وجود دالات تنشيط. وبذلك تكون مجرد انعكاس خطي، ويتمثل تدريبها في الانحدار الخطي. وقد سبق أن استُخدم الانحدار الخطي، بالاستعانة بطريقة المربعات الصغرى، من قبل أدريان ماري ليجاندر عام 1805 وكارل فريدريش غاوس عام 1795 لتوقع حركة الكواكب.[7][8][9][10]

درس وارن ماكولوك ووالتر بيتس عام 1943 نموذجًا حسابيًا بسيطًا للشبكات العصبية.[11] وقد مهد هذا النموذج السبيل إلى تقسيم الأبحاث في هذا المجال إلى اتجاهين رئيسيين: الأول يركز على دراسة العمليات البيولوجية التي تشبه عمل الشبكات العصبية، والثاني يسعى إلى تطبيق الشبكات العصبية في مجال الذكاء الاصطناعي. وقد أدى هذا العمل إلى تطوير دراسة الشبكات العصبية وعلاقتها بالآلات الحتمية.[12]

في بدايات الأربعينيات من القرن العشرين، وضع دونالد أولدينغ هيب[13] فرضيّة تعلّم مبنية على آلية المرونة العصبية عُرفت فيما بعد بنظرية هيب. وتجدر الإشارة إلى أن تعلّم هيب هو نوع من التعلم غير المراقب. وقد تطورت هذه النظرية لتشمل نماذج التقوية طويلة الأمد. بدأ الباحثون في تطبيق هذه الأفكار على النماذج الحسابية في عام 1948 مع آلات تورينج من النوع "بي." وكان فارلي وكلارك (1954) أول من استخدم الآلات الحسابية، [14] التي كانت تُسمى آنذاك "الآلات الحاسبة"، لمحاكاة شبكة هيب. كما تم تطوير آلات حسابية أخرى لشبكات عصبية بواسطة روتشستر وهولاند وهابيت ودودا (1956).[15]

ابتكر فرانك روزنبلات عام 1958 ما يُعرف بالمدرك أو بيرسيبترون، [2]، وهي خوارزمية مصممة لتعرّف الأنماط. يتكون المدرك المتعدد الطبقات (MLP) من ثلاث طبقات أساسية: طبقة إدخال وطبقة مخفية ذات أوزان عشوائية لم تخضع للتعلّم بعد، وطبقة إخراج. وقد قدم روزنبلات، مستعينًا بالصيغ الرياضية، وصفًا لدوائر لا تندرج ضمن المدرك الأساسي، مثل دائرة الاستبعاد أو تلك التي عجزت الشبكات العصبونية في ذلك الوقت عن معالجتها. في عام 1959، استند نموذج بيولوجي اقترحه العالمان الحائزان على جائزة نوبلديفيد هوبل وتورستن فيزل إلى اكتشافهما نوعين من الخلايا في القشرة البصرية الأولية: الخلايا البسيطة والخلايا المعقدة.[16] وفي عام 1962 نشر روزنبلات كتابًا قدم فيه متغيرات وتجارب حاسوبية، شملت نسخة من المدرك تتكون من أربع طبقات، حيث تخضع الطبقتان الأخيرتان لعملية تعلم الأوزان، مما يجعلها بذلك مدركًا متعدد الطبقات.[17] يرى البعض أن كتاب عام 1962 قد وضع اللبنات الأساسية لأنظمة التعلم العميق الحديثة، وقام بتطويرها واستكشافها.[18]

يدعي البعض أن البحوث في هذا المجال شهدت ركودًا ملحوظًا بعد صدور كتاب "البرسيبترونات" لمارفن مينسكي وسيمور بابيرت عام 1969.[19]

سبق وأن نُشرت طريقة المجموعات لمعالجة البيانات، وهي أسلوب لتدريب الشبكات العصبية العميقة بطريقة عشوائية، على يد أليكسي إيفاخنينكو ولابا في عام 1967. وقد اعتبراها شكلًا من أشكال الانحدار متعدد الحدود، [20] أو تعميمًا لمدرك روزنبلات.[21] وفي ورقة بحثية صدرت عام 1971، تم وصف شبكة عصبية عميقة مكونة من ثماني طبقات تم تدريبها باستخدام هذه الطريقة.[22]

نشر شونيتشي أماري أول نموذج لشبكة عصبية اصطناعية متعددة الطبقات قابلة للتدريب باستخدام خوارزمية الانتشار العكسي للتدريب العشوائي في عام 1967.[23] وقد أظهرت تجارب حاسوبية أجراها سايتو، أحد طلاب أماري، قدرة هذه الشبكة على تعلم تمثيلات داخلية لتصنيف أنماط معقدة لا يمكن فصلها خطيًا، وذلك باستخدام شبكة من خمس طبقات تحتوي على طبقتين قابلين للتعديل.[24] وقد أدت التطورات المتلاحقة في الأجهزة وخوارزميات ضبط المعلمات، مثل الانتشار العكسي، إلى جعل هذه التقنية هي السائدة حاليًا في تدريب الشبكات العصبية العميقة.[25]

الانتشار العكسي

[عدل]

يعد الانتشار العكسي تطبيقًا فعّالًا لقاعدة السلسلة التي وضع أسسها العالم الرياضي غوتفريد لايبنتز في عام 1673، [26] تُطبق هذه القاعدة على شبكات من العقد الرياضية القابلة للاشتقاق. على الرغم من أن مصطلح "أخطاء الانتشار العكسي" قد ظهر لأول مرة في عام 1962على يد روزنبلات، [17] إلا أنه لم يتمكن من تطبيقها عمليًا. وبالمثل كان هنري جيه كيلي قد وضع الأسس النظرية للانتشار العكسي في سياق نظرية التحكم عام 1960، [27] إلا أن التطوير الشامل لهذه التقنية تأخر إلى أوائل السبعينيات.

كانت أقدم نسخة منشورة للانتشار العكسي في شكلها الحديث هي أطروحة الماجستير لسيبو ليناينما عام 1970.[28][29] كما طور بول ويربوس هذه التقنية بشكل مستقل في عام 1971، [30] لكنه واجه صعوبة في نشر بحثه حتى عام 1982.[31] وفي عام 1986م قام ديفيد إي روميلهارت وزملاؤه بتعميم الانتشار العكسي وتطويره ليأخذ الشكل الذي نعرفه اليوم.[32]

بنية الشبكة المتكررة

[عدل]

كان للميكانيكا الإحصائية دور محوري في نشأة الشبكات العصبية المتكررة. فقد طُوِّر نموذج إيزينغ، وهو نموذج مبسط للمغناطيسية في حالة الاتزان،[33] على يد ويلهلم لينز وإرنست إيسينج في العقد الثاني من القرن العشرين.[34][35] وفي عام 1963، أضاف غلاوبر بعدًا زمنيًا إلى هذا النموذج، فدرس تطوره نحو حالة الاتزان، مما أدى إلى ما يُعرف بديناميكيات غلاوبر.[36] وفي خطوة تجاوزت الفيزياء، اقترح شونيشي أماري في عام 1972 تعديل أوزان نموذج إيزينغ وفقًا لقواعد التعلم العصبي، ليحوله بذلك إلى نموذج للذاكرة الارتباطية.[37] وقد اشتهر هذا النموذج لاحقًا باسم شبكة هوبفيلد (1982).[38]

كما لعب علم الأعصاب دورًا محوريًا في تطور هذا المفهوم. فكلمة "متكرر" ترتبط ارتباطًا وثيقًا بالهياكل الحلقية في الجهاز العصبي. فقد لاحظ كاخال في عام 1901 وجود "دوائر نصف دائرية متكررة" في قشرة المخيخ.[39] وفي ثلاثينيات القرن العشرين، اكتشف لورنتي دي نو "وصلات متبادلة متكررة" واقترح أن هذه الحلقات المثيرة تلعب دورًا في ردود الفعل الدهليزية العينية.[40][41] كما اقترح دونالد أولدينغ هيب أن "الدائرة الارتجاعية" هي أساس الذاكرة قصيرة المدى.[42] وقد أكد ماكلوتش وبيتس في عام 1943 على أهمية الدورات في الشبكات العصبية، مشيرين إلى أن نشاط هذه الشبكات يمكن أن يتأثر بنشاطات سابقة بعيدة المدى.[43]

ومن أبرز الأعمال المبكرة التي أثرت في هذا المجال شبكة جوردان (1986) وشبكة إلمان (1990)، اللتان طبقتا الشبكات العصبية المتكررة في دراسة علم النفس الإدراكي. وفي عام 1993، تمكن نظام ضاغط التاريخ العصبي من حل مشكلة "التعلم العميق جدًا"، التي تتطلب آلاف الطبقات المتتالية، وذلك باستخدام شبكة عصبية متكررة متكشفة بمرور الوقت.[44]

الذاكرة قصيرة المدى المطولة (LSTM)

[عدل]

اقترح سيب هوخريتر في رسالته العلمية لدرجة الدكتوراه سنة 1991م نموذجًا ضاغطًا للسجل الزمني العصبي،[45] مبينًا بذلك مشكلة التدرج المتلاشٍ وتحليلًا لها.[45][46] وفي سنة 1993م، تمكن هذا النموذج من حل مسألة "التعلم العميق جدًّا" التي تتطلب آلاف الطبقات المتتالية في الشبكات العصبية المتكررة.[44][47] اقترح هوخريتر استخدام الاتصالات المتبقية المتكررة لحل هذه المسألة، مما أدى إلى ظهور الذاكرة قصيرة المدى المطولة سنة 1995م.[48] استطاعت هذه الذاكرة أن تتعلّم مهام "التعلم العميق جدًّا"،[49] بفضل قدرتها على تذكر أحداث وقعت منذ آلاف الخطوات الزمنية المنفصلة. مع ذلك، لم تكن ذاكرة قصيرة المدى مطولة بالشكل الحديث بعد، حيث أُضيفت إليها فيما بعد "بوابة النسيان" سنة 1999م لتصبح الهيكل القياسي للشبكات العصبية المتكررة.[50]

ابتكر هوخريتر ويورغن شميدهوبر شبكات الذاكرة قصيرة المدى المطولة عام 1995، وحققت هذه الشبكات أرقامًا قياسية في دقة العديد من التطبيقات.[48][51] وأصبحت الخيار الأمثل في تصميم الشبكات العصبية المتكررة.

ابتداءً من عام 2006 أحدثت الذاكرة قصيرة المدى المطولة ثورة في مجال التعرف على الكلام، متفوقة على النماذج التقليدية في العديد من التطبيقات.[52][53] كما حسنت الذاكرة قصيرة المدى المطولة أداء أنظمة التعرف على الكلام ذات المفردات الكبيرة،[54][55] ونظم تحويل النص إلى كلام.[56] واستُخدمت في محرك بحث جوجل الصوتي وفي ميزة الإملاء على أجهزة أندرويد.[57]

حققت الذاكرة قصيرة المدى المطولة أرقامًا قياسية في تحسين الترجمة الآلية، [58] ونماذج اللغات، [59] ومعالجة اللغات المتعددة.[60] وبالتعاون مع الشبكات العصبية التلافيفية، حسنت الذاكرة قصيرة المدى المطولة من أداء أنظمة الترجمة التلقائية للصور.[61]

الشبكات العصبية الالتفافية (CNNs)

[عدل]

يعود أصل بنية الشبكة العصبية الالتفافية إلى "النيوكونييترون" الذي قدمه كونيهيكو فوكوشيما عام 1980.[62][63][64] وقد استلهم هذا العمل من دراسات ديفيد هوبل وتورستن فيزل في الخمسينيات والستينيات من القرن العشرين والتي أظهرت أن القشرة البصرية للقطط تحتوي على خلايا عصبية تستجيب بشكل فردي لمناطق محددة من الحقل البصري. قدم النيوكونيترون النوعين الأساسيين من الطبقات في الشبكات العصبية الالتفافية: الطبقات التلافيفية وطبقات التخفيض. تحتوي الطبقة التلافيفية على وحدات تغطي حقول استقبالها رقعة من الطبقة السابقة. غالبًا ما يُطلق على متجه الوزن (مجموعة المعلمات التكيفية) لمثل هذه الوحدة اسم المرشح. يمكن للوحدات مشاركة المرشحات. تحتوي طبقات التخفيض على وحدات تغطي حقول استقبالها رقعًا من طبقات التخفيض السابقة. تحسب هذه الوحدة عادةً متوسط عمليات تنشيط الوحدات في رقعتها. يساعد هذا التخفيض في تصنيف الكائنات بشكل صحيح في المشاهد المرئية حتى عندما يتم تحريك الكائنات.

في عام 1969 قدم كونيهيكو فوكوشيما دالة التنشيط المعروفة بالوحدة الخطية المصححة (ReLU).[65][66] وقد أصبحت هذه الدالة هي الأكثر شيوعًا في الشبكات العصبية الالتفافية والشبكات العصبية العميقة عمومًا.[67]

أما الشبكات العصبية للتأخير الزمني (TDNN) فقد قدمها ألكسندر وايبل عام 1987، وكانت من أوائل الشبكات العصبية الالتفافية التي حققت ثبات التحول.[68] وقد تمكنت من ذلك بفضل الاستفادة من تقاسم الأوزان مع تدريب الانتشار الخلفي.[69] وبالتالي، وبينما استخدمت بنية هرمية شبيهة بالنيوكونيترون، إلا أنها أجرت تحسينًا عالميًا للأوزان بدلًا من تحسين محلي.[68]

وفي عام 1988 طبق وي تشانج وزملاؤه الانتشار الخلفي على الشبكة العصبية الالتفافية (نيوكونيترون مبسط مع ترابطات ملتوية بين طبقات ميزات الصورة والطبقة المتصلة بالكامل الأخيرة) بهدف التعرف على الأبجدية. كما اقترحوا تنفيذًا لشبكة عصبية التفافية باستخدام نظام حوسبة بصري.[70][71]

قدّم كونيهيكو فوكوشيما النيوكونييترون في عام 1980.[72] وظهر مفهوم التجميع الأقصى في منشور عام 1982 يتناول النيوكونيترون.[73] وفي عام 1989، قام يان ليكون وزملاؤه بتدريب شبكة عصبية تلافيفية بهدف التعرف على الأرقام البريدية المكتوبة بخط اليد. ورغم أن الخوارزمية كانت فعالة، إلا أن عملية التدريب استغرقت ثلاثة أيام.[74][75] وقد اعتمدت هذه الشبكة على تقنية التجميع الأقصى. وكان التعلم فيها آليًا بالكامل، متفوقًا على التصميمات اليدوية التقليدية، ومناسبًا لمجموعة واسعة من مشاكل التعرف على الصور وأنواعها. وبعد ذلك، قام وي تشانج وزملاؤه بتعديل هذا النموذج بإزالة الطبقة المتصلة الأخيرة، وطبقوه على تجزئة الأجسام في الصور الطبية عام 1991 [76]، واكتشاف سرطان الثدي في صور الأشعة عام 1994.[77]

وفي أحد أشكال النيوكونيترون المسماة كريسسيبترون، استبدل ج. وينج وزملاؤه المتوسط المكاني الذي استخدمه فوكوشيما بالتجميع الأقصى، حيث تقوم وحدة تقليل العينة بحساب أعلى قيمة تنشيط لوحدات في نطاق محدد.[78][79][80][81]

طبق يان ليكون وزملائه شبكة لينت-5 العصبية الالتفافية التي تضم سبع طبقات في 1998.[82] وقد صُممت هذه الشبكة خصيصًا لتصنيف الأرقام، مما جعلها مثالية للاستخدام في القطاع المصرفي للتعرف على الأرقام المكتوبة بخط اليد على الشيكات المصورة بدقة 32×32 بكسل. ومع ذلك، تتطلب معالجة الصور عالية الدقة شبكات عصبية أضخم وأكثر تعقيدًا، مما يحد من استخدام هذه التقنية بسبب الموارد الحاسوبية المطلوبة.

شهد عام 2010 تسريعًا كبيرًا لعملية تدريب الانتشار الخلفي من خلال الاستعانة بالتجميع الأقصى ووحدات معالجة الرسوميات، حيث أثبتت هذه الطريقة تفوقها على أساليب التجميع الأخرى.[83] وقد اعتمد بهنكي عام 2003 على خوارزمية آر بروب (RProp) في مشكلات مثل إعادة بناء الصور وتحديد موقع الوجه.[84] وتجدر الإشارة إلى أن آر بروب هي خوارزمية تحسين من الدرجة الأولى ابتكرها مارتن ريدميلر وهاينريش براون عام 1992.[85]

التعلم العميق

[عدل]

بدأت ثورة التعلم العميق مع الرؤية الحاسوبية المعتمدة على الشبكات العصبية الالتفافية (CNNs) ووحدات معالجة الرسومات (GPUs).

يُذكر أنه على الرغم من تواجد الشبكات العصبية الالتفافية المُدرّبة بالانتشار العكسي لعقود، وتطبيقات وحدات معالجة الرسومات للشبكات العصبية لسنوات،[86] متضمنةً الشبكات العصبية الالتفافية،[87] إلا أن الحاجة كانت ماسة إلى تطبيقات أسرع للشبكات العصبية الالتفافية على وحدات معالجة الرسومات للتقدم في مجال الرؤية الحاسوبية. لاحقًا، ومع انتشار التعلم العميق، طورت أجهزة متخصصة وخوارزميات محسّنة خصيصًا للتعلم العميق.[88]

يُعد التقدم الرئيسي لثورة التعلم العميق نتاج التطورات في مجال الأجهزة، خاصة وحدات معالجة الرسومات. يرجع بعض العمل المبكر إلى عام 2004.[86][87] أبلغ راينا ومادهافان وأندرو نج في عام 2009 عن شبكة معتقدات عميقة تضم 100 مليون اتصال، دُربت على 30 وحدة معالجة رسومات من نوع نفيديا جي فورس جي تي اكس 280، وهي من العروض التوضيحية الأولى للتعلم العميق المعتمد على وحدات معالجة الرسومات. كما أبلغوا عن تدريب أسرع بما يصل إلى 70 مرة.[89]

في عام 2011، ح��قت شبكة عصبية التفافية تسمى دان نت أنشأها دان سيريسان ويولي ماير وجوناثان ماسكي ولوكا ماريا جامبارديلا ويورغن شميدهوبر، [90][91] لأول مرة أداءً يفوق أداء الإنسان في مسابقة التعرف على الأنماط البصرية، متفوقةً على الطرق التقليدية بمعامل ثلاثة.[49] ثم فازت بمزيد من المسابقات.[92][93] كما أظهروا كيف أن استخدام التجميع الأقصى في الشبكات العصبية الالتفافية على وحدات معالجة الرسومات يُحسّن الأداء بشكل كبير.[94]

كانت العديد من الاكتشافات تجريبية وركزت على الهندسة. على سبيل المثال، وجد كزافييه جلوروت وأنطوان بوردز ويوشوا بنجيو في عام 2011 أن دالة التنشيط ReLU تعمل بشكل أفضل من دوال التنشيط المستخدمة على نطاق واسع قبل عام 2011.[65]

فازت شبكة ألكسنت، التي ابتكرها أليكس كريجفسكي وإيليا سوتسكيفر وجيفري هينتون،[95] في أكتوبر 2012 بمسابقة إيمج نت واسعة النطاق بفارق كبير عن أساليب التعلم الآلي السطحية.[96] تضمنت التحسينات الإضافية شبكة في جي جي-16 التي ابتكرها كارين سيمونيان وأندرو زيسرمان، وشبكة جوجل "إنسبشن في 3".[97]

امتد النجاح في تصنيف الصور إلى المهمة الأكثر تحديًا وهي توليد أوصاف (تعليقات) للصور، غالبًا باستخدام مزيج من الشبكات العصبية الالتفافية وشبكات الذاكرة طويلة المدى.[98][99][100]

كان أحدث ما توصلت إليه التكنولوجيا في عام 2014 هو تدريب "شبكات ع��بية عميقة جدًا" تحتوي على 20 إلى 30 طبقة.[101] أدى تكديس الكثير من الطبقات إلى انخفاض حاد في دقة التدريب،[102] وهي مشكلة تُعرف باسم "مشكلة التدهور".[103]

وفي عام 2015 طُورت تقنيتان متزامنتان لتمكين تدريب الشبكات العصبية العميقة جداً: شبكة الطريق السريع، [104] وشبكة النيرونات العصبية المتبقية.[105] وقد سعى فريق بحث شبكة النيرونات إلى تدريب شبكات أعمق من خلال تجربة حيل تدريبية مختلفة للشبكات العميقة حتى توصلوا إلى بنية الشبكة العصبية المتبقية العميقة.[106]

الشبكات الخصومية التوليدية (GANs)

[عدل]

نشر يورغن شميدهوبر في عام 1991 "الفضول الاصطناعيّ: الشبكات العصبية في لعبة المحصلة الصفرية".[107] تُمثّل الشبكة الأولى نموذجًا توليديًا يصور توزيعًا احتماليًا لأنماط الإخراج. تتعلم الشبكة الثانية، عن طريق الانحدار التدريجي، التنبؤ بردود فعل البيئة على هذه الأنماط. يمكن اعتبار شبكات الخصومة التوليدية حالةً يكون فيها رد فعل البيئة إما 1 أو 0، وهذا يتوقف على ما إذا كانت مخرجات الشبكة الأولى في مجموعة مُعطاة.[108] ثم وُسّع هذا المفهوم إلى "تقليل القابلية للتنبؤ" لإنشاء تمثيلات مُفككة لأنماط الإدخال.[109][110]

طَوّرَ آخرون أفكارًا مُشابهة لكنهم لم يطوّروها بشكلٍ مماثل. نشر أولي نيميتالو فكرة تتضمن شبكاتٍ مُتنافسة في منشور مُدونة عام 2010.[111] لم تُنفذ هذه الفكرة قط، ولم تتضمن العشوائية في المُولّد، لذا لم تكن نموذجًا توليديًا.[112] استخدم لي وجوسي وجروس فكرة مُشابهة لـ "جان" لنمذجة سلوك الحيوان عام 2013.[113]

ألهم تقدير التباين في الضوضاء "جان" أيضًا، [114] حيثُ يستخدم نفس دالة الخسارة التي تستخدمها "جان"، والتي درسها جودفيلو خلال دراسته للدكتوراه بين عامي 2010 و2014.

أحدثت الشبكات الخصومية التوليدية (GANs)، التي قدمها إيان جودفيلو وزملاؤه عام 2014، ثورةً في مجال النمذجة التوليدية خلال الفترة من 2014 إلى 2018. وقد بلغت نماذج "ستايلغان" التي طورتها شركة إنفيديا عام 2018،[115] مستويات عالية من الجودة في توليد الصور، مستفيدةً من بنية المولد التدريجي المتدرج في نموذج "Progressive GAN" الذي اقترحه ترو كاراس وزملاؤه.[116] وفي هذا النموذج، يُدرب المولد بشكل تدريجي بدءًا من أحجام صغيرة وصولًا إلى أحجام أكبر، مما يشبه بناء هرم. وقد حققت الصور الناتجة عن هذه الشبكات شهرة واسعة، مما أثار جدلًا حول تقنية التزييف العميق.[117] ومع ذلك، فقد شهد عام 2015 ظهور نماذج الانتشار التي سرعان ما حلت محل هذه الشبكات كأبرز التقنيات في النمذجة التوليدية.[118] وقد تجسد هذا التحول في ظهور أنظمة متقدمة مثل دالي 2 وستيبل ديفوجن عام 2022.

آلية الانتباه والمحولات

[عدل]

درَسَ علم الأعصاب وعلم النفس الإدراكي الانتباه الإنساني الانتقائي.[119] ودُرِسَ الانتباه الانتقائي السمعي في تأثير حفل الكوكتيل (كولين تشيري، 1953).[120] واقترح دونالد برودبنت (1958) نموذج المُرشّح للانتباه.[121] ودَرَسَ نموذج التقرير الجزئي لجورج سبيرلينج الانتباه الانتقائي للرؤية في ستينيات القرن الماضي. ولُوحِظَ أيضًا أن العمليات الإدراكية تُعدّل التحكم في حركة العين السريعة، حيث تتحرك العين بشكل تفضيلي نحو مناطق البروز العالي. ولأن النقرة المركزية للعين صغيرة، لا تستطيع العينُ تحليل المجال البصري بأكمله بدقة في وقت واحد. وهكذا، يسمح استخدام التحكم في حركة العين السريعة للعين بمسح سريع للميزات المهمة للمشهد.[122]

ألهمت هذه الأبحاث خوارزميات، مثل متغير من نيوكونييترون.[123][124] وعلى النقيض من ذلك، ألهمت التطورات في الشبكات العصبية نماذج دوائر لانتباه البصر البيولوجي.[125][126]

ويُعدّ استخدام العمليات الضربّية جانبًا أساسيًا من آلية الانتباه، وقد دُرِسَ هذا الجانب تحت مسميات الشبكات العصبية ذات الرتبة الأعلى،[127] ووحدات الضرب،[128] ووحدات سيجما-باي،[129] ووحدات تحكم الوزن السريع،[130] والشبكات الفائقة.[131]

الانتباه المتكرّر

[عدل]

في العصر الذهبي للتعلم العميق، برزت آلية الانتباه كحل مبتكر لمج��وعة متنوعة من المسائل المتشابهة في مجالي التشفير وفك التشفير.[132]

تبلورت فكرة التحويل التسلسلي للمشفر-المفكك في مطلع الألفية الثالثة. وتُعدُّ الورقتان البحثيتان اللتان نُشرتا عام 2014 الأكثر استشهادًا كأساس لبناء هذه التقنية.[133][134] تعتمد بنية التحويل التسلسلي على شبكتين عصبيتين متتاليتين، عادة ما تكونا من نوع الذاكرة قصيرة المدى طويلة الأجل، تعمل إحداهما على تشفير المدخلات والأخرى على فك تشفيرها، وذلك لتحقيق أهداف مثل الترجمة الآلية. وقد أصبحت هذه البنية هي الأحدث والأكثر استخدامًا في مجال الترجمة الآلية، وساهمت بشكل كبير في تطوير آلية الانتباه والمُحوِّل.

في عام 2015، قُدّم نموذج جديد لتوليد عناوين للصور مستوحى من بنية التحويل التسلسلي.[135] يقوم هذا النموذج بتحويل الصورة المدخلة إلى متجه ذي طول ثابت. وفي نفس العام، طبق "شو" وزملاؤه آلية الانتباه، كما استُخدمت في نموذج التحويل التسلسلي، على مهمة توليد عناوين الصور، [136] مستندين إلى عمل بهاداناو وزملائه في عام 2014.[137]

المحول

[عدل]

واجهت النماذج المتسلسلة (seq2seq) مشكلة تتمثل في اعتمادها على الشبكات العصبية المتكررة، التي تعالج التسلسل بشكل تسلسلي، مما يحد من كفاءتها. وحاولت آلية الانتباه القابلة للتفكيك معالجة هذه المشكلة عبر معالجة تسلسل الإدخال بالتوازي، قبل حساب "مصفوفة المحاذاة اللينة"، مما سمح بمعالجة أكثر كفاءة.[137]

بالتزامن مع ذلك، برزت فكرة الاستفادة من آلية الانتباه لإنشاء روابط داخلية بين عناصر التسلسل الواحد، عوضًا عن الربط بين تسلسلي الإدخال والإخراج (الانتباه المتبادل) كما هو الحال في حاسوب عصبي تفاضلي والآلات تورينج العصبية [الإنجليزية]‏.[138] أُطلق على هذا النوع من الانتباه اسم "الانتباه الذاتي" أو "الانتباه الداخلي"، [139] حيث زُودت الشبكة العصبية بآلية تتيح لها التركيز على أجزاء مختلفة من التسلسل أثناء ترميزه.

دمُجت هاتين الفكرتين الأساسيتين في بنية "المحوّل" التي قدمتها ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" في 2017. ومنذ ذلك الحين، شهدت آليات الانتباه تطورًا متسارعًا في إطار بنية المحوّل، وأصبحت عنصرًا أساسيًا في العديد من نماذج معالجة اللغات الطبيعية.

ما زالت النماذج القائمة على "سلسلة إلى سلسلة" التي تعتمد على آلية الانتباه تعاني من نفس التحدي الذي تواجهه الشبكات المتكررة، ألا وهو صعوبة توزيع العمليات الحسابية وتنفيذها بالتوازي، مما يحد من إمكانية تسريعها باستخدام وحدات معالجة الرسوميات. في عام 2016، طُبقت آلية الانتباه القابلة للتحلل على الشبكات العصبية ذات التغذية الأمامية، والتي تتميز بسهولة توزيع عملياتها الحسابية.[140] وقد شكك أحد واضعي هذه التقنية، وهو جاكوب أوزكوريت، في كفاءة آلية الانتباه بمفردها لإنجاز مهمة الترجمة دون الحاجة إلى التكرار، مما يثير تساؤلات حول صحة الادعاء القائل بأن "الانتباه هو كل ما تحتاجه".[141]

قُدِّم نموذج المحوِّل "المُشفِر-المُفكِّك" (بحجم 100 مليون مُعامِل) لأول مرة في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام 2017. ركز البحث على تحسين النماذج المتسلسلة (seq2seq) المستخدمة في الترجمة الآلية، وذلك بإزالة التكرار في معالجة الرموز المميزة، حيث يقوم النموذج بمعالجة جميع الرموز في آن واحد، مع الحفاظ على آلية الانتباه القائمة على الضرب النقطي للحفاظ على كفاءة معالجة النصوص.[142] وقد ساهم هذا النموذج في انتشار الشبكات العصبية الكبيرة بشكل كبير بفضل قدرته على المعالجة المتوازية.[143]

التعلم غير المراقب والتعلم ذاتي الإشراف

[عدل]

الخرائط ذاتية التنظيم

[عدل]

وصف تيفو كوهونين الخرائط ذاتية التنظيم (SOMs) لأول مرة في عام 1982.[144][145] وتُعد الخرائط ذاتية التنظيم شبكات عصبونية اصطناعية مستوحاة من علم وظائف الأعصاب، [146] التي تتعلم التمثيلات منخفضة الأبعاد للبيانات عالية الأبعاد مع الحفاظ على البنية الطوبولوجية للبيانات. وتُدرب هذه الخرائط باستخدام التعلم التنافسي [الإنجليزية]‏.

تُنتج الخرائط ذاتية التنظيم تمثيلًا داخليًا للبيانات يشبه إلى حد كبير "القزم القشري"، وهو نموذج يصف التوزيع غير المتساوي للمناطق الدماغية المسؤولة عن معالجة المعلومات الحسية من أجزاء الجسم المختلفة. وبهذا الشكل، تُشكل الخرائط ذاتية التنظيم نوعًا من "الخريطة العصبية" التي تعكس العلاقات بين العناصر المختلفة في البيانات.

آلة بولتزمان

[عدل]

طُوّرت العديد من البنى والطرق خلال أعوام 1985-1995 بإلهام من الميكانيكا الإحصائية على يد تيري سينوفسكي، وبيتر دايان، وجيفري هينتون، وغيرهم، وشملت آلة بولتزمان، [147] وآلة بولتزمان المقيدة، [148] وآلة هيلمهولتز، [149] وخوارزمية اليقظة-النوم.[150] صُمّمت هذه الطرق للتعلم غير المُراقب للنماذج التوليدية العميقة، لكنها كانت أكثر تكلفةً من الناحية الحسابية مقارنةً بالانتشار العكسيّ. حظيت خوارزمية تعلم آلة بولتزمان، التي نُشرت عام 1985، بشعبية لفترة وجيزة قبل أن تطغى عليها خوارزمية الانتشار العكسيّ في عام 1986.[151]

اقترح جيفري هينتون وآخرون في 2006 "تعلّم تمثيل داخليّ عالي المستوى" باستخدام طبقات متتالية من المتغيّرات الكامنة الثنائية أو ذات القيمة الحقيقية مع آلة بولتزمان المقيّدة لنمذجة كلّ طبقة.[152] تعدّ آلة بولتزمان المقيدة [الإنجليزية]‏ (RBM) شبكة عصبية توليدية عشوائيةً ذات تغذية أمامية قادرةً على تعلّم توزيع الاحتمالات على مجموعة مدخلاتها، بمجرّد تعلّم عدد كافٍ من الطّبقات، يمكن استخدام البنية العميقة كنموذج توليديّ من خلال إعادة إنتاج البيانات عند أخذ عينات من النموذج ("تمريرة سلفية") من أعلى مستويات تنشيط الميزات.[153][154][155]

جوانب أخرى

[عدل]

تقطير المعرفة

[عدل]

تُعرف عملية نقل المعارف المتراكمة في نموذج ضخم إلى نموذج أصغر حجمًا بتقطير المعرفة أو تقطير النموذج. وقد بُحثت فكرة الاستفادة من مخرجات شبكة عصبية مُدرّبة لتدريب أخرى ضمن إطار ما يُعرف بشبكة المعلم والطالب.[156] وفي عام 1992 تَمّ التعمّق في هذه الفكرة بتطبيق الميكانيكا الإحصائية على هذا الإطار، حيث اعتُبرت كلتا الشبكتين إما آلات لاجان، [157][158] أو آلات تكافؤ.[159]

ومن الأمثلة المبكرة الأخرى على تقطير الشبكة، ما طُرح أيضًا في عام 1992 في سياق الشبكات العصبية المتكررة (RNNs). تتمثل المشكلة هنا في التنبؤ بالتسلسلات، وقد حُلّت باستخدام شبكتين عصبيتين متكررتين تعملان بالتوازي. تقوم الشبكة الأولى، المُسَمّاة "المحلل الذري"، بالتنبؤ بالتسلسل، بينما تقوم الثانية، المُسَمّاة "المُجمّع"، بالتنبؤ بأخطاء الشبكة الأولى. وفي الوقت نفسه، تتنبأ الشبكة الأولى بالحالات الداخلية للشبكة الثانية. بعد أن تصبح الشبكة الأولى قادرة على التنبؤ بدقة بالحالات الداخلية للشبكة الثانية، تبدأ في تصحيح أخطائها، وبالتالي تصبح الشبكة الثانية غير ضرورية، ممّا يؤدي إلى الحصول على شبكة عصبية واحدة في النهاية.[160]

كانت المنهجية ذات الصلة هي ضغط النموذج أو تقليمه، حيث يُقلّل حجم الشبكة المُدرّبة. وقد استُلهمت هذه المنهجية من الدراسات العصبية التي أظهرت قدرة الدماغ البشري على التعافي من الأضرار، وقد بُحِثت في الثمانينات من القرن الماضي من خلال طرق مثل اضمحلال الوزن المتحيز، [161] والتلف الدماغي الأمثل.[162]

التصاميم القائمة على الأجهزة

[عدل]

أَتاح تطور الدوائر التكاملية واسعة النطاق جدًا ذات أشباه الموصلات من أكسيد المعدن، التي تجمع ملايين أو مليارات ترانزستورات موسفت على رقاقة واحدة على شكل تقنية أشباه الموصّلات ذات الأكاسيد المعدنية المُتتامة، إمكانية تطوير شبكات عصبية اصطناعية عملية في الثمانينيات.[163]

أُنشئت أجهزة حاسوبية تعتمد على تقنية أشباه الموصّلات ذات الأكاسيد المعدنية المُتتامة لكل من المحاكاة الفيزيائية الحيوية والحوسبة العصبية المستوحاة من بنية الدماغ البشري ووظيفته. كذلك قد تخلق الأجهزة النانوية فئة جديدة من الحوسبة العصبية لتحليل المكونات الأساسية ذات النطاق الواسع،[164] حيث أن أساسها تمثيلي وليس رقميًا، بالرغم من إمكانية استخدام الإصدارات الأولى لأجهزة رقمية.[165]

ملاحظات

[عدل]

روابط خارجية

[عدل]
  • "Lecun 2019-7-11 ACM Tech Talk". Google Docs. اطلع عليه بتاريخ 2020-02-13.

مراجع

[عدل]
  1. ^ Rosenblatt، F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain". Psychological Review. ج. 65 ع. 6: 386–408. CiteSeerX:10.1.1.588.3775. DOI:10.1037/h0042519. PMID:13602029. S2CID:12781225. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-11-29.
  2. ^ ا ب ج د Rosenblatt، F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain". Psychological Review. ج. 65 ع. 6: 386–408. CiteSeerX:10.1.1.588.3775. DOI:10.1037/h0042519. PMID:13602029. S2CID:12781225. مؤرشف من الأصل في 2024-10-08. اطلع عليه بتاريخ 2024-10-08.
  3. ^ Crevier، Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence. New York, NY: BasicBooks. ISBN:0-465-02997-3.
  4. ^ Krizhevsky، Alex؛ Sutskever، Ilya؛ Hinton، Geoffrey E. (24 مايو 2017). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. ج. 60 ع. 6: 84–90. DOI:10.1145/3065386. ISSN:0001-0782. S2CID:195908774. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  5. ^ Gershgorn، Dave (26 يوليو 2017). "The data that transformed AI research—and possibly the world". Quartz. مؤرشف من الأصل في 2017-08-20. اطلع عليه بتاريخ 2024-10-08.
  6. ^ Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف من الأصل (pdf) في 2024-02-21. اطلع عليه بتاريخ 2024-10-08.
  7. ^ Merriman, Mansfield. A List of Writings Relating to the Method of Least Squares: With Historical and Critical Notes. Vol. 4. Academy, 1877.
  8. ^ Stigler، Stephen M. (1981). "Gauss and the Invention of Least Squares". Ann. Stat. ج. 9 ع. 3: 465–474. DOI:10.1214/aos/1176345451. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  9. ^ Bretscher، Otto (1995). Linear Algebra With Applications (ط. 3rd). Upper Saddle River, NJ: Prentice Hall.
  10. ^ Stigler، Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN:0-674-40340-1. اطلع عليه بتاريخ 2024-10-08.
  11. ^ McCulloch، Warren؛ Walter Pitts (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. ج. 5 ع. 4: 115–133. DOI:10.1007/BF02478259. مؤرشف من الأصل في 2021-06-09. اطلع عليه بتاريخ 2024-10-08.
  12. ^ Kleene، S. C. (31 ديسمبر 1956)، Shannon، C. E.؛ McCarthy، J. (المحررون)، "Representation of Events in Nerve Nets and Finite Automata"، Automata Studies. (AM-34)، Princeton University Press، ص. 3–42، DOI:10.1515/9781400882618-002، ISBN:978-1-4008-8261-8، مؤرشف من الأصل في 2024-10-12، اطلع عليه بتاريخ 2024-10-14
  13. ^ Hebb، Donald (1949). The Organization of Behavior. New York: Wiley. ISBN:978-1-135-63190-1. مؤرشف من الأصل في 2024-04-23. اطلع عليه بتاريخ 2024-10-08.
  14. ^ Farley، B.G.؛ W.A. Clark (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory. ج. 4 ع. 4: 76–84. DOI:10.1109/TIT.1954.1057468. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  15. ^ Rochester، N.؛ J.H. Holland؛ L.H. Habit؛ W.L. Duda (1956). "Tests on a cell assembly theory of the action of the brain, using a large digital computer". IRE Transactions on Information Theory. ج. 2 ع. 3: 80–93. DOI:10.1109/TIT.1956.1056810. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  16. ^ David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. ص. 106. ISBN:978-0-19-517618-6. مؤرشف من الأصل في 2021-11-12. اطلع عليه بتاريخ 2024-10-08.
  17. ^ ا ب Rosenblatt، Frank (1962). Principles of Neurodynamics. Spartan, New York.
  18. ^ Tappert، Charles C. (2019). "Who Is the Father of Deep Learning?". 2019 International Conference on Computational Science and Computational Intelligence (CSCI). IEEE. ص. 343–348. DOI:10.1109/CSCI49370.2019.00067. ISBN:978-1-7281-5584-5. S2CID:216043128. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  19. ^ Minsky، Marvin؛ Papert، Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN:978-0-262-63022-1. مؤرشف من الأصل في 2024-04-27. اطلع عليه بتاريخ 2024-10-08.
  20. ^ Ivakhnenko، A. G.؛ Lapa، V. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Co. ISBN:978-0-444-00020-0. مؤرشف من الأصل في 2024-04-23. اطلع عليه بتاريخ 2024-10-08.
  21. ^ Ivakhnenko, A.G. (Mar 1970). "Heuristic self-organization in problems of engineering cybernetics". Automatica (بالإنجليزية). 6 (2): 207–219. DOI:10.1016/0005-1098(70)90092-0. Archived from the original on 2024-08-12. Retrieved 2024-10-08.
  22. ^ Ivakhnenko، Alexey (1971). "Polynomial theory of complex systems" (pdf). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 ع. 4: 364–378. DOI:10.1109/TSMC.1971.4308320. مؤرشف (PDF) من الأصل في 2017-08-29. اطلع عليه بتاريخ 2019-11-05.
  23. ^ Robbins، H.؛ Monro، S. (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. ج. 22 ع. 3: 400. DOI:10.1214/aoms/1177729586. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-10-08.
  24. ^ Amari، Shun'ichi (1967). "A theory of adaptive pattern classifier". IEEE Transactions. ج. EC ع. 16: 279–307.
  25. ^ Schmidhuber، Jürgen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  26. ^ Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (بالإنجليزية). Open court publishing Company. ISBN:9780598818461. Archived from the original on 2024-06-24. Retrieved 2024-10-08.
  27. ^ Kelley، Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. ج. 30 ع. 10: 947–954. DOI:10.2514/8.5282. مؤرشف من الأصل في 2024-10-01. اطلع عليه بتاريخ 2024-10-08.
  28. ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (بالفنلندية). University of Helsinki. p. 6–7.
  29. ^ Linnainmaa، Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. ج. 16 ع. 2: 146–160. DOI:10.1007/bf01931367. S2CID:122357351. مؤرشف من الأصل في 2024-08-15. اطلع عليه بتاريخ 2024-10-08.
  30. ^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Talking Nets: An Oral History of Neural Networks (بالإنجليزية). The MIT Press. DOI:10.7551/mitpress/6626.003.0016. ISBN:978-0-262-26715-1. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  31. ^ Werbos، Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. ص. 762–770. مؤرشف (PDF) من الأصل في 2016-04-14.
  32. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (Oct 1986). "Learning representations by back-propagating errors". Nature (بالإنجليزية). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. DOI:10.1038/323533a0. ISSN:1476-4687. Archived from the original on 2023-10-17. Retrieved 2024-10-08.
  33. ^ Brush، Stephen G. (1967). "History of the Lenz-Ising Model". Reviews of Modern Physics. ج. 39 ع. 4: 883–893. Bibcode:1967RvMP...39..883B. DOI:10.1103/RevModPhys.39.883. مؤرشف من الأصل في 2024-09-07. اطلع عليه بتاريخ 2024-10-08.
  34. ^ Lenz، W. (1920)، "Beiträge zum Verständnis der magnetischen Eigenschaften in festen Körpern"، Physikalische Zeitschrift، ج. 21، ص. 613–615.
  35. ^ Ising، E. (1925)، "Beitrag zur Theorie des Ferromagnetismus"، Z. Phys.، ج. 31، ص. 253–258، Bibcode:1925ZPhy...31..253I، DOI:10.1007/BF02980577، S2CID:122157319، مؤرشف من الأصل في 2024-10-12، اطلع عليه بتاريخ 2024-10-08
  36. ^ Glauber، Roy J. (فبراير 1963). "Roy J. Glauber "Time-Dependent Statistics of the Ising Model"". Journal of Mathematical Physics. ج. 4 ع. 2: 294–307. DOI:10.1063/1.1703954. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2021-03-21.
  37. ^ Amari، S.-I. (نوفمبر 1972). "Learning Patterns and Pattern Sequences by Self-Organizing Nets of Threshold Elements". IEEE Transactions on Computers. ج. C-21 ع. 11: 1197–1206. DOI:10.1109/T-C.1972.223477. ISSN:0018-9340. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  38. ^ Hopfield، J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences. ج. 79 ع. 8: 2554–2558. Bibcode:1982PNAS...79.2554H. DOI:10.1073/pnas.79.8.2554. PMC:346238. PMID:6953413. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-10-08.
  39. ^ Espinosa-Sanchez, Juan Manuel; Gomez-Marin, Alex; de Castro, Fernando (05 Jul 2023). "The Importance of Cajal's and Lorente de Nó's Neuroscience to the Birth of Cybernetics". The Neuroscientist (بالإنجليزية). DOI:10.1177/10738584231179932. hdl:10261/348372. ISSN:1073-8584. PMID:37403768. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  40. ^ de NÓ، R. Lorente (01 أغسطس 1933). "Vestibulo-Ocular Reflex Arc". Archives of Neurology and Psychiatry. ج. 30 ع. 2: 245. DOI:10.1001/archneurpsyc.1933.02240140009001. ISSN:0096-6754. مؤرشف من الأصل في 2024-07-28. اطلع عليه بتاريخ 2024-10-08.
  41. ^ Larriva-Sahd، Jorge A. (03 ديسمبر 2014). "Some predictions of Rafael Lorente de Nó 80 years later". Frontiers in Neuroanatomy. ج. 8: 147. DOI:10.3389/fnana.2014.00147. ISSN:1662-5129. PMC:4253658. PMID:25520630. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  42. ^ "reverberating circuit". Oxford Reference. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-07-27.
  43. ^ McCulloch، Warren S.؛ Pitts، Walter (ديسمبر 1943). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics. ج. 5 ع. 4: 115–133. DOI:10.1007/BF02478259. ISSN:0007-4985. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  44. ^ ا ب Schmidhuber، Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF). مؤرشف من الأصل (pdf) في 2021-06-26. اطلع عليه بتاريخ 2024-10-08.[وصلة مكسورة] Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN.
  45. ^ ا ب "Untersuchungen zu dynamischen neuronalen Netzen" (PDF). TR FKI-148, TU Munich. مؤرشف من الأصل (pdf) في 2015-03-06. اطلع عليه بتاريخ 2024-10-08.
  46. ^ Hochreiter، S.؛ وآخرون (15 يناير 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". في Kolen، John F.؛ Kremer، Stefan C. (المحررون). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN:978-0-7803-5369-5.
  47. ^ Schmidhuber، Jürgen (1992). "Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)" (PDF). Neural Computation. ج. 4 ع. 2: 234–242. DOI:10.1162/neco.1992.4.2.234. S2CID:18271205. مؤرشف من الأصل (pdf) في 2023-08-27. اطلع عليه بتاريخ 2024-10-08.[وصلة مكسورة]
  48. ^ ا ب Sepp Hochreiter; Jürgen Schmidhuber (21 Aug 1995), Long Short Term Memory (بالإنجليزية), QID:Q98967430
  49. ^ ا ب Schmidhuber، J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. ج. 61: 85–117. arXiv:1404.7828. DOI:10.1016/j.neunet.2014.09.003. PMID:25462637. S2CID:11715509. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-10-08.
  50. ^ Gers، Felix؛ Schmidhuber، Jürgen؛ Cummins، Fred (1999). "Learning to forget: Continual prediction with LSTM". 9th International Conference on Artificial Neural Networks: ICANN '99. ج. 1999. ص. 850–855. DOI:10.1049/cp:19991218. ISBN:0-85296-721-7. مؤرشف من الأصل في 2024-09-07. اطلع عليه بتاريخ 2024-10-08.
  51. ^ Hochreiter، Sepp؛ Schmidhuber، Jürgen (01 نوفمبر 1997). "Long Short-Term Memory". Neural Computation. ج. 9 ع. 8: 1735–1780. DOI:10.1162/neco.1997.9.8.1735. PMID:9377276. S2CID:1915014. مؤرشف من الأصل في 2024-09-27. اطلع عليه بتاريخ 2024-10-08.
  52. ^ Graves، Alex؛ Schmidhuber، Jürgen (01 يوليو 2005). "Framewise phoneme classification with bidirectional LSTM and other neural network architectures". Neural Networks. IJCNN 2005. ج. 18 ع. 5: 602–610. CiteSeerX:10.1.1.331.5800. DOI:10.1016/j.neunet.2005.06.042. PMID:16112549. S2CID:1856462. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  53. ^ Fernández، Santiago؛ Graves، Alex؛ Schmidhuber، Jürgen (2007). "An Application of Recurrent Neural Networks to Discriminative Keyword Spotting". Proceedings of the 17th International Conference on Artificial Neural Networks. ACM Computing Surveys. ICANN'07. Berlin, Heidelberg: Springer-Verlag. ص. 220–229. ISBN:978-3-540-74693-5. مؤرشف من الأصل في 2023-07-08. اطلع عليه بتاريخ 2024-10-08.
  54. ^ Sak، Haşim؛ Senior، Andrew؛ Beaufays، Françoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF). Google Research. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  55. ^ Li، Xiangang؛ Wu، Xihong (15 أكتوبر 2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  56. ^ Fan، Bo؛ Wang، Lijuan؛ Soong، Frank K.؛ Xie، Lei (2015). "Photo-Real Talking Head with Deep Bidirectional LSTM". Proceedings of ICASSP 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. World Development. ص. 4884–8. DOI:10.1109/ICASSP.2015.7178899. ISBN:978-1-4673-6997-8. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  57. ^ Sak، Haşim؛ Senior، Andrew؛ Rao، Kanishka؛ Beaufays، Françoise؛ Schalkwyk، Johan (سبتمبر 2015). "Google voice search: faster and more accurate". مؤرشف من الأصل في 2016-03-09. اطلع عليه بتاريخ 2024-10-08.
  58. ^ Sutskever، Ilya؛ Vinyals، Oriol؛ Le، Quoc V. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). Electronic Proceedings of the Neural Information Processing Systems Conference. ج. 27: 5346. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. مؤرشف من الأصل (pdf) في 2021-05-09. اطلع عليه بتاريخ 2024-10-08.
  59. ^ Jozefowicz، Rafal؛ Vinyals، Oriol؛ Schuster، Mike؛ Shazeer، Noam؛ Wu، Yonghui (07 فبراير 2016). "Exploring the Limits of Language Modeling". arXiv:1602.02410 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  60. ^ Gillick، Dan؛ Brunk، Cliff؛ Vinyals، Oriol؛ Subramanya، Amarnag (30 نوفمبر 2015). "Multilingual Language Processing From Bytes". arXiv:1512.00103 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  61. ^ Vinyals، Oriol؛ Toshev، Alexander؛ Bengio، Samy؛ Erhan، Dumitru (17 نوفمبر 2014). "Show and Tell: A Neural Image Caption Generator". arXiv:1411.4555 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  62. ^ Fukushima، K. (2007). "Neocognitron". Scholarpedia. ج. 2 ع. 1: 1717. Bibcode:2007SchpJ...2.1717F. DOI:10.4249/scholarpedia.1717. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  63. ^ Fukushima، Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. ج. 36 ع. 4: 193–202. DOI:10.1007/BF00344251. PMID:7370364. S2CID:206775608. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2013-11-16.
  64. ^ LeCun، Yann؛ Bengio، Yoshua؛ Hinton، Geoffrey (2015). "Deep learning" (PDF). Nature. ج. 521 ع. 7553: 436–444. Bibcode:2015Natur.521..436L. DOI:10.1038/nature14539. PMID:26017442. S2CID:3074096. مؤرشف من الأصل (pdf) في 2024-09-17. اطلع عليه بتاريخ 2024-10-08.
  65. ^ ا ب Fukushima، K. (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. ج. 5 ع. 4: 322–333. DOI:10.1109/TSSC.1969.300225. مؤرشف من الأصل في 2024-09-03. اطلع عليه بتاريخ 2024-10-08.
  66. ^ Schmidhuber، Juergen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  67. ^ Ramachandran، Prajit؛ Barret، Zoph؛ Quoc، V. Le (16 أكتوبر 2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  68. ^ ا ب Waibel، Alex (ديسمبر 1987). "Phoneme Recognition Using Time-Delay Neural Networks". Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
  69. ^ Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989. نسخة محفوظة 2024-09-26 على موقع واي باك مشين.
  70. ^ Zhang، Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics. مؤرشف من الأصل في 2024-06-19. اطلع عليه بتاريخ 2024-10-08.
  71. ^ Zhang، Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. ج. 29 ع. 32: 4790–7. Bibcode:1990ApOpt..29.4790Z. DOI:10.1364/AO.29.004790. PMID:20577468. مؤرشف من الأصل في 2024-04-16. اطلع عليه بتاريخ 2024-10-08.
  72. ^ Fukushima، Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (pdf). Biological Cybernetics. ج. 36 ع. 4: 193–202. DOI:10.1007/BF00344251. PMID:7370364. S2CID:206775608. مؤرشف (PDF) من الأصل في 2014-06-03. اطلع عليه بتاريخ 2013-11-16.
  73. ^ Fukushima، Kunihiko؛ Miyake، Sei (01 يناير 1982). "Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position". Pattern Recognition. ج. 15 ع. 6: 455–469. Bibcode:1982PatRe..15..455F. DOI:10.1016/0031-3203(82)90024-3. ISSN:0031-3203. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  74. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  75. ^ LeCun، Yann؛ Boser، Bernhard؛ Denker، John؛ Henderson، Donnie؛ Howard، R.؛ Hubbard، Wayne؛ Jackel، Lawrence (1989). "Handwritten Digit Recognition with a Back-Propagation Network". Advances in Neural Information Processing Systems. Morgan-Kaufmann. ج. 2. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  76. ^ Zhang، Wei (1991). "Image processing of human corneal endothelium based on a learning network". Applied Optics. ج. 30 ع. 29: 4211–7. Bibcode:1991ApOpt..30.4211Z. DOI:10.1364/AO.30.004211. PMID:20706526. مؤرشف من الأصل في 2024-06-19. اطلع عليه بتاريخ 2024-10-08.
  77. ^ Zhang، Wei (1994). "Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network". Medical Physics. ج. 21 ع. 4: 517–24. Bibcode:1994MedPh..21..517Z. DOI:10.1118/1.597177. PMID:8058017. مؤرشف من الأصل في 2024-06-20. اطلع عليه بتاريخ 2024-10-08.
  78. ^ J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576–581, June, 1992. نسخة محفوظة 2024-11-21 على موقع واي باك مشين.
  79. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121–128, May, 1993. نسخة محفوظة 2024-04-23 على موقع واي باك مشين.
  80. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105–139, Nov. 1997. نسخة محفوظة 2024-04-23 على موقع واي باك مشين.
  81. ^ Weng، J؛ Ahuja، N؛ Huang، TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". 1993 (4th) International Conference on Computer Vision. ص. 121–128. DOI:10.1109/ICCV.1993.378228. ISBN:0-8186-3870-2. S2CID:8619176. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  82. ^ LeCun، Yann؛ Léon Bottou؛ Yoshua Bengio؛ Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. ج. 86 ع. 11: 2278–2324. CiteSeerX:10.1.1.32.9552. DOI:10.1109/5.726791. S2CID:14542261. مؤرشف من الأصل (pdf) في 2024-10-02. اطلع عليه بتاريخ 2016-10-07.
  83. ^ Dominik Scherer, Andreas C. Müller, and Sven Behnke: "Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition," In 20th International Conference Artificial Neural Networks (ICANN), pp. 92–101, 2010. دُوِي:10.1007/978-3-642-15825-4_10. نسخة محفوظة 2024-11-21 على موقع واي باك مشين.
  84. ^ Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation (PDF). Lecture Notes in Computer Science. Springer. ج. 2766. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  85. ^ Martin Riedmiller und Heinrich Braun: Rprop – A Fast Adaptive Learning Algorithm. Proceedings of the International Symposium on Computer and Information Science VII, 1992
  86. ^ ا ب Oh، K.-S.؛ Jung، K. (2004). "GPU implementation of neural networks". Pattern Recognition. ج. 37 ع. 6: 1311–1314. Bibcode:2004PatRe..37.1311O. DOI:10.1016/j.patcog.2004.01.013. مؤرشف من الأصل في 2024-09-30. اطلع عليه بتاريخ 2024-10-08.
  87. ^ ا ب Chellapilla، Kumar؛ Puri، Sidd؛ Simard، Patrice (2006)، "High performance convolutional neural networks for document processing"، Springer International Publishing، مؤرشف من الأصل في 2020-05-18، اطلع عليه بتاريخ 2021-02-14
  88. ^ Sze، Vivienne؛ Chen، Yu-Hsin؛ Yang، Tien-Ju؛ Emer، Joel (2017). "Efficient Processing of Deep Neural Networks: A Tutorial and Survey". arXiv:1703.09039 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  89. ^ Raina، Rajat؛ Madhavan، Anand؛ Ng، Andrew Y. (14 يونيو 2009). "Large-scale deep unsupervised learning using graphics processors". Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09. New York, NY, USA: Association for Computing Machinery. ص. 873–880. DOI:10.1145/1553374.1553486. ISBN:978-1-60558-516-1. مؤرشف من الأصل في 2024-07-31. اطلع عليه بتاريخ 2024-10-08.
  90. ^ Cireşan، Dan Claudiu؛ Meier، Ueli؛ Gambardella، Luca Maria؛ Schmidhuber، Jürgen (21 سبتمبر 2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. ج. 22 ع. 12: 3207–3220. arXiv:1003.0358. DOI:10.1162/neco_a_00052. ISSN:0899-7667. PMID:20858131. S2CID:1918673. مؤرشف من الأصل في 2024-05-21. اطلع عليه بتاريخ 2024-10-08.
  91. ^ Ciresan، D. C.؛ Meier، U.؛ Masci، J.؛ Gambardella، L.M.؛ Schmidhuber، J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (pdf). International Joint Conference on Artificial Intelligence. DOI:10.5591/978-1-57735-516-8/ijcai11-210. مؤرشف (PDF) من الأصل في 2014-09-29. اطلع عليه بتاريخ 2017-06-13.
  92. ^ Ciresan، Dan؛ Giusti، Alessandro؛ Gambardella، Luca M.؛ Schmidhuber، Jürgen (2012). Pereira، F.؛ Burges، C. J. C.؛ Bottou، L.؛ Weinberger، K. Q. (المحررون). Advances in Neural Information Processing Systems 25 (pdf). Curran Associates, Inc. ص. 2843–2851. مؤرشف (PDF) من الأصل في 2017-08-09. اطلع عليه بتاريخ 2017-06-13.
  93. ^ Ciresan، D.؛ Giusti، A.؛ Gambardella، L.M.؛ Schmidhuber، J. (2013). "Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks". Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science. ج. 7908. ص. 411–418. DOI:10.1007/978-3-642-40763-5_51. ISBN:978-3-642-38708-1. PMID:24579167. مؤرشف من الأصل في 2024-04-21. اطلع عليه بتاريخ 2024-10-08.
  94. ^ Ciresan، D.؛ Meier، U.؛ Schmidhuber، J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. ص. 3642–3649. arXiv:1202.2745. DOI:10.1109/cvpr.2012.6248110. ISBN:978-1-4673-1228-8. S2CID:2161592. مؤرشف من الأصل في 2024-09-14. اطلع عليه بتاريخ 2024-10-08.
  95. ^ Krizhevsky، Alex؛ Sutskever، Ilya؛ Hinton، Geoffrey (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (pdf). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. مؤرشف (PDF) من الأصل في 2017-01-10. اطلع عليه بتاريخ 2017-05-24.
  96. ^ Simonyan، Karen؛ Andrew، Zisserman (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  97. ^ Szegedy، Christian (2015). "Going deeper with convolutions" (PDF). Cvpr2015. arXiv:1409.4842. مؤرشف من الأصل (pdf) في 2024-09-30. اطلع عليه بتاريخ 2024-10-08.
  98. ^ Vinyals، Oriol؛ Toshev، Alexander؛ Bengio، Samy؛ Erhan، Dumitru (2014). "Show and Tell: A Neural Image Caption Generator". arXiv:1411.4555 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة).
  99. ^ Fang، Hao؛ Gupta، Saurabh؛ Iandola، Forrest؛ Srivastava، Rupesh؛ Deng، Li؛ Dollár، Piotr؛ Gao، Jianfeng؛ He، Xiaodong؛ Mitchell، Margaret؛ Platt، John C؛ Lawrence Zitnick، C؛ Zweig، Geoffrey (2014). "From Captions to Visual Concepts and Back". arXiv:1411.4952 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة).
  100. ^ Kiros، Ryan؛ Salakhutdinov، Ruslan؛ Zemel، Richard S (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models". arXiv:1411.2539 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة).
  101. ^ Simonyan، Karen؛ Zisserman، Andrew (10 أبريل 2015)، Very Deep Convolutional Networks for Large-Scale Image Recognition، arXiv:1409.1556
  102. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  103. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (10 ديسمبر 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.
  104. ^ Srivastava، Rupesh Kumar؛ Greff، Klaus؛ Schmidhuber، Jürgen (2 مايو 2015). "Highway Networks". arXiv:1505.00387 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  105. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. ص. 770–778. arXiv:1512.03385. DOI:10.1109/CVPR.2016.90. ISBN:978-1-4673-8851-1. مؤرشف من الأصل في 2024-10-07. اطلع عليه بتاريخ 2024-10-08.
  106. ^ Linn, Allison (10 Dec 2015). "Microsoft researchers win ImageNet computer vision challenge". The AI Blog (بالإنجليزية). Archived from the original on 2023-05-21. Retrieved 2024-06-29.
  107. ^ Schmidhuber، Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". Proc. SAB'1991. MIT Press/Bradford Books. ص. 222–227.
  108. ^ Schmidhuber, Jürgen (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks (بالإنجليزية). 127: 58–66. arXiv:1906.04493. DOI:10.1016/j.neunet.2020.04.008. PMID:32334341. S2CID:216056336. Archived from the original on 2024-06-10. Retrieved 2024-10-08.
  109. ^ Schmidhuber, Jürgen (Nov 1992). "Learning Factorial Codes by Predictability Minimization". Neural Computation (بالإنجليزية). 4 (6): 863–879. DOI:10.1162/neco.1992.4.6.863. S2CID:42023620. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  110. ^ Schmidhuber, Jürgen; Eldracher, Martin; Foltin, Bernhard (1996). "Semilinear predictability minimzation produces well-known feature detectors". Neural Computation (بالإنجليزية). 8 (4): 773–786. DOI:10.1162/neco.1996.8.4.773. S2CID:16154391. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  111. ^ Niemitalo، Olli (24 فبراير 2010). "A method for training artificial neural networks to generate missing data within a variable context". Internet Archive (Wayback Machine). مؤرشف من الأصل في 2012-03-12. اطلع عليه بتاريخ 2019-02-22.
  112. ^ "GANs were invented in 2010?". reddit r/MachineLearning (بالإنجليزية). 2019. Archived from the original on 2024-10-12. Retrieved 2019-05-28.
  113. ^ Li، Wei؛ Gauci، Melvin؛ Gross، Roderich (6 يوليو 2013). "Proceeding of the fifteenth annual conference on Genetic and evolutionary computation conference - GECCO '13". Proceedings of the 15th Annual Conference on Genetic and Evolutionary Computation (GECCO 2013). World Development. Amsterdam, the Netherlands: ACM. ص. 223–230. DOI:10.1145/2463372.2465801. ISBN:9781450319638. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  114. ^ Gutmann، Michael؛ Hyvärinen، Aapo. "Noise-Contrastive Estimation" (PDF). International Conference on AI and Statistics. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  115. ^ "GAN 2.0: NVIDIA's Hyperrealistic Face Generator". SyncedReview.com. 14 ديسمبر 2018. مؤرشف من الأصل في 2024-09-12. اطلع عليه بتاريخ 2019-10-03.
  116. ^ Karras، T.؛ Aila، T.؛ Laine، S.؛ Lehtinen، J. (26 فبراير 2018). "Progressive Growing of GANs for Improved Quality, Stability, and Variation". arXiv:1710.10196 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  117. ^ "Prepare, Don't Panic: Synthetic Media and Deepfakes". witness.org. مؤرشف من الأصل في 2020-12-02. اطلع عليه بتاريخ 2020-11-25.
  118. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (01 Jun 2015). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning (بالإنجليزية). PMLR. 37: 2256–2265. arXiv:1503.03585. Archived from the original (pdf) on 2024-09-21. Retrieved 2024-10-08.
  119. ^ Kramer، Arthur F.؛ Wiegmann، Douglas A.؛ Kirlik، Alex (28 ديسمبر 2006). "1 Attention: From History to Application". Attention: From Theory to Practice. Oxford University Press. DOI:10.1093/acprof:oso/9780195305722.003.0001. ISBN:978-0-19-530572-2. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  120. ^ Cherry EC (1953). "Some Experiments on the Recognition of Speech, with One and with Two Ears" (PDF). The Journal of the Acoustical Society of America. ج. 25 ع. 5: 975–79. Bibcode:1953ASAJ...25..975C. DOI:10.1121/1.1907229. hdl:11858/00-001M-0000-002A-F750-3. ISSN:0001-4966. مؤرشف من الأصل (pdf) في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  121. ^ Broadbent، D (1958). Perception and Communication. London: Pergamon Press.
  122. ^ Kowler، Eileen؛ Anderson، Eric؛ Dosher، Barbara؛ Blaser، Erik (01 يوليو 1995). "The role of attention in the programming of saccades". Vision Research. ج. 35 ع. 13: 1897–1916. DOI:10.1016/0042-6989(94)00279-U. ISSN:0042-6989. PMID:7660596. مؤرشف من الأصل في 2024-05-07. اطلع عليه بتاريخ 2024-10-08.
  123. ^ Fukushima, Kunihiko (01 Dec 1987). "Neural network model for selective attention in visual pattern recognition and associative recall". Applied Optics (بالإنجليزية). 26 (23): 4985–4992. Bibcode:1987ApOpt..26.4985F. DOI:10.1364/AO.26.004985. ISSN:0003-6935. PMID:20523477. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  124. ^ Ba، Jimmy؛ Mnih، Volodymyr؛ Kavukcuoglu، Koray (23 أبريل 2015). "Multiple Object Recognition with Visual Attention". arXiv:1412.7755 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  125. ^ Koch, Christof; Ullman, Shimon (1987), Vaina, Lucia M. (ed.), "Shifts in Selective Visual Attention: Towards the Underlying Neural Circuitry", Matters of Intelligence: Conceptual Structures in Cognitive Neuroscience (بالإنجليزية), Dordrecht: Springer Netherlands, pp. 115–141, DOI:10.1007/978-94-009-3833-5_5, ISBN:978-94-009-3833-5, Archived from the original on 2024-10-12, Retrieved 2024-08-06
  126. ^ Soydaner, Derya (Aug 2022). "Attention mechanism in neural networks: where it comes and where it goes". Neural Computing and Applications (بالإنجليزية). 34 (16): 13371–13385. DOI:10.1007/s00521-022-07366-3. ISSN:0941-0643. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  127. ^ Giles, C. Lee; Maxwell, Tom (01 Dec 1987). "Learning, invariance, and generalization in high-order neural networks". Applied Optics (بالإنجليزية). 26 (23): 4972–4978. DOI:10.1364/AO.26.004972. ISSN:0003-6935. PMID:20523475. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  128. ^ Feldman، J. A.؛ Ballard، D. H. (01 يوليو 1982). "Connectionist models and their properties". Cognitive Science. ج. 6 ع. 3: 205–254. DOI:10.1016/S0364-0213(82)80001-3. ISSN:0364-0213. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  129. ^ Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (29 Jul 1987). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (بالإنجليزية). Cambridge, Mass: Bradford Books. ISBN:978-0-262-68053-0. Archived from the original (pdf) on 2024-10-12. Retrieved 2024-10-08.
  130. ^ Schmidhuber, Jürgen (Jan 1992). "Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Networks". Neural Computation (بالإنجليزية). 4 (1): 131–139. DOI:10.1162/neco.1992.4.1.131. ISSN:0899-7667. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  131. ^ Ha، David؛ Dai، Andrew؛ Le، Quoc V. (01 ديسمبر 2016). "HyperNetworks". arXiv:1609.09106 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  132. ^ Niu، Zhaoyang؛ Zhong، Guoqiang؛ Yu، Hui (10 سبتمبر 2021). "A review on the attention mechanism of deep learning". Neurocomputing. ج. 452: 48–62. DOI:10.1016/j.neucom.2021.03.091. ISSN:0925-2312. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  133. ^ Cho، Kyunghyun؛ van Merrienboer، Bart؛ Gulcehre، Caglar؛ Bahdanau، Dzmitry؛ Bougares، Fethi؛ Schwenk، Holger؛ Bengio، Yoshua (03 يونيو 2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation". arXiv:1406.1078. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  134. ^ Sutskever، Ilya؛ Vinyals، Oriol؛ Le، Quoc Viet (14 ديسمبر 2014). "Sequence to sequence learning with neural networks". arXiv:1409.3215 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  135. ^ Vinyals، Oriol؛ Toshev، Alexander؛ Bengio، Samy؛ Erhan، Dumitru (2015). "Show and Tell: A Neural Image Caption Generator": 3156–3164. arXiv:1411.4555. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  136. ^ Xu, Kelvin; Ba, Jimmy; Kiros, Ryan; Cho, Kyunghyun; Courville, Aaron; Salakhudinov, Ruslan; Zemel, Rich; Bengio, Yoshua (01 Jun 2015). "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention". Proceedings of the 32nd International Conference on Machine Learning (بالإنجليزية). PMLR: 2048–2057. Archived from the original on 2024-10-12. Retrieved 2024-10-08.
  137. ^ ا ب Bahdanau، Dzmitry؛ Cho، Kyunghyun؛ Bengio، Yoshua (19 مايو 2016). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  138. ^ Graves، Alex؛ Wayne، Greg؛ Danihelka، Ivo (10 ديسمبر 2014). "Neural Turing Machines". arXiv:1410.5401 [cs.NE]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  139. ^ Cheng، Jianpeng؛ Dong، Li؛ Lapata، Mirella (20 سبتمبر 2016). "Long Short-Term Memory-Networks for Machine Reading". arXiv:1601.06733 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  140. ^ Parikh، Ankur P.؛ Täckström، Oscar؛ Das، Dipanjan؛ Uszkoreit، Jakob (25 سبتمبر 2016). "A Decomposable Attention Model for Natural Language Inference". arXiv:1606.01933 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  141. ^ Levy, Steven. "8 Google Employees Invented Modern AI. Here's the Inside Story". Wired (بالإنجليزية). ISSN:1059-1028. Archived from the original on 2024-03-20. Retrieved 2024-08-06.
  142. ^ Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف من الأصل (pdf) في 2024-02-21. اطلع عليه بتاريخ 2024-10-08.
  143. ^ Peng، Bo؛ Alcaide، Eric؛ Anthony، Quentin؛ Albalak، Alon؛ Arcadinho، Samuel؛ Biderman، Stella؛ Cao، Huanqi؛ Cheng، Xin؛ Chung، Michael (10 ديسمبر 2023). "RWKV: Reinventing RNNs for the Transformer Era". arXiv:2305.13048 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  144. ^ Kohonen، Teuvo (1982). "Self-Organized Formation of Topologically Correct Feature Maps". Biological Cybernetics. ج. 43 ع. 1: 59–69. DOI:10.1007/bf00337288. S2CID:206775459. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  145. ^ Kohonen، Teuvo؛ Honkela، Timo (2007). "Kohonen Network". Scholarpedia. ج. 2 ع. 1: 1568. Bibcode:2007SchpJ...2.1568K. DOI:10.4249/scholarpedia.1568. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  146. ^ Von der Malsburg، C (1973). "Self-organization of orientation sensitive cells in the striate cortex". Kybernetik. ج. 14 ع. 2: 85–100. DOI:10.1007/bf00288907. PMID:4786750. S2CID:3351573. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  147. ^ Ackley، David H.؛ Hinton، Geoffrey E.؛ Sejnowski، Terrence J. (01 يناير 1985). "A learning algorithm for boltzmann machines". Cognitive Science. ج. 9 ع. 1: 147–169. DOI:10.1016/S0364-0213(85)80012-4 (غير نشط 7 أغسطس 2024). ISSN:0364-0213. مؤرشف من الأصل في 2024-09-17. اطلع عليه بتاريخ 2024-10-08.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: وصلة دوي غير نشطة منذ 2024 (link)
  148. ^ Smolensky، Paul (1986). "Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory" (PDF). في Rumelhart، David E.؛ McLelland، James L. (المحررون). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. ص. 194–281. ISBN:0-262-68053-X.
  149. ^ Peter، Dayan؛ Hinton، Geoffrey E.؛ Neal، Radford M.؛ Zemel، Richard S. (1995). "The Helmholtz machine". Neural Computation. ج. 7 ع. 5: 889–904. DOI:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-E. PMID:7584891. S2CID:1890561. مؤرشف من الأصل في 2024-09-28. اطلع عليه بتاريخ 2024-10-08. Closed access
  150. ^ Hinton، Geoffrey E.؛ Dayan، Peter؛ Frey، Brendan J.؛ Neal، Radford (26 مايو 1995). "The wake-sleep algorithm for unsupervised neural networks". Science. ج. 268 ع. 5214: 1158–1161. Bibcode:1995Sci...268.1158H. DOI:10.1126/science.7761831. PMID:7761831. S2CID:871473. مؤرشف من الأصل في 2024-10-03. اطلع عليه بتاريخ 2024-10-08.
  151. ^ Sejnowski، Terrence J. (2018). The deep learning revolution. Cambridge, Massachusetts: The MIT Press. ISBN:978-0-262-03803-4.
  152. ^ Smolensky، P. (1986). "Information processing in dynamical systems: Foundations of harmony theory.". في D. E. Rumelhart؛ J. L. McClelland؛ PDP Research Group (المحررون). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. ج. 1. ص. 194–281. ISBN:9780262680530. اطلع عليه بتاريخ 2024-10-08.
  153. ^ Hinton، G. E.؛ Osindero، S.؛ Teh، Y. (2006). "A fast learning algorithm for deep belief nets" (PDF). Neural Computation. ج. 18 ع. 7: 1527–1554. CiteSeerX:10.1.1.76.1541. DOI:10.1162/neco.2006.18.7.1527. PMID:16764513. S2CID:2309950. مؤرشف من الأصل (pdf) في 2015-12-23. اطلع عليه بتاريخ 2024-10-08.
  154. ^ Hinton، Geoffrey (31 مايو 2009). "Deep belief networks". Scholarpedia. ج. 4 ع. 5: 5947. Bibcode:2009SchpJ...4.5947H. DOI:10.4249/scholarpedia.5947. ISSN:1941-6016. مؤرشف من الأصل في 2024-08-17. اطلع عليه بتاريخ 2024-10-08.
  155. ^ Ng، Andrew؛ Dean، Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  156. ^ Watkin، Timothy L. H.؛ Rau، Albrecht؛ Biehl، Michael (01 أبريل 1993). "The statistical mechanics of learning a rule". Reviews of Modern Physics. ج. 65 ع. 2: 499–556. Bibcode:1993RvMP...65..499W. DOI:10.1103/RevModPhys.65.499. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  157. ^ Schwarze، H؛ Hertz، J (15 أكتوبر 1992). "Generalization in a Large Committee Machine". Europhysics Letters (EPL). ج. 20 ع. 4: 375–380. Bibcode:1992EL.....20..375S. DOI:10.1209/0295-5075/20/4/015. ISSN:0295-5075. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  158. ^ Mato، G؛ Parga، N (07 أكتوبر 1992). "Generalization properties of multilayered neural networks". Journal of Physics A: Mathematical and General. ج. 25 ع. 19: 5047–5054. Bibcode:1992JPhA...25.5047M. DOI:10.1088/0305-4470/25/19/017. ISSN:0305-4470. مؤرشف من الأصل في 2024-09-14. اطلع عليه بتاريخ 2024-10-08.
  159. ^ Hansel، D؛ Mato، G؛ Meunier، C (01 نوفمبر 1992). "Memorization Without Generalization in a Multilayered Neural Network". Europhysics Letters (EPL). ج. 20 ع. 5: 471–476. Bibcode:1992EL.....20..471H. DOI:10.1209/0295-5075/20/5/015. ISSN:0295-5075. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  160. ^ Schmidhuber، Jürgen (1992). "Learning complex, extended sequences using the principle of history compression" (PDF). Neural Computation. ج. 4 ع. 2: 234–242. DOI:10.1162/neco.1992.4.2.234. S2CID:18271205. مؤرشف من الأصل (pdf) في 2023-08-27. اطلع عليه بتاريخ 2024-10-08.[وصلة مكسورة]
  161. ^ Hanson، Stephen؛ Pratt، Lorien (1988). "Comparing Biases for Minimal Network Construction with Back-Propagation". Advances in Neural Information Processing Systems. Morgan-Kaufmann. ج. 1. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  162. ^ LeCun، Yann؛ Denker، John؛ Solla، Sara (1989). "Optimal Brain Damage". Advances in Neural Information Processing Systems. Morgan-Kaufmann. ج. 2. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  163. ^ Mead، Carver A.؛ Ismail، Mohammed (8 مايو 1989). Analog VLSI Implementation of Neural Systems (PDF). The Kluwer International Series in Engineering and Computer Science. Norwell, MA: شبرينغر. ج. 80. DOI:10.1007/978-1-4613-1639-8. ISBN:978-1-4613-1639-8. مؤرشف من الأصل (pdf) في 2019-11-06. اطلع عليه بتاريخ 2024-10-08.
  164. ^ Yang، J. J.؛ Pickett، M. D.؛ Li، X. M.؛ Ohlberg، D. A. A.؛ Stewart، D. R.؛ Williams، R. S. (2008). "Memristive switching mechanism for metal/oxide/metal nanodevices". Nat. Nanotechnol. ج. 3 ع. 7: 429–433. DOI:10.1038/nnano.2008.160. PMID:18654568. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.
  165. ^ Strukov، D. B.؛ Snider، G. S.؛ Stewart، D. R.؛ Williams، R. S. (2008). "The missing memristor found". Nature. ج. 453 ع. 7191: 80–83. Bibcode:2008Natur.453...80S. DOI:10.1038/nature06932. PMID:18451858. S2CID:4367148. مؤرشف من الأصل في 2024-10-12. اطلع عليه بتاريخ 2024-10-08.