فئات اللغويات

تشمل الفئات اللغويات

اللغويات المعجمية: هي جزء من الكلام مثل الاسم، حروف الجر…إلخ.
اللغويات النحوية: مفهوم مشابه يمكن ان يشمل ايضًا على فئات الجمل الفعلية.
اللغويات القواعدية: صفات قواعدية مثل الأزمنة، تذكير أو تأنيث (الجنس النحوي)…إلخ.

تعريف الفئات اللغويات هي الاهتمام الكبير بنظريات اللغوية وهكذا، تعريفات وتسميات الفئات تتغير بناءًا على اختلاف إطار العمل النظري والأسس القواعدية في اللغات المختلفة. تقسم بالعادة الفئات اللغوية إلى لغويات معجمية ولغويات حاسوبية، والمعالجة الطبيعية للغة، ولسانيات المتون (علم متانة اللغة)، وإدارة المصطلحات. في لغويات المعرفية قد قيل إن فئات اللغويات تتبع هيكل النموذج الأولي مثل تلك الفئات الخاصة بالكلمات الشائعة في اللغة.^[1]

قوائم جرد الفئات اللغوية

لتسهيل التوافق بين المورد المعجمي والشروح اللغوية وأدوات التوضيح ولتعامل المنهجي مع الفئات اللغوية عبر مختلف الإطارات النظرية. عدد من قوائم الجرد اللغوية طورت واستخدمت بالفعل على النحو المبين تاليًا. الهدف العملي من قوائم الجرد التقييم الكمي (بنسبة لبعض القوائم) أو لتدريب أدوات معالجة اللغات الطبيعية أو لتسهيل التقويم اللغوي أو الاستعلام أو التعليق التوضيحي لبيانات اللغة. على المستوى النظري قد فُرض وجود تصنيفات عالمية في لغة الإنسان مثل القواعد العالمية ولكن تم انتقادها بشدة.

تصريف أجزاء الكلام

بالعادة يتم تدريس في العديد من المدارس أنه يوجد 9 أقسام للكلام في اللغة الإنجليزية على نحو التالي: الأسماء، الافعال، صفات، ضمائر، حروف جر، ظروف، حروف العطف، المداخلة، أداة تعريف. لكن هناك عدد أكبر من الفئات والفئات الفرعية. بالنسبة للأسماء يمكن تمييز بين صيغ الجمع والملكية والمفرد. في العديد من اللغات تصنف الكلمات بناءً على حالتهم (وظيفتهم مثل فاعل، مفعول به...إلخ)، والتذكير والتأنيث (الجنس النحوي) وهكذا. بينما تصنف الأفعال بناءً على الزمن النحوي واشياء أخرى. في بعض الأنظمة اختلاف التصريف لنفس الجذر يعطي أقسام مختلفة من الكلام، فنحصل على عدد كبير من الكلمات.^[2] في حين تستخدم أنظمة أخرى عدد اقل من العلامات وتتجاهل الاختلافات أو تعتبرها منفصلة عن أقسام الكلام. في وضع العلامات على اجزاء الكلام بواسطة الحاسوب من المعتاد أن تميز بين 50 ل 150 جزء مختلف من الكلام. تم العمل بواسطة تصنيف أقسام الكلام على تشكيلة من اللغات. عادة تصميم العلامات لتشمل الفروق المورفولوجية الصريحة، على رغم من ذلك قد يؤدي إلى تكون تناقضات مثل الحالة النحوية لضمير لكن ليس لأسم في اللغة الإنجليزية، والكثير في مختلف اللغات. يمكن ان تكون عدد العلامات للغات شديدة التصريف مثل اليونانية واللاتينية كبيرا جدًا، الكلمات المصرفة في لغات إلصاقه مثل لغة الايونيت افتراضيًا مستحيلة. عُمل على نظرية تصادفية لتصريف اللغة اليونانية العامية المختلطة (ديروز 1990)، استخدام أكثر من 1000 جزء من الكلام ووجد أن الكلمات كانت غامضة في تلك اللغة كما في الإنجليزية. يتم التعبير عن الواصف الصرفي في اللغات الغنية تشكليا بشكل شائع باستخدام فن الاستذكار القصير جدًا. أشهر مجموعة علامات لتصريف POS للغة الإنجليزية هو مجموعة Penn، تم تطويرها من قبل مشروع بن تريبانك.

مخطوطات شرح متعدد اللغات

في لغات غرب أوروبا تم تطوير مخطوطات شرح قابلة لتطبيق لغويًا لأقسام الكلام، والبنية المعرفية، والبنية النحوية باستخدام إرشادات EAGLES. كان «مجموعة الخبراء الاستشارية المعني بمعايير هندسة اللغة» (EAGLES) مبادرة ��ن المفوضية الأوروبية تم تنفيذها من ضمن برنامج DG XIII Linguistic Research an Engineering من 1994 ل 1998 بتنسيق مع اتحاد ابحاث بيزا، إيطاليا. توفر إرشادات EAGLES الإرشادات التوصيفية لتستخدم مع الأصول النصية، خصوصًا لتحديد الخصائص ذات العلاقة في اللغويات الحاسوبية وعلم المعاجم. تعاونت العديد من الشركات ومراكز البحوث والجامعات والهيئات المهنية في جميع انحاء الاتحاد الأوروبي لإنتاج إرشادات EAGLES التي وضعت توصيات للمعايير الواقعية وقواعد أفضل للممارسة مثل The essentials of EAGLES:

موارد لغوية واسعة النطاق (مثل مجموعة النصوص والمعاجم الحاسوبية ومجموعات الكلام).
وسائل التلاعب بهذه المعرفة، من خلال تشكيلات اللغوية الحاسوبية ولغات التصريف وأدوات البرمجيات المختلفة.
وسائل تقييم وتقدير الموارد، والأدوات والمنتجات.

لاحقًا ألهمت EAGLES العديد من المناطق المختلفة للعمل مثل شرق أوروبا.^[3]

بعد جيل، بدأ جهد مماثل من قبل مجتمع البحث تحت مظلة التبعيات العالمية. بيتروف وآخرون.^[4]^[5] اقترحوا مجموعة علامات «عالمية»، ولكنها اختزالية للغاية، مع 12 فئة (على سبيل المثال، لا توجد أنواع فرعية من الأسماء، والأفعال، وعلامات الترقيم، وما إلى ذلك؛ ولا يوجد تمييز بين «إلى (to)» كعلامة المصدر مقابل حرف الجر... إلخ). بعد ذلك، تم استكمال ذلك بمواصفات متعددة اللغات لبناء جملة التبعية (تبعيات ستانفورد)^[6] والمواد الأدبية في سياق التبعيات العالمية.^[7] مشروع تعاوني دولي لإنشاء مخطط شجري لغات العالم مع شروح قابلة للتطبيق لغويًا («عالمية») لأجزاء من الكلام، وبناء جملة التبعية، و (اختياريًا) السمات الصرفية. التطبيقات الأساسية هي المعالجة الآلية للنصوص في مجال معالجة اللغة الطبيعية (NLP) والبحث في بناء جملة اللغة الطبيعية وقواعدها، لا سيما ضمن التصنيف اللغوي. ترجع جذور مخططات الشرح إلى ثلاث مشاريع ذات صلة، يستخدم مخطط الشرح في الولايات المتحدة تمثيلًا في شكل الاشجار التبعية بدل عن هيكل الأشجار. اعتبارًا من فبراير 2019، كان هناك ما يزيد قليلاً عن 100 مخطط شجري من أكثر من 70 لغة متاحة في قائمة UD.^[8] الهدف الأساسي للمشروع هو تحقيق الاتساق اللغوي للتعليق التوضيحي. ومع ذلك، يُسمح بالامتدادات الخاصة باللغة بالسمات الصرفية (يمكن أن تقدم اللغات أو الموارد الفردية ميزات إضافية). في شكل أكثر تقييدًا، يمكن توسيع علاقات التبعية مع تسمية ثانوية مصاحبة لتسمية UD. لقد ألهمت التبعيات العالمية جهودًا مماثلة في مجالات التشكل التصريفات^[9] ودلالات الإطار^[10] والمرجع.^[11] بالنسبة إلى بناء جملة، لا يبدو أن هناك جهدًا مشابهًا، ولكن تم تطبيق مواصفات Penn Treebank على مجموعة واسعة من اللغات، على سبيل المثال:^[12] الأيسلندية،^[13] والإنجليزية القديمة،^[14] والإنجليزية الوسطى،^[15] والألمانية الوسطى الدنيا،^[16] والألمانية الحديثة المبكرة العليا،^[17] واليديشية،^[18] والبرتغالية،^[19] واليابانية،^[20] والعربية،^[21] والصينية.^[22]

مصطلح الحاشية بين السطور

في علم اللغويات، الحاشية (التعليقات) بين السطور هي (سلسلة من التفسيرات الموجزة، مثل التعريفات أو النطق) موضوعة بين السطور مثل بين سطر من النص الأصلي وترجمته إلى لغة أخرى. عند الحاشية يكتسب كل سطر من النص الأصلي سطرًا واحدًا أو أكثر من النسخ المعروف باسم نص بين السطور أو نص الحاشية بين السطور (IGT) – جملة قصيرة. تساعد هذه التعليقات القارئ على متابعة العلاقة بين النص المصدر وترجمته، وهيكل اللغة الأصلية.

المصادر

^ John R Taylor (1995) Linguistic Categorization: Prototypes in Linguistic Theory, 2nd ed., ch.2 p.21
^ "Universal POS tags". universaldependencies.org. مؤرشف من الأصل في 2022-06-10. اطلع عليه بتاريخ 2022-06-27.
^ Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, H. J., & Tufis, D. (1998, August). Multext-east: Parallel and comparable corpora and lexicons for six central and eastern european languages. In Proceedings of the 17th international conference on Computational linguistics-Volume 1 (pp. 315-319). Association for Computational Linguistics. نسخة محفوظة 2022-10-03 على موقع واي باك مشين.
^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1104.2086.
^ Petrov، Slav (11 أبريل 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ "Stanford Dependencies". nlp.stanford.edu. The Stanford Natural Language Processing Group. مؤرشف من الأصل في 2022-01-04. اطلع عليه بتاريخ 2020-05-08.
^ "Interset". cuni.cz. Institute of Formal and Applied Linguistics (Czech Republic). مؤرشف من الأصل في 2022-01-21. اطلع عليه بتاريخ 2020-05-08.
^ "Universal Dependencies". universaldependencies.org. مؤرشف من الأصل في 2022-04-15. اطلع عليه بتاريخ 2020-05-14.
^ UniMorph. "UniMorph: Universal Morphological Annotation". UniMorph. مؤرشف من الأصل في 2022-04-02. اطلع عليه بتاريخ 2020-05-14.
^ System-T/UniversalPropositions، System-T، 14 مايو 2020، مؤرشف من الأصل في 2021-10-05، اطلع عليه بتاريخ 2020-05-14
^ Prange, J., Schneider, N., & Abend, O. (2019, August). Semantically Constrained Multilayer Annotation: The Case of Coreference. In Proceedings of the First International Workshop on Designing Meaning Representations (pp. 164-176). نسخة محفوظة 2021-01-14 على موقع واي باك مشين.
^ "Penn Parsed Corpora of Historical English: Other Corpora". www.ling.upenn.edu. مؤرشف من الأصل في 2021-07-25. اطلع عليه بتاريخ 2022-06-27.
^ "Icelandic Parsed Historical Corpus (IcePaHC)". www.linguist.is. مؤرشف من الأصل في 2022-06-06. اطلع عليه بتاريخ 2020-05-14.
^ Warner، Anthony Department of Language and Linguistic Science University of York York؛ Taylor، Ann؛ Warner، Anthony؛ Pintzuk، Susan؛ Beths، Frank (2003-09). "The York-Toronto-Helsinki Parsed Corpus of Old English prose (YCOE)". مؤرشف من الأصل في 20 يونيو 2022. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة) وتحقق من التاريخ في: |تاريخ= (مساعدة)
^ "Penn-Helsinki Parsed Corpus of Middle English 2". www.ling.upenn.edu. مؤرشف من الأصل في 2022-04-30. اطلع عليه بتاريخ 2022-06-27.
^ "Corpus of Historical Low German – Corpus of Historical Low German" (بالإنجليزية الأمريكية). Archived from the original on 2022-06-03. Retrieved 2022-06-27.
^ Light, C., & Wallenberg, J. (2011). On the use of passives across Germanic. Presented at 13th Meeting of the Diachronic Generative Syntax (DIGS) Conference DIGS 13, University of Pennsylvania. June 5, 2011 نسخة محفوظة 2022-02-10 على موقع واي باك مشين.
^ Beatrice (1993). Jiddisch als gemischte OV/VO-Sprache. Wiesbaden: VS Verlag für Sozialwissenschaften. ص. 230–245. ISBN:978-3-531-12422-3. مؤرشف من الأصل في 2022-10-03.
^ "Projeto Tycho Brahe". www.tycho.iel.unicamp.br. مؤرشف من الأصل في 2022-01-20. اطلع عليه بتاريخ 2022-06-27.
^ "NPCMJ – Ninjal Parsed Corpus of Modern Japanese" (بالإنجليزية الأمريكية). Archived from the original on 2022-04-30. Retrieved 2020-05-14.
^ "Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis) - Linguistic Data Consortium". catalog.ldc.upenn.edu (بالإنجليزية). Archived from the original on 2022-01-10. Retrieved 2022-06-27.
^ "Penn Chinese Treebank Project". verbs.colorado.edu. مؤرشف من الأصل في 2022-05-14. اطلع عليه بتاريخ 2022-06-27.

.

[Taylor1995p21-1] John R Taylor (1995) Linguistic Categorization: Prototypes in Linguistic Theory, 2nd ed., ch.2 p.21

[universal-2] "Universal POS tags". universaldependencies.org. مؤرشف من الأصل في 2022-06-10. اطلع عليه بتاريخ 2022-06-27.

[3] Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, H. J., & Tufis, D. (1998, August). Multext-east: Parallel and comparable corpora and lexicons for six central and eastern european languages. In Proceedings of the 17th international conference on Computational linguistics-Volume 1 (pp. 315-319). Association for Computational Linguistics. نسخة محفوظة 2022-10-03 على موقع واي باك مشين.

[4] A bot will complete this citation soon. Click here to jump the queue أرخايف:1104.2086.

[5] Petrov، Slav (11 أبريل 2011). "A Universal Part-of-Speech Tagset". arXiv:1104.2086 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[6] "Stanford Dependencies". nlp.stanford.edu. The Stanford Natural Language Processing Group. مؤرشف من الأصل في 2022-01-04. اطلع عليه بتاريخ 2020-05-08.

[7] "Interset". cuni.cz. Institute of Formal and Applied Linguistics (Czech Republic). مؤرشف من الأصل في 2022-01-21. اطلع عليه بتاريخ 2020-05-08.

[8] "Universal Dependencies". universaldependencies.org. مؤرشف من الأصل في 2022-04-15. اطلع عليه بتاريخ 2020-05-14.

[9] UniMorph. "UniMorph: Universal Morphological Annotation". UniMorph. مؤرشف من الأصل في 2022-04-02. اطلع عليه بتاريخ 2020-05-14.

[10] System-T/UniversalPropositions، System-T، 14 مايو 2020، مؤرشف من الأصل في 2021-10-05، اطلع عليه بتاريخ 2020-05-14

[11] Prange, J., Schneider, N., & Abend, O. (2019, August). Semantically Constrained Multilayer Annotation: The Case of Coreference. In Proceedings of the First International Workshop on Designing Meaning Representations (pp. 164-176). نسخة محفوظة 2021-01-14 على موقع واي باك مشين.

[12] "Penn Parsed Corpora of Historical English: Other Corpora". www.ling.upenn.edu. مؤرشف من الأصل في 2021-07-25. اطلع عليه بتاريخ 2022-06-27.

[13] "Icelandic Parsed Historical Corpus (IcePaHC)". www.linguist.is. مؤرشف من الأصل في 2022-06-06. اطلع عليه بتاريخ 2020-05-14.

[14] Warner، Anthony Department of Language and Linguistic Science University of York York؛ Taylor، Ann؛ Warner، Anthony؛ Pintzuk، Susan؛ Beths، Frank (2003-09). "The York-Toronto-Helsinki Parsed Corpus of Old English prose (YCOE)". مؤرشف من الأصل في 20 يونيو 2022. {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة) وتحقق من التاريخ في: |تاريخ= (مساعدة)

[15] "Penn-Helsinki Parsed Corpus of Middle English 2". www.ling.upenn.edu. مؤرشف من الأصل في 2022-04-30. اطلع عليه بتاريخ 2022-06-27.

[16] "Corpus of Historical Low German – Corpus of Historical Low German" (بالإنجليزية الأمريكية). Archived from the original on 2022-06-03. Retrieved 2022-06-27.

[17] Light, C., & Wallenberg, J. (2011). On the use of passives across Germanic. Presented at 13th Meeting of the Diachronic Generative Syntax (DIGS) Conference DIGS 13, University of Pennsylvania. June 5, 2011 نسخة محفوظة 2022-02-10 على موقع واي باك مشين.

[18] Beatrice (1993). Jiddisch als gemischte OV/VO-Sprache. Wiesbaden: VS Verlag für Sozialwissenschaften. ص. 230–245. ISBN:978-3-531-12422-3. مؤرشف من الأصل في 2022-10-03.

[19] "Projeto Tycho Brahe". www.tycho.iel.unicamp.br. مؤرشف من الأصل في 2022-01-20. اطلع عليه بتاريخ 2022-06-27.

[20] "NPCMJ – Ninjal Parsed Corpus of Modern Japanese" (بالإنجليزية الأمريكية). Archived from the original on 2022-04-30. Retrieved 2020-05-14.

[21] "Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis) - Linguistic Data Consortium". catalog.ldc.upenn.edu (بالإنجليزية). Archived from the original on 2022-01-10. Retrieved 2022-06-27.

[22] "Penn Chinese Treebank Project". verbs.colorado.edu. مؤرشف من الأصل في 2022-05-14. اطلع عليه بتاريخ 2022-06-27.

[1]