تشخیص خودکار جنسیت نویسنده متن با استفاده از مدل پارس‌برت و ویژگی‌های زبانی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دکترا، گروه زبانشناسی همگانی، دانشکده ادبیات و علوم انسانی، دانشگاه بوعلی‌سینا، همدان، ایران

2 گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران.

10.22126/jlw.2025.11743.1814

چکیده

جملاتی که افراد به هنگام نوشتار استفاده می‌کنند اطلاعات ارزشمندی را دارد که می‌تواند برای شناسایی جنسیت نویسنده به‌کاربرده شود. در این میان استفاده از الگوریتم‌های یادگیری عمیق در پردازش متون زبان طبیعی به شناسایی الگوهای مخفی موجود در داده‌ها کمک می‌کنند. در این پژوهش سعی شده است تا با استفاده از تنظیم دقیق پارامترهای مدل پارس‌برت سامانه‌ای برای زبان فارسی طراحی گردد که به شناسایی جنسیت نویسنده متن بپردازد. بدین منظور با انتخاب ویژگی‌های زبانی در مورد تفاوت جنسیت افراد در متن، ابتدا یک پیکرۀ برچسب خورده با برچسب‌های جنسیتی به تعداد 5000 سند تهیه‌شد. سپس سامانه‌ای بر اساس ویژگی‌های زبانی و تعبیه‌سازی بردار طراحی‌ گردید. در ادامه نیز سامانه طراحی شده مورد ارزیابی اعتبارسنجی متقابل 10-تایی قرارگرفت . نتایج به‌دست‌آمده نشان می‌دهد که معیار-اف در سامانه طراحی‌شده، معادل با 5/76 درصد است . این روش همچنین در مقایسه با روش‌های دسته‌بندهای متداول یادگیری ماشین و همچنین در مقایسه با مدل LSTM نتایج بهتری را نشان می‌دهد. نتایج به‌دست‌آمده از مقایسه عملکرد سامانه بر روی پیکره تهیه‌شده و پیکره‌های موجود پیشین نشان از بهبود عملکرد سامانه دارد. بدین ترتیب استفاده از روش‌های نوین همچون مدل پارس‌برت و استفاده از دادگان مناسب، از دستاوردهای مهم این پژوهش است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Automatic Author Gender Identification from Text using ParsBert and Linguistic Features

نویسندگان [English]

  • Seyedeh Sareh Sadeghi 1
  • Mohammad Bahrani 2
1 Department of linguistics, Faculty of Language and humanities, Bu-Ali Sina University, Hamedan, Iran.
2 Department of Computer, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba’i University, Tehran, Iran.
چکیده [English]

The sentences that people use during writing has valuable information that can be used to identify the author's gender. Meanwhile, the use of deep learning algorithms in processing natural language helps to identify hidden patterns in the text. In this research, an attempt is made to design a system for the Persian language that identifies the gender of the author by fine-tuning the parameters of ParsBert model. For this purpose, first, a corpus labeled with gender tags of 5000 documents is prepared, and then the author's gender identification system is designed and evaluated through 10-fold cross validation. Experimental results show that the F-measure of the gender identification task is 76.5%. The proposed method is also compared to classic machine learning methods. Also it obtains the better results in compare to LSTM model. The results obtained from the comparison of the corpus prepared in this research and the corpus that is prepared in the previous research for gender identification show the improvement of the system's performance. Thus, the need to use new deep learning methods such as the ParsBert model and the use of appropriate data is the main achievements of this research.The creation of a gender-annotated corpus comprising 5000 documents has also been one of the most significant achievements of this research

کلیدواژه‌ها [English]

  • Automatic author gender identification
  • Gender tagged corpus
  • ParsBert
  • Deep Learning
  • Gender speech differences