تشخیص خودکار هویت نویسندۀ متن در زبان فارسی براساس دستور نقش‌گرای نظام‌مند

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دکتری زبان‌شناسی، گروه زبان‌شناسی، دانشکده ادبیات فارسی و زبان‎های خارجه، دانشگاه علامه طباطبایی، تهران، ایران

2 دانشیار گروه زبان‌شناسی، دانشکده ادبیات فارسی و زبان‎های خارجه، دانشگاه علامه طباطبایی، تهران، ایران

3 استادیار گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران

4 استادیار گروه آموزش مترجمی زبان انگلیسی، واحد کرج، دانشگاه آزاد اسلامی، کرج، ایران.

چکیده

تشخیص خودکار هویت نویسندۀ متن یکی از مسائل مهم زبان‌شناسی حقوقی تلقی می‌شود. در پژوهش حاضر تلاش می‌شود کارایی ویژگی‌های مبتنی‌بر مفاهیم دستور نقش‌گرای نظام‌مند هالیدی (هالیدی و متیسن، 2014) با کارایی واژ‎ه‌های دستوری در تشخیص هویت نویسنده مقایسه شود. به این منظور، در ابتدا، پیکره‌ای از آثار هفت نویسندۀ معاصر ایرانی گردآوری شد. در مرحلۀ دوم، از واژه‌های دستوری استخراج‌شده از پیکره فهرستی تهیه شد؛ به‌علاوه، یک مجموعة واژگان براساس شبکۀ نظام حروف ربط، شبکۀ نظام افزودۀ وجه و شبکۀ نظام افزودۀ نگرشی با استفاده از منابع زبانی تهیه شد. سپس بسامد نسبی واژه‌های دستوری و ویژگی‌های مبتنی‌بر دستور نقش‌گرای نظام‌مند در هر متن محاسبه شد. طبقه‌بند پرسپترون چند لایه، نوعی شبکة عصبی، برای مرحلۀ آموزش سامانه به کار گرفته شد و به دقت مطلوبی در مرحلۀ ارزیابی منجر شد. بررسی نتایج ارزیابی سامانه نشان داد که روش محاسبۀ بسامد واژه‌های دستوری نسبت‌به روش مبتنی‌بر دستور نقش‌گرای نظام‌مند در تشخیص هویت نویسندۀ متون فارسی برتری دارد؛ باوجوداین، هنگامی که ویژگی‌های دستور نقش‌گرای نظام‌مند هالیدی درکنار ویژگی بسامد واژه‌های دستوری به کار روند، کارایی سامانه نسبت‌به حالتی که تنها از ویژگی بسامد واژه‌های دستوری استفاده شود، ارتقا می‌یابد.

کلیدواژه‌ها


آل‌احمد، جلال (1346). نفرین زمین. تهران: فردوس.
آل‌احمد، جلال (1350). پنج داستان. تهران: فردوس.
ابراهیمی، نادر (1374). یک عاشقانۀ آرام. تهران: روزبهان.
ابراهیمی، نادر (1399). بر جاده‌های آبی سرخ. تهران: روزبهان.
جعفری، آزیتا (1388). بررسی افزوده‎ها در زبان فارسی: براساس رویکردهای نقشی و صوری. دستور (ویژه‌نامه نامة فرهنگستان)، 5(1)، 128-155.
حسین حمه، همزه؛ علی‎اکبری، نسرین؛ کریمی، یادگار (1400). بررسی ‌وجه و وجهیت در کردی سورانی: تحلیلی نقش‌گرا. مطالعات زبان‌ها و گویش‌های غرب ایران، 9(4)، 1-23.
دولت‌آبادی، محمود (1395). روزگار سپری‌شدۀ مردم سالخورده. تهران: چشمه.
دولت‌آبادی، محمود (1401). کلیدر. چاپ 37. تهران: فرهنگ معاصر.
ساعدی، غلامحسین (1377). آشفته‌حالان بیداربخت. تهران: نگاه.
ساعدی، غلامحسین (1397). غریبه در شهر. تهران: نگاه.
شمس‎فرد، مهرنوش؛ بی‌جن‎خان، محمود (1401). پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافتههای پژوهشی. تهران: سمت.
عارفی، سمیه؛ بصیری، محمداحسان؛ روزمند، امید (1400). انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی. فنّاوری اطلاعات و ارتباطات ایران، 13(47-48)، 35-57.
علوی، بزرگ (1386). ورق‌پاره‌های زندان. تهران: نگاه.
علوی، بزرگ (1399). گیله‌مرد. تهران: نگاه.
فرهمندپور، زینب؛ نیک‎مهر، هومن؛ منصوری‎زاده، محرم؛ طبیب‎زاده، امید. (1391). یک سیستم نوین هوشمند تشخیص هویت نویسنده فارسی زبان براساس سبک نوشتاری. محاسبات نرم، 1(2)، 26-35.
گلشائی، رامین (1398). واژه‌های دستوری به‌مثابه نشانگرهای گویش فردی: رویکردی پیکره‌ای به شناسایی هویت نویسنده در زبان فارسی. جستارهای زبانی، 10(3)، 317-293.
گلشیری، هوشنگ (1350). کریستین و کید. تهران: کتاب زمان.
گلشیری، هوشنگ (1370). در ولایت هوا. استکهلم: عصر جدید.
گلشیری، هوشنگ (1400). شازده احتجاب. چاپ 18. تهران: نیلوفر.
محمود، احمد (1353). همسایه‌ها. تهران: امیرکبیر.
محمود، احمد (1381). غریبه‌ها و پسرک بومی. تهران: معین.
میرزایی، آزاده (1397). بازتعریف مفاهیم بندِ پایه و بندِ پیرو براساس رویکرد نقش‎گرا. زبان و زبان‌شناسی، 13(26)، 117-132.
میرزایی، آزاده (1400). رابطۀ قطبیت و وجهیت بندی در زبان فارسی. مطالعات زبان‌ها و گویش‌های غرب ایران، 9(1)، 113-135.
میرزایی، آزاده؛ صفری، پگاه (1394). ساختِ واژه-متن‌های تخصصی و عمومی زبان فارسی براساس بسامدگیری واژه‌های نقشی و محتوایی. مجموعه‌مقالات نخستین همایش ملّی زبان‌شناسی پیکره‌ای (صص. 175-191). تهران: نویسه ‌پارسی.