تشخیص خودکار هویت نویسندۀ متن در زبان فارسی بر اساس دستور نقش‎گرای نظام‎مند

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه زبانشناسی، دانشکدۀ ادبیات و زبانهای خارجه، دانشگاه علامه طباطبایی، تهران، ایران

2 گروه زبانشناسی، دانشکده ادبیات فارسی و زبان‎های خارجه، دانشگاه علامه طباطبایی، تهران، ایران.

3 گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران.

4 دانشگاه آزاد اسلامی و احد کرج

چکیده

تشخیص خودکار هویت نویسندۀ متن یکی از مسائل مهم زبانشناسی حقوقی تلقی می‌شود. پژوهش حاضر تلاش دارد کارایی ویژگی‌های مبتنی بر مفاهیم دستور نقشگرای نظام‌مند هالیدی را با کارایی واژ‎ه‌های دستوری در تشخیص هویت نویسنده مقایسه نماید. در ابتدا، پیکره‌ای از آثار هفت نویسندۀ معاصر ایرانی گرداوری شد. در مرحلۀ دوم، فهرستی از واژه‌های دستوری از پیکره استخراج شد؛ به علاوه یک مجموعه واژگان بر اساس شبکۀ نظام حروف ربط، شبکۀ نظام افزودۀ وجه و شبکۀ نظام افزودۀ نگرشی با استفاده از منابع زبانی تهیه شد. سپس بسامد نسبی واژه‌های دستوری و ویژگی‌های مبتنی بر دستور نقشگرای نظام‌مند در هر متن محاسبه شد. طبقه‌بند پرسپترون چند لایه، نوعی شبکه عصبی، برای مرحلۀ آموزش سامانه به کار گرفته شد و به دقت مطلوبی در مرحلۀ ارزیابی منجر شد. بررسی نتایج ارزیابی سامانه حاکی از این است که روش محاسبۀ بسامد واژه‌های دستوری نسبت به روش مبتنی بر دستور نقشگرای نظام‌مند در تشخیص هویت نویسندۀ متون فارسی برتری دارد. در صورتی که ویژگی‌های دستور نقش‌گرای نظام‌مند هالیدی در کنار ویژگی بسامد واژه‌های دستوری به کار روند، کارایی سامانه نسبت به حالتی که تنها از ویژگی بسامد واژه‌های دستوری استفاده شود، ارتقا می‌یابد.

کلیدواژه‌ها