1. مقدمه ای بر خلاصه سازی متن | Text Summarization:
گسترش روزافزون داده ها و اسناد متنی مانند مقاله، صفحات وب، کتاب، پست های شبکه های اجتماعی و … در اینترنت باعث ایجاد یک چالش اساسی در حوزه های مختلف پردازش متن مانند خلاصه سازی متن | Text Summarization شده است. سیستم های خلاصه سازی متن | Text Summarization به شکل گسترده در فیلدهای پردازش متن و کاربردهای تحلیلی مانند بازیابی اطلاعات، استخراج اطلاعات، سیستم های پرسش پاسخ استفاده می شود. پردازش و خلاصه سازی دستی داده های متنی در حجم زیاد، یک فرایند بسیار دشوار، پرهزینه، زمانبر و غیرممکن برای کاربران انسانی می باشد. مهمترین هدف و کاربرد سیستم های خلاصه سازی متن، تولید یک متن چکیده و کوتاه از جملات با اهمیت یک مجموعه اسناد ورودی است.
سیستم های خلاصه سازی متن | Text Summarization به کاربران این امکان را می دهد تا دسترسی سریعتری به اطلاعات اسناد ورودی بدون نیاز به خواندن تمام آن ها داشته باشند. ورودی در یک سیستم خلاصه سازی متن به دو شکل تک سندی و چند سندی می تواند وجود داشته باشد در حالت تک سندی سیستم یک توضیح کوتاه از جملات با اهمیت فقط یک سند ایجاد می کند اما در حالت چند سندی سیستم یک توضیح کوتاه از جملات با اهمیت چندین هزار سند ایجاد میکند. سیستم های خلاصه سازی متون به دو دسته استخراجی و چکیده ای تقسیم می شوند. در روش خلاصه سازی استخراجی، خلاصه نهایی یک سند متنی از جملات با اهمیت همان سند بدون هیچ نوع تغییر استخراج میگردد، در این روش امکان تکرار یکسری از جملات به شکل مکرر و تداخل ضمایر وجود دارد. اما در روش خلاصه سازی چکیدهای، خلاصه نهایی یک سند متنی از معنا و مفهوم جملات وکلمات همان سند یا سایر اسناد استخراج می گردد (در ادامه و در قسمت تشریح موضوع به تفاوت این دو روش خلاصه سازی پرداخته خواهد شد).
2. تشریح خلاصه سازی متن | Text Summarizaton :
یک سیستم خلاصه ساز خودکار متن به دو روش استخراجی و چکیده ای قابل پیاده سازی می باشد.
2.1. روش خلاصه سازی استخراجی | Extractive :
شامل مهم ترین جملات و پاراگراف های متن اصلی بدون هیچ نوع تغییری می باشد. در این روش اهمیت یک جمله بر اساس روش های آماری (tf، tfidf و …) و ویژگی زبان شناسی آن مشخص می شود.
عیوب:
- ممکن است برخی جملات و بخش های استخراج شده از متن اولیه همچنان بزرگ باشند
- ایجاد تداخل بین ضمایر و اسم ها
مزایا:
- پیچیدگی کمتری دارد
2.2. روش خلاصه سازی چکیده ای | Abstractive :
شامل مفهموم و معنای جملات متن اصلی است، بازگویی و تکرار جملات (کلمات) در این روش خیلی کمتر می باشد. معمولاً از روش های زبانشناسی و NLP برای پیدا کردن مفاهیم جدید استفاده می شود.
عیوب:
- استفاده از روش های پیچیده معنایی و الگوریتم های NLP برای تشخیص و استخراج جملات مرتبط (از لحاظ معنایی)
- عدم ارتباط ساختاری جملات کشف شده با جملات متن اصلی
مزایا:
- معایب روش اول را ندارد، پیچیدگی بیشتر
برای خلاصه سازی اسناد متنی در دو روش چکیده ای و استخراجی عموماً سه گام اصلی وجود دارد که در ادامه توضیح داده شده اند.
فرایندهای اصلی خلاصه سازی اسناد به ترتیب عبارتند از : پیش پردازش متون – شناسایی جملات با اهمیت – استخراج جملات با اهمیت که هر یک در ادامه توضیح داده شده است.
2.3. پیش پردازش متون | Text Preprocessing :
در این مرحله سیستم باید جملات سند متنی را تشخیص داده و آن ها را با کیفیت سازد. این گام تاثیر بسزایی برای کسب دقت بالا و نرخ خطای پایین در خروجی نهایی دارد.
پیش پردازش های قابل انجام در این مرحله به ترتیب:
- Sent tokenize : به منظور تشخیص جملات اسناد متنی استفاده می شود.
- Word tokenize: به منظور تشخیص کلمات تشکیل دهنده هر جمله در سند استفاده می شود.
- Stop word elimanition: به منظور تشخیص و حذف کلمات زائد و بی معنا از جمله استفاده می شود.
- Stemming : به منظور ریشه یابی ساختاری هر کلمه از جمله استفاده می شود.
- Case folding: به منظور تبدیل کلمات به یک ساختار هماهنگ استفاده می شود.
خروجی این مرحله تبدیل هر جمله از سند به یک بردار n بعدی می باشد.
2.4. پردازش متون
در این مرحله و پس از پیش پردازش، سیستم می تواند با استفاد از روش های آماری مانند (tf,tfidf,sentence length,sentence similarity,…) و معنایی (semantic similarity,NLP) همراه با الگوریتم های یادگیری ماشین به شناسایی جملات با اهمیت از متن بپردازد.
2.5. خلاصه سازی
در این مرحله جملات انتخاب شده از مراحل قبلی به عنوان خلاصه متن در خروجی نمایش داده می شوند.