روزانه مقالات و اخبار و اسناد متنی فراوانی در محیط رقومی (دیجیتال) تولید و منتشر میشود که بررسی درونمایه این حجم گسترده اطلاعات، به آسانی امکانپذیر نخواهد بود، بلکه مشکلاتی پدید خواهد آورد. شمار فراوان متنها، گوناگونی زبانی آنها، طولهای مختلف و رمزینههای متفاوتشان، از دشواریهای کار با اسناد متنی به شمار میروند.
کارشناسان شاخههای علمی مختلف، برای حل این مشکل دست گشادهاند. برای نمونه متخصصان هوش مصنوعی، بازیابی اطلاعات، دادهکاوی و متنکاوی و مشابهیابی متون، کارهای صورت داده و به کمک دانشهای بازیابی اطلاعات برای حل این مشکلات پیشنهادهایی عرضه کردهاند. این مقاله، با نام «عنوانهای همسان»، از این مشابهیابهاست که با توجه به دادههای فراوان پایگاه مجلات «noormags» تولید و عرضه شده است.
عنوانهای همسان، خصلتی برای کشف هوشمند عنوانهای مشابه مقالههاست که به کمک ترفندهای (Technics) متنکاوی و هوش مصنوعی، در بازدید هر مقاله، مشابهترین مقالات را از دید عنوان به کاربر پیشنهاد میکند. یافتن مقالات مرتبط با هر مقاله، دغدغهای پژوهشی است که برای ساماندهی پژوهشهای فراگیر و نامکرّر در کمترین زمان، باید بدان پاسخ گفت. همچنین اصلیترین شیوه برای شناخت ارتباط مقالات با یکدیگر، بررسی الفاظ مشترک میان عنوانهای آنهاست. این ابزار از عنوان مقالات برای شناسایی ارتباط آنها با یکدیگر بهره میگیرد.
بهرهگیری از مشابهیابها برای کشف روابط پنهان دادههای متنی با یکدیگر، کاربردهای گوناگونی دارد. برخی از این کاربردها در پایگاههای خبری و برای شناسایی ارتباط خبرهای مختلف با یکدیگر رواج دارد. نمونه چنین کاربردی را در بخش اخبار پایگاه گوگل[1] یا بخش «در همین زمینه» پایگاه خبری همشهری[2] میتوان دید. این ویژگی همچنین در پایگاههای علمی گنجانده شده است که بخش «See also» دانشنامه [3]«Wikipedia»، از آن بهره میگیرد.
تنها ویژگی کاربردی در فرآیند مشابهیابی، عنوان مقالههاست، اما طراحان نورمگز کوشیدهاند که مشابهیابیها از سطح لفظ عنوان مقالات بگذرند و به معنا و موضوع آنها نزدیکتر شود. از اینرو، آزمونهای گوناگونی در بخش متنکاوی مرکز تحقیقات کامپیوتری علوم اسلامی صورت گرفت تا این گذر به شیوه بهتری صورت پذیرد. ساماندهی «لایهای از خوشهبندی معنایی کلمات»، نمونهای از ترفندها در این آزمونهاست. این ترفند به کشف بسیاری از روابط «باهمآیی کلمات» خواهد انجامید. باهمآیی دو کلمه با یکدیگر بدین معناست که حضور یکی از آن کلمات، حضور دیگری را در پی خواهد داشت. برای نمونه، با رخداد کلمهای مانند «نفت« بسیار محتمَل است که واژه «گاز» نیز به کار رود. از سوی دیگر، باهمآیی دو کلمه، نشاندهنده مشترکاتی میان آنهاست. این مشترکات در بسیاری از کلمات، خصال معنایی آنهایند. از اینرو، فرآیند خوشهبندی معنایی به کمک رابطه باهمآیی آنها امکانپذیر خواهد بود.
گفتنی است ترفندهای معمول در این ویژگی، با دیگر موتور جستجو متفاوتند و کارکردهایی دارند که خود حاصل پژوهشهای محققان بومی است. خوشهبندی کلمات و جداسازی واژگان کلیدی از دیگر واژگان و مؤثرتر کردن آنها برای محاسبات مشابهیابی، از ویژگیهای این ابزار به شمار میروند. البته این ویژگیها در دست گسترشند؛ چنانکه به خواست خدا ویژگی عنوانهای همسان در نسخههای آینده، از دقت و کیفیت بیشتری برخوردار خواهند بود.
بخش متنکاوی مرکز تحقیقات کامپیوتری علوم اسلامی امیدوار است که با عرضه این ویژگی، راه پژوهش برای محققان حوزه و دانشگاه هموارتر شود.
[1]. news.google.com.
[2]. www.hamshahrionline.ir.
یک دیدگاه