روزانه مقالات و اخبار و اسناد متنی فراوانی در محیط رقومی (دیجیتال) تولید و منتشر میشود که بررسی درونمایه این حجم گسترده اطلاعات، به آسانی امکانپذیر نخواهد بود، بلکه مشکلاتی پدید خواهد آورد. شمار فراوان متنها، گوناگونی زبانی آنها، طولهای مختلف و رمزینههای متفاوتشان، از دشواریهای کار با اسناد متنی به شمار میروند.
کارشناسان شاخههای علمی مختلف، برای حل این مشکل دست گشادهاند. برای نمونه متخصصان هوش مصنوعی، بازیابی اطلاعات، دادهکاوی و متنکاوی و مشابهیابی متون، کارهای صورت داده و به کمک دانشهای بازیابی اطلاعات برای حل این مشکلات پیشنهادهایی عرضه کردهاند. این مقاله، با نام «عنوانهای همسان»، از این مشابهیابهاست که با توجه به دادههای فراوان پایگاه مجلات «noormags» تولید و عرضه شده است.