چکیده:
هدف: معرفی، دستهبندی، و نقد پژوهشها دربارۀ سیستمهای بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روششناسی: شیوهای جدید با رویکرد جداسازی، طراحی و سپس پیادهسازی شده است. برای آموزش و آزمایش سیستم، پایگاه دادهای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این دادهها برای آموزش و نیمی دیگر برای آزمایش سیستم استفاده شد. یافتهها: سیستمهای بازشناسی یا بازیابی سند چاپی فارسی از یکی از سه رویکرد مبتنی بر جداسازی، مبتنی بر شکل کلی کلمه، و رویکرد ترکیبی پیروی میکنند. این پژوهش یک سیستم مبتنی بر جداسازی پیشنهاد و پیادهسازی و نتایج ارائه شده است. نتیجهگیری: نتایج نشان میدهد نظام پیشنهادی، روش مناسبی برای پیادهسازی نظامهای بازشناسی یا بازیابی اسناد فارسی است.
Purpose: Introducing recognition systems and retrieval systems for Farsi printed document images and categorizing conducted researches with identifying strengths and weaknesses points of each category and presenting a retrieval system for Farsi printed document images in a new way. Methodology: This paper is an applied research.An application designed and implied for Farsi printed document images retrieval. A new method in segmentation approach presented and implemented. A database including 50 Farsi documents scanned in 5 fonts provided for training and testing levels. Half of this database is used for training and other half for testing. Findings: Persian printed document image recognition and retrieval systems follow one of three approaches: based on segmentation, based on sub-word shape and hybrid approach. The first approachhas received less attention dueto specific challenges. In this paper a system based on segmentation proposed and implemented and the results presented. Conclusion: Results show that proposed system is anuseful method to Implement recognition systems and retrieval systems for Farsi printed document images.
خلاصه ماشینی:
در طراحی سیستم بازشناسی یا بازیابی اسناد چاپی سه رویکرد وجود دارد: رویکرد مبتنی بر جداسازی رویکرد مبتنی بر شکل کلی ،کلمه و رویکرد ترکیبی (عزمی (۱۳۷۸) مشکل در رویکرد نخست شکستن کلمه به حروف آن است؛ از این رو تمایل به استفاده از آن کم است.
به سبب آنکه چنین کلماتی فقط به لحاظ نقطه با هم تفاوت دارند و نیز اغلب سیستمها در فرایند پردازش بدنه کلمات را بی توجه به نقطه های کلمه می شناسند، تشخیص نقطه انفصال حروف کار دشواری است به همین دلیل در این سیستمها سعی است به جای مشخص کردن یک نقطه مشخص به عنوان نقطه انفصال دو حرف، ابتدا آن را زیر حروف تشخیص میدهند؛ سیس به کمک باقی ویژگیها مانند نقطه ها، محل دقیق جداسازی را مشخص کنند.
طراحی و پیاده سازی یک سیستم بازیابی اسناد چاپی فارسی با این رویکرد، عزمی (۱۳۷۸) الگوریتمی برای جداسازی حروف بدون توجه به نوع قلم ارائه کرده است.
۱ به هر نقطه از پس زمینه تصویر کلمه یا حرف مدنظر یک کد اختصاص میدهد که متناظر با تعداد برخورد یک خط عمودی و یک خط افقی ترسیم شده از آن عزمی و کبیر (۱۳۸۳) الگوریتمی مبتنی بر شکل کلی زیر کلمات ارائه داده اند آنها نقطه با بدنه تصویر مدنظر است.
شبکه های عصبی یکی از روشهای پرکاربرد در بازشناسی نوری حروف است Reynaldo Phangtriastarefa) (2017 ,elita Tanoto & به ازای هرم دسته از زیر حرفهای یک شبکه عصبی آموزش داده شده و در مرحله تشخیص از نتایج این شبکه ها استفاده شده است.