طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی مقاله

مطالعات کتابداری و سازماندهی اطلاعات زمستان 1398 - شماره 120 رتبه ب (وزارت علوم/ISC (‎19 صفحه - از 47 تا 65 )

کلیدواژه ها: بازشناسی اسناد چاپی بازیابی اسناد چاپی زیرکلمات زیرحروف کتابخانه دیجیتالی Digital library Printed documents recognition of Printed documents retrieval Sub words Sub letters فارسی سیستم جداسازی بازشناسی الگوریتم تصویر رویکرد

fa en

چکیده:

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی دیگر برای آزمایش سیستم استفاده شد. یافته‌ها: سیستم‌های بازشناسی یا بازیابی سند چاپی فارسی از یکی از سه رویکرد مبتنی بر جداسازی، مبتنی بر شکل کلی کلمه، و رویکرد ترکیبی پیروی می‌کنند. این پژوهش یک سیستم مبتنی بر جداسازی پیشنهاد و پیاده‌سازی و نتایج ارائه شده است. نتیجه‌گیری: نتایج نشان می‌دهد نظام پیشنهادی، روش مناسبی برای پیاده‌سازی نظام‌های بازشناسی یا بازیابی اسناد فارسی است.

خلاصه ماشینی:

در طراحی سیستم بازشناسی یا بازیابی اسناد چاپی سه رویکرد وجود دارد: رویکرد مبتنی بر جداسازی رویکرد مبتنی بر شکل کلی ،کلمه و رویکرد ترکیبی (عزمی (۱۳۷۸) مشکل در رویکرد نخست شکستن کلمه به حروف آن است؛ از این رو تمایل به استفاده از آن کم است. به سبب آنکه چنین کلماتی فقط به لحاظ نقطه با هم تفاوت دارند و نیز اغلب سیستمها در فرایند پردازش بدنه کلمات را بی توجه به نقطه های کلمه می شناسند، تشخیص نقطه انفصال حروف کار دشواری است به همین دلیل در این سیستمها سعی است به جای مشخص کردن یک نقطه مشخص به عنوان نقطه انفصال دو حرف، ابتدا آن را زیر حروف تشخیص میدهند؛ سیس به کمک باقی ویژگیها مانند نقطه ها، محل دقیق جداسازی را مشخص کنند. طراحی و پیاده سازی یک سیستم بازیابی اسناد چاپی فارسی با این رویکرد، عزمی (۱۳۷۸) الگوریتمی برای جداسازی حروف بدون توجه به نوع قلم ارائه کرده است. ۱ به هر نقطه از پس زمینه تصویر کلمه یا حرف مدنظر یک کد اختصاص میدهد که متناظر با تعداد برخورد یک خط عمودی و یک خط افقی ترسیم شده از آن عزمی و کبیر (۱۳۸۳) الگوریتمی مبتنی بر شکل کلی زیر کلمات ارائه داده اند آنها نقطه با بدنه تصویر مدنظر است. شبکه های عصبی یکی از روشهای پرکاربرد در بازشناسی نوری حروف است Reynaldo Phangtriastarefa) (2017 ,elita Tanoto & به ازای هرم دسته از زیر حرفهای یک شبکه عصبی آموزش داده شده و در مرحله تشخیص از نتایج این شبکه ها استفاده شده است.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

1386

1385

1384

1383

1382

1381

1380

1379

1378

1377

1376

1375

1374

1373

1372

1371

1370

1369

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی مقاله