1. مقدمه و اهداف پروژه
هدف کلی:
تبدیل فایلهای کتابهای درسی به زبان فارسی (PDF) به فرمت JSON به گونهای که محتوای متنی، عناوین، زیرعناوین، تصاویر، جداول و سایر عناصر صفحه (از جمله مواردی که صفحات ممکن است چند عنوان داشته باشند) به صورت دقیق استخراج و ساختاردهی شود.
اهداف جزئی:
استخراج دقیق متنها با حفظ فونتهای فارسی و قالببندی اصلی (عنوانها، زیرعنوانها، پاراگرافها)
شناسایی و استخراج جداول و تصاویر موجود در صفحات
مدیریت مواردی که چند عنوان در یک صفحه وجود دارد
تولید خروجی JSON استاندارد و قابل پردازش برای استفاده در پلتفرمهای آموزشی.
2. شرایط و ویژگیهای فایلهای ورودی
ویژگیهای فایلهای PDF:
زبان: فارسی (استفاده از فونتهای فارسی)
ساختار صفحات: صفحات دارای چند عنوان و یا سرفصل
حضور تصاویر و جداول به صورت تزئینی و اطلاعاتی
قالببندی: ممکن است قالببندی متنی پیچیدهای داشته باشند (ترکیب متن با تصاویر، چند ستون و ...)
3. محیط و زبان توسعه
زبان برنامهنویسی Python :نسخه 3.8 یا بالاتر
محیط توسعه: استفاده از محیطهای مجازی مانند virtualenv یا conda
سیستم کنترل نسخه Git: برای مدیریت تغییرات کد
4. ابزارها و کتابخانههای مورد استفاده
4.1. استخراج متن و اطلاعات از PDF
PyPDF2 یا pdfminer.six: برای استخراج متن از فایلهای PDF
pdfplumber: برای استخراج دقیقتر اطلاعات صفحهبندی، جداول و تصاویر
Camelot یا Tabula-py: برای استخراج جداول موجود در فایلهای PDF
Tesseract OCR با پشتیبانی از زبان فارسی
4.2. پردازش و پاکسازی متن
regex (کتابخانه re): برای شناسایی الگوهای متنی، عناوین و جداکردن بخشهای مختلف
Pandas: جهت سازماندهی دادههای استخراجشده (اختیاری)
Hugging Face Transformers (در صورت نیاز به مدلهای NLP برای بهبود استخراج عناوین و سرفصلها)
Hazm یا Parsivar: کتابخانههای پردازش زبان فارسی برای برچسبگذاری و تقسیمبندی دقیقتر متنها.
4.3. تبدیل و ساختاردهی خروجی
کتابخانه json (Python Standard Library): برای تبدیل دادهها به فرمت JSON استاندارد
argparse: جهت ایجاد اسکریپتهای خط فرمان جهت پذیرش ورودیهای داینامیک (مثلاً مسیر فایل ورودی، الگوی خروجی و …)
پشتیبانی از زبان فارسی: اطمینان از اینکه تمامی پردازشهای متنی، از جمله شناسایی عناوین و سرفصلها، متناسب با ویژگیهای زبان فارسی (فونتها، علامتهای نگارشی و …) انجام شود.
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.