نشان کن
کد آگهی: KP4658241179

تبدیل فایل pdf به فرمت json با پایتون

در فارس
در وبسایت کارلنسر  (چند ساعت پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
برنامه نویسی
پردازش زبان طبیعی
پایتون
متخصص هوش مصنوعی
ai
python
کد نویسی
بازه حقوق:  از 2,500,000 تا 6,000,000 تومان
نحوه پرداخت:  پروژه‌ای
متن کامل آگهی:
1. مقدمه و اهداف پروژه هدف کلی: تبدیل فایل‌های کتاب‌های درسی به زبان فارسی (PDF) به فرمت JSON به گونه‌ای که محتوای متنی، عناوین، زیرعناوین، تصاویر، جداول و سایر عناصر صفحه (از جمله مواردی که صفحات ممکن است چند عنوان داشته باشند) به صورت دقیق استخراج و ساختاردهی شود. اهداف جزئی: استخراج دقیق متن‌ها با حفظ فونت‌های فارسی و قالب‌بندی اصلی (عنوان‌ها، زیرعنوان‌ها، پاراگراف‌ها) شناسایی و استخراج جداول و تصاویر موجود در صفحات مدیریت مواردی که چند عنوان در یک صفحه وجود دارد تولید خروجی JSON استاندارد و قابل پردازش برای استفاده در پلتفرم‌های آموزشی. 2. شرایط و ویژگی‌های فایل‌های ورودی ویژگی‌های فایل‌های PDF: زبان: فارسی (استفاده از فونت‌های فارسی) ساختار صفحات: صفحات دارای چند عنوان و یا سرفصل حضور تصاویر و جداول به صورت تزئینی و اطلاعاتی قالب‌بندی: ممکن است قالب‌بندی متنی پیچیده‌ای داشته باشند (ترکیب متن با تصاویر، چند ستون و ...) 3. محیط و زبان توسعه زبان برنامه‌نویسی Python :نسخه 3.8 یا بالاتر محیط توسعه: استفاده از محیط‌های مجازی مانند virtualenv یا conda سیستم کنترل نسخه Git: برای مدیریت تغییرات کد 4. ابزارها و کتابخانه‌های مورد استفاده 4.1. استخراج متن و اطلاعات از PDF PyPDF2 یا pdfminer.six: برای استخراج متن از فایل‌های PDF pdfplumber: برای استخراج دقیق‌تر اطلاعات صفحه‌بندی، جداول و تصاویر Camelot یا Tabula-py: برای استخراج جداول موجود در فایل‌های PDF Tesseract OCR با پشتیبانی از زبان فارسی 4.2. پردازش و پاک‌سازی متن regex (کتابخانه re): برای شناسایی الگوهای متنی، عناوین و جداکردن بخش‌های مختلف Pandas: جهت سازماندهی داده‌های استخراج‌شده (اختیاری) Hugging Face Transformers (در صورت نیاز به مدل‌های NLP برای بهبود استخراج عناوین و سرفصل‌ها) Hazm یا Parsivar: کتابخانه‌های پردازش زبان فارسی برای برچسب‌گذاری و تقسیم‌بندی دقیق‌تر متن‌ها. 4.3. تبدیل و ساختاردهی خروجی کتابخانه json (Python Standard Library): برای تبدیل داده‌ها به فرمت JSON استاندارد argparse: جهت ایجاد اسکریپت‌های خط فرمان جهت پذیرش ورودی‌های داینامیک (مثلاً مسیر فایل ورودی، الگوی خروجی و …) پشتیبانی از زبان فارسی: اطمینان از اینکه تمامی پردازش‌های متنی، از جمله شناسایی عناوین و سرفصل‌ها، متناسب با ویژگی‌های زبان فارسی (فونت‌ها، علامت‌های نگارشی و …) انجام شود.

این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت کارلنسر برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
پنج‌شنبه 18 بهمن 1403، ساعت 11:57