نشان کن
کد آگهی: KP9470973150

استخدام کارشناس ارشد تحقیق و مهندسی داده (Data & Benchmark Engineer)

استخدام کارشناس ارشد تحقیق و مهندسی داده (Data & Benchmark Engineer) - خانه هوش ایران | Iran Ai House
خانه هوش ایران | Iran Ai House
در تهران
در وبسایت جابینجا  (چند ساعت پیش)
اطلاعات شغل:
نوع همکاری:  تمام‌وقت
مهارت‌های مورد نیاز:
شناسایی
Guideline
پرداخت‌ها:  توافقی
متن کامل آگهی:


طراحی و پیاده‌سازی چرخه‌ی کامل داده برای آموزش یک Foundation Document Model end-to-end روی اسناد متنوع

 ساخت مجموعه‌داده‌های ساخت‌یافته، متنوع و باکیفیت همراه با test set و بنچمارک‌های استاندارد برای ارزیابی مدل‌های end-to-end روی سناریوهای واقعی.

شرح وظایف

1. شناسایی و جمع‌آوری داده

  • شناسایی، جمع‌آوری و سازماندهی انواع داده‌های سندمحور از منابع مختلف
  •  مستندسازی دقیق منبع داده، شرایط ثبت (زاویه، نور، دستگاه)، و متادیتا برای استفاده در تحلیل و بنچمارک.
2. طراحی ساختار دیتاست، دسته‌بندی و برچسب‌زنی

  • تعریف اسکیما و طبقه‌بندی داده‌ها بر اساس:
    • نوع محیط (Classroom, Meeting Room, Conference Hall, etc.)
    • نوع سطح نوشتار (Whiteboard, Glass Board, Flip Chart, Screen, Paper, …)
    • نوع منبع (Camera, Scanner, Screen Capture)
    • سطح پیچیدگی و میزان شلوغی صحنه (text density, clutter, occlusion).
  • طراحی استراتژی برچسب‌زنی برای مدل‌های end-to-end:
    • برچسب‌های ساختاری: بلاک‌های متن، تیتر، جدول، شکل، ناحیه‌ی تخته، ناحیه‌ی اسلاید.
    • برچسب‌های معنایی: نوع محتوا عنوان اسلاید، متن آموزشی، فرمول، نمودار، (bullet list).
    • برچسب‌های چندلایه مشابه دیتاست‌هایی مثل HierText و سایر دیتاست‌های گوگل‌ریسرچ (برای الهام از ساختار، نه کپی).
    • طراحی فرمت‌های annotation مناسب برای مدل‌های end-to-end به‌جای فقط bounding box ساده.
  • انتخاب، ارزیابی و مدیریت ابزارهای برچسب‌زنی:
    • ابزارهای labeling مبتنی بر وب/دسکتاپ (Label Studio)، CVAT، ابزارهای داخلی و ….
  • طراحی guideline دقیق برای annotatorها:
    • چگونه تخته، اسلاید، مانیتور، متن دست‌نویس، متن چاپی و عناصر حاشیه‌ای را برچسب بزنند.
    • نحوه‌ی نشانه‌گذاری سناریوهای چندمنبعی (whiteboard + projector + display).
3. طراحی بنچمارک و test set

  • طراحی test setهای تخصصی برای سنجش توان مدل
  • تعریف پروتکل بنچمارک:
    • متریک‌ها برای ارزیابی (end-to-end) از تصویر تا خروجی ساختاریافته.
    • تفکیک بنچمارک بر اساس domain (Classroom / Meeting / Mixed).
    • طراحی split حرفه‌ای (train / val / test) با رعایت diversity و جلوگیری از (shortcut learning) مثلاً عدم وابستگی به ویژگی‌های سطحی مانند فقط رنگ پس‌زمینه یا نوع دستگاه.
    • الهام و هم‌تراز کردن ساختار بنچمارک با دیتاست‌های معتبر متن-در-تصویر و اسناد (برای امکان مقایسه‌ی علمی در آینده).
4. کنترل کیفیت، فیلترینگ و پردازش تصویر

  • طراحی و پیاده‌سازی pipeline پردازش تصویر برای:
    • پاک‌سازی و استانداردسازی داده‌ها  resize)، normalizing، (cropping  هوشمند، حذف نویز شدید.
    • اعمال فیلترینگ بر اساس معیارهای تصویر blur)، exposure، (compression artifacts
    • پیاده‌سازی و تست انواع فیلترهای تصویری و تکنیک‌های کامپیوتری گرافیک برای بهبود کیفیت یا شبیه‌سازی شرایط واقعی  noise) motion blur، (perspective distortion
  • استفاده از معیارهای کمی برای انتخاب داده‌های با ارزش:
    • شناخت مفاهیمی مانند diversity، sample complexity، و اجتناب از bias.
  • طراحی استراتژی جلوگیری از shortcut learning
  • پیشنهاد و پیاده‌سازی روش‌های augmentation معنادار برای سناریوهای واقعی 
    • شبیه‌سازی reflection روی مانیتور، نور پروژکتور، سایه‌ی نفرات، لکه روی تخته، دست‌نویس نامنظم و …
5. شناخت بنچمارک‌ها و مدل‌های end-to-end

  • آشنایی عمیق با بنچمارک‌ها و دیتاست‌های مرجع
  • دیتاست‌های چندسطحی و اسناد پیچیده.
  • شناخت معماری‌ها و رویکردهای end-to-end
  • مدل‌هایی که از «تصویر تا layout + متن + ساختار» را یکجا یاد می‌گیرند.
  • رابطه‌ی نوع annotation با نوع مدل (two-stage vs end-to-end).
  • کمک به طراحی بنچمارک داخلی برای سنجش Foundation Document Model در مقابل این استانداردها.
6 . همکاری بین‌تیمی و مستندسازی

  • همکاری نزدیک با:
    • تیم تحقیق (Model / Algorithm) برای هم‌راستا کردن نیازهای داده با طراحی معماری.
    • تیم مهندسی (MLOps / Data Engineer) برای پیاده‌سازی پایپ‌لاین‌های مقیاس‌پذیر.
  • مستندسازی کامل:
    • guideline برچسب‌زنی.
    • طراحی بنچمارک، splitها و متریک‌ها.
    • نسخه‌بندی دیتاست‌ها و تغییرات آن‌ها در طول زمان.
  • مهارت‌های فنی ضروری (Must-have)
  • تسلط خوب روی Python برای اسکریپت‌نویسی پردازش تصویر و مدیریت داده.
  • تسلط بر مباحث آمار و احتمالات، جبر خطی و هندسه ترسیمی
  • آشنایی عملی با پردازش تصویر:
    • کار با کتابخانه‌هایی مانند OpenCV (یا مشابه)، مفاهیم فیلترهای مکانی/فرکانسی، آشنایی با blur، sharpening، thresholding، edge detection و …
  • درک مفاهیم پایه‌ای گرافیک کامپیوتری:
    • transformهای هندسی (rotation, perspective, homography)
    • مفاهیم display، projection، رزولوشن، aspect ratio.
    • شناخت مفاهیم کلیدی در یادگیری عمیق برای مدل‌های end-to-end:
    • اهمیت diversity در داده و نقش آن در generalization.
    • آشنایی با augmentation و توانایی طراحی augmentation مسئله‌محور.
  • آشنایی با بنچمارک‌ها و دیتاست‌های مهم در حوزه:
    • scene text / document understanding.
  • آشنایی کلی با ساختار دیتاست‌های بزرگ (مثلاً دیتاست‌هایی که برای متن در تصویر و اسناد استفاده می‌شوند) و شکل annotation آن‌ها.
  • تجربه‌ی عملی با ابزارهای برچسب‌زنی:
    • کار با حداقل یک ابزار annotation حرفه‌ای (مثلاً CVAT، Label Studio یا ابزار مشابه).
    • توانایی تعریف template و guideline برای annotatorها.
    • توانایی طراحی و مدیریت test set:
    • تعریف splitهای منطقی، سناریوهای edge-case، و طراحی بنچمارک برای end-to-end.
    • مهارت‌های ترجیحی (Nice-to-have)
    • آشنایی با معماری‌های OCR، scene text detection/recognition، و مدل‌های Document Foundation / VLM.
    • تجربه‌ی کار با دیتاست‌های public در حوزه‌ی اسناد و متن در تصویر.
    • آشنایی با مفاهیم research (پروتکل آزمایش، ablation study، تحلیل خطا).
    • تجربه‌ی کار در تیم‌های تحقیقاتی یا محصول‌محور مرتبط با بینایی کامپیوتر یا NLP.
    • مهارت‌های نرم (Soft Skills)
    • دقت بالا در جزئیات و حساسیت نسبت به کیفیت annotation.
    • توانایی فکر کردن سیستمی و طراحی فرایند
    • مهارت مستندسازی روشن و منظم.

این آگهی از وبسایت جابینجا پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت جابینجا برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
سه‌شنبه 10 دی 1404، ساعت 07:52