جمعآوری اطلاعات از سایت mommypoppins با استفاده از Scrapy
در تهران
در وبسایت کارلنسر(4 روز پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری: پروژهای
مهارتهای مورد نیاز:
برنامه نویسی
api
استخراج داده
کد نویسی
اسکرپینگ
web scraping
web scrapping
scraping
data scraping
جمع اوری اطلاعات
بازه حقوق:از 400,000 تا 1,000,000 تومان
نحوه پرداخت:پروژهای
متن کامل آگهی:
این پروژه با هدف جمعآوری اطلاعات از سایت و با استفاده از کتابخانه Scrapy در پایتون و با رعایت ساختار استاندارد پروژههای Scrapy طراحی شده است.
جزئیات پروژه:
هدف: استخراج اطلاعات مربوط به فعالیتهای مختلف از سایت https://mommypoppins.com/ با استفاده از API جستجوی سایت.
دادههای مورد نیاز:
نام فعالیت
وبسایت
موقعیت مکانی
توضیحات
هزینه کلاس
محدوده سنی
شماره تماس
عکس
ویدیو
سایر اطلاعات مرتبط (در صورت وجود ذخیره در فیلد جیسون به صورت key:value)
نکته: در صورتی که هر یک از فیلدهای فوق برای یک فعالیت موجود نباشد، فیلد مربوطه در خروجی خالی باشد و رکورد حذف نشود.
ساختار پروژه:
Spider:
مسئول پیمایش صفحات وب و استخراج اطلاعات اولیه.
استفاده از API جستجوی سایت mommypoppins برای یافتن فعالیتها بر اساس کلمات کلیدی.
استخراج اطلاعات از صفحات فعالیتها با استفاده از CSS selectors.
Item Pipeline:
پردازش دادههای استخراج شده توسط Spider.
پاکسازی دادهها (مانند حذف کاراکترهای اضافی).
اعتبارسنجی دادهها (مانند بررسی نوع داده و قالب).
ذخیره سازی دادهها در قالب ساختار یافته (مانند CSV یا JSON).
Data Model:
تعریف مدلهای دادهای با استفاده از scrapy.Item برای مشخص کردن ساختار دادههای استخراج شده و فیلدهای مورد نیاز.
ویژگیهای خزنده:
مدیریت محدودیت نرخ درخواست (rate limiting) برای جلوگیری از مسدود شدن توسط سایت.
مدیریت خطاها برای جلوگیری از وقفه در فرآیند جمعآوری دادهها.
تحویل پروژه:
کد منبع کامل پروژه Scrapy با ساختار استاندارد (شامل spider، pipeline و مدل داده).
فایلهای دادهای حاوی اطلاعات جمعآوری شده در قالب CSV یا JSON.
فایل requirements.txt حاوی لیست کتابخانههای مورد نیاز.
مستندات مربوط به نحوه اجرای خزنده و استفاده از دادهها.
مهارتهای مورد نیاز:
تسلط بر زبان برنامهنویسی پایتون.
تجربه کار با کتابخانه Scrapy و آشنایی با ساختار استاندارد پروژههای Scrapy.
آشنایی با HTML و CSS و روشهای استخراج اطلاعات با استفاده از CSS selectors.
آشنایی با API ها و روشهای کار با آنها.
توانایی درک و پیادهسازی منطق وب اسکرپینگ.
توانایی حل مسئله و مدیریت خطاها.
اطلاعات اضافی:
لطفاً نمونه کارهای قبلی خود در زمینه وب اسکرپینگ با استفاده از Scrapy را ارائه دهید.
نکات:
نمونه صفحه مورد نظر برای crawl کردن https://mommypoppins.com/philadelphia-kids/19-best-free-toddler-music-fun-music-classes-storytimes-and-singalongs
عموما این سایت در قالب مقاله یک سری فعالیت اخر هفته و یا کلاس برای یک محدوده لوکیشن پیشنهاد می دهد که هر مقاله شامل چندین لینک به صفحه جزییات کلاس پیشنهادی است. در نهایت باید جزییات هر کدام از کلاس ها و یا کمپ های پیشنهادی ذخیره شود
این پروژه نیازمند رعایت قوانین و محدودیتهای سایت mommypoppins است.
اطلاعات جمعآوری شده فقط برای مقاصد تحقیقاتی و غیر تجاری استفاده خواهد شد.
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.