ما به دنبال یک مهندس هوش مصنوعی توانمند در حوزه گفتار هستیم تا به تیم تحقیق و توسعه ما بپیوندد. شما در این نقش بر روی مدلهای تبدیل متن به گفتار (TTS)، تشخیص احساسات صوتی (SER) و یکپارچهسازی مدلهای صوتی در چارچوبهای یادگیری عمیق و مدلهای زبان بزرگ چندوجهی (Multimodal LLMs) کار خواهید کرد. توانایی درک عمیق از دادههای صوتی، طراحی مدلهای پیشرفته و تسلط بر ابزارهای مدرن یادگیری ماشین، از ویژگیهای کلیدی این نقش است.
الزامات تخصصی: تسلط کامل به مفاهیم یادگیری ماشین و یادگیری عمیق
تجربه عملی در توسعه مدلهای TTS و SER
مهارت در کار با دادههای صوتی و پردازش سیگنال گفتار
تسلط به یکی از فریمورکهای یادگیری مانند PyTorch یا TensorFlow
تجربه کار با فریمورکهای پیشرفته صوتی و یادگیری عمیق مانند:
ESPnet
SpeechBrain
NVIDIA NeMo
OpenVoice
درک صحیح از معماری مدلهای مولد گفتار و ارزیابی کیفیت صوت
آشنایی با مدلهای زبان بزرگ چندوجهی متن باز (Multimodal LLMs)
مزیتهای ترجیحی: آشنایی با معماریهای Transformer و مدلهای diffusion-based در گفتار
تجربه در استفاده از مدلهای LLM چندوجهی با ورودی صوتی
آشنایی با ابزارهای استقرار و توسعه نظیر FastAPI، TorchServe و Docker
تجربه آموزش مدلها بر روی GPU و سرورهای محاسباتی توزیعشده
آشنایی با ابزارهای A/B Testing و مانیتورینگ عملکرد مدلWe are looking for an expert artificial engineer in the field of speech AI to join our research and development team. This role will work on text -to -text -to -speech (TTS) models, audio emotion detection (SER) and integration of audio models in deep learning frameworks and MultiModal LLMS. The ability to deeply understand the audio data, design advanced models, and master the modern machine learning tools are key features of this role.
Specialized requirements: Full mastery of machine learning concepts and deep learning
Practical experience in developing TTS and SER models
Skill in work with audio data and speech signal processing
Mastered one of the learning frameworks like PyTorch or Tensorflow
Experience work with advanced voice frames and deep learning like:
ESPnet
SpeechBrain
NVIDIA NEMO
OpenVoice
A correct understanding of the architecture of speech -producing models and audio quality evaluation
Introduction to MultiModal LLMS Multi -Language Models
Preferred advantages: Introduction to Transformer Architects and Diffusion-Based Models in Speech
Experience in using multicolored LLM models with audio input
Introduction to Deployment and Development Tools such as FastApi, Torchserve and Docker
Experience of Models Training on GPU and distributed computing servers
Introduction to A/B testing tools and model performance monitor
این آگهی از وبسایت ایران تلنت پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت ایران تلنت برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.