آیا تا به حال خواستهاید که صدای خود را به صدای افراد مشهور مانند صدای “جناب خان” یا “عادل فردوسی پور” تبدیل کنید یا خودتان را جای یک کاراکتر انیمه مثل “باب اسفنجی” جا بزنید؟ شاید هم به دنبال راهی هستید تا با صدای خوانندگان دیگر مثل “شجریان”، “هایده” یا “ابی” آهنگ بسازید؟ اگر پاسخ شما مثبت است، ابزار RVC (Retrieval-based Voice Conversion) قدرتمندترین و بهترین گزینهای است که میتوانید با نصب آن روی سیستم کامپیوتری خود، به صورت کاملاً رایگان و متنباز (Open Source) از آن استفاده کنید.
در این مقاله جامع، ما به بررسی عمیق هوش مصنوعی RVC، نحوه نصب آن، تبدیل صدای خود به صدای افراد دیگر، و از همه مهمتر، آموزش ساخت و آموزش مدل صوتی اختصاصی خودتان خواهیم پرداخت.
فهرست مطالب
- RVC چیست ؟
- پیشنیازهای سختافزاری و نرمافزاری
- آموزش گامبهگام نصب RVC بر روی ویندوز
- راهنمای محیط کاربری و تبهای مختلف
- تغییر صدا (Inference): چگونه صدای خود را تغییر دهیم؟
- تنظیمات پیشرفته تغییر صدا (Pitch, Algorithm, Formant)
- جداسازی صدا از موزیک (Vocal Separation)
- آموزش ساخت مدل صوتی اختصاصی (Training Voice Model)
- نکات طلایی برای افزایش کیفیت مدل
- جمعبندی
۱. ابزار هوش مصنوعی RVC چیست؟
ابزار RVC یا “تبدیل صدا مبتنی بر بازیابی”، یک تکنولوژی پیشرفته است که به شما اجازه میدهد مدلهای صوتی را آموزش داده و صدای ورودی را به صدای هدف تبدیل کنید. برخلاف بسیاری از ابزارهای پولی، این ابزار ۱۰۰٪ رایگان است و برای بسیاری از فرآیندها از جمله تغییر صدا به صدای افراد مشهور، نیازی به کارت گرافیک (GPU) قدرتمند ندارد.
نسخه دوم (RVC V2) که در این مقاله بررسی میکنیم، دارای ارتقاهای قابل توجهی نسبت به نسخه اول است. این نسخه قابلیتهای جدیدی مانند الگوریتم RMVP و تغییر فرکانس (Format Shift) را اضافه کرده است که کیفیت خروجی را به شدت افزایش میدهد.
۲. پیشنیازهای سختافزاری و نرمافزاری
قبل از دانلود، باید بدانید که دو نوع نسخه نصبی وجود دارد. انتخاب نسخه مناسب به سختافزار شما بستگی دارد:
الف) نسخه Infer (سبک)
- کاربرد: فقط برای تغییر صدا (Voice Conversion).
- قابلیت آموزش مدل: ندارد (نمیتوانید صدای جدید بسازید).
- نیاز به GPU: ندارد (تبریک به کاربرانی که کارت گرافیک Nvidia ندارند).
- حجم: حدود ۲.۵ گیگابایت.
- این نسخه برای کسانی مناسب است که فقط میخواهند صدای خود را به مدلهای موجود تبدیل کنند.
ب) نسخه Infer Train (کامل)
- کاربرد: هم تغییر صدا و هم آموزش مدلهای جدید (Training).
- نیاز به GPU: دارد (برای آموزش مدل نیاز به کارت گرافیک دارید).
- حجم: حدود ۵ گیگابایت (تقریباً دو برابر نسخه سبک).
- اگر قصد دارید صدای خودتان یا یک شخصیت خاص را به هوش مصنوعی آموزش دهید، حتماً باید این نسخه را دانلود کنید.
برای دانلود RVC ابتدا از طریق لینک فورک Mangio بسته به نیاز خود یکی از نسخه ها را دانلود کنید. در انتهای صفحه در بخش Assets، برای نصب نسخه سبک روی گزینه ای که انتهای آن INFER.bat است، و برای نصب نسخه سنگین روی گزینه ای که انتهای آن INFER_TRAIN.bat است، کلیک کنید.

۳. آموزش گامبهگام نصب RVC بر روی ویندوز
نصب RVC ممکن است در نگاه اول پیچیده به نظر برسد، اما با دنبال کردن این مراحل، به سادگی میتوانید آن را اجرا کنید.
مرحله اول: دانلود فایلها
- ابتدا باید یک پوشه جدید در کامپیوتر خود بسازید و نام آن را
RVCبگذارید تا همه چیز مرتب باشد. - از لینک گیتهاب، نسخه مورد نظر خود را دانلود کنید.
- پس از دانلود، فایل را باز کنید. این کار یک پنجره “Command Prompt” باز میکند و شروع به دانلود پکیجهای لازم میکند. توجه داشته باشید که حجم نسخه اصلی چیزی حدود ۴.۷ گیگابایت است، پس باید صبور باشید تا دانلود تمام شود.
مرحله دوم: استخراج فایلها (Unzip)
پس از اتمام دانلود، شما یک فایل با فرمت زیپ خواهید داشت.
- برای باز کردن این فایل نیاز به نرمافزار WinRAR دارید.
- فایل را باز کرده و پوشهای به نام
Mangio RVCرا مشاهده خواهید کرد. - این پوشه را در پوشه اصلی
RVCکه قبلاً ساختید، استخراج (Extract) کنید. - نکته مهم: این پوشه حاوی بیش از ۶۰,۰۰۰ فایل است! بنابراین فرآیند استخراج ممکن است چند دقیقه طول بکشد.
- پس از اتمام استخراج، میتوانید فایل
زیپاولیه را پاک کنید تا فضای دیسک آزاد شود.
مرحله سوم: اجرای برنامه
- وارد پوشه استخراج شده شوید.
- فایل
go-web.batرا پیدا کرده و روی آن دبل کلیک کنید. - با این کار، بعد از گذشت 1 الی چند دقیقه کوتاه رابط کاربری RVC نسخه ۲ به صورت خودکار در مرورگر شما باز میشود. به همین سادگی!

۴. راهنمای محیط کاربری و تبهای مختلف
پس از باز شدن برنامه در مرورگر، با چندین تب (Tab) در بالای صفحه مواجه میشوید. شناخت این تبها برای کار با نرمافزار حیاتی است:
- Model Inference: این تب اصلی برای تبدیل صدای شما به صدای دیگران است.
- Vocals Accompaniment Separation: این بخش برای جدا کردن صدای خواننده از موزیک و همچنین حذف اکو/ریورب استفاده میشود.
- Train: مهمترین بخش برای حرفهایها؛ در اینجا میتوانید مدل صوتی هوش مصنوعی خود را از صفر بسازید.
- Checkpoint Processing & Export Onnx: این بخشها برای کاربران پیشرفته است و برای پردازش چکپوینتها و خروجی گرفتن استفاده میشود که در این آموزش مقدماتی به آن نمیپردازیم.
- FAQ: بخشی که سوالات متداول و خطاهای احتمالی در آن پاسخ داده شده است.
۵. تغییر صدا (Inference): چگونه صدای خود را تغییر دهیم؟
بیایید با جذابترین بخش شروع کنیم: تبدیل صدای خودتان به شخصی دیگر، مثلا صدای “farzad farzin”.
الف) دانلود مدل صوتی
- برای تغییر صدا باید مدل صدای خود را داشته باشید که بتوانید صدای خود را به صدای مدل تغییر دهید. برای اینکار یا باید خودتان مدل صدا را ایجاد کنید یا میتوانید از مدل صداهایی که ما برای شما تهیه کرده ایم مدل صدای خود را انتخاب کنید. لیست کامل مدل های صدای ما را میتوانید از طریق این لینک مشاهده کنید.
- مدل های صدا بصورت یک فایل ZIP می باشند. فایل مورد نظر را دانلود و در پوشه weights که داخل پوشه اصلی Mangio RVC قرار دارد، کپی و سپس استخراج کنید.
نکته: در آینده شاید نیازی به اکسترکت کردن نباشد، اما فعلاً باید فایل زیپ را باز کنید و فایل با پسوند .pth را داخل پوشه weights استخراج کنید (فایل index اختیاری است).
ب) وارد کردن صدا
- فایل صوتی خود را آماده کنید (مثلاً ضبط صدای خودتان).
2. فایل صوتی خود را در پوشه audios که داخل پوشه اصلی Mangio RVC قرار دارد، کپی کنید.
ج) بارگزاری مدل در نرم افزار RVC
- به تب Model Inference در مرورگر برگردید.
- روی دکمه Refresh Voice List کلیک کنید.
- حالا در منوی کشویی باید نام “farzad farzin” را ببینید. آن را انتخاب کنید.

4. از بخش Auto detect audio path and select from the dropdown صدای خود را انتخاب کنید.

۶. تنظیمات پیشرفته تغییر صدا (Pitch, Algorithm, Formant)
برای گرفتن بهترین نتیجه، باید تنظیمات را با دقت انجام دهید.
تنظیم گام صدا (Transpose)
این تنظیم مشخص میکند که صدای خروجی چقدر زیر یا بم شود. این بخش برای تغییر جنسیت صدا حیاتی است:
- مرد به مرد (Male to Male): عدد را روی
0بگذارید. - زن به زن (Female to Female): عدد را روی
0بگذارید. - مرد به زن (Male to Female): باید پیچ صدا را افزایش دهید. معمولاً بین
+8تا+12یا بیشتر. - زن به مرد (Female to Male): باید پیچ صدا را کاهش دهید. معمولاً روی
-8یا-12تنظیم میشود.
نسبت ویژگی جستجو (Search Feature Ratio)
این گزینه تعیین میکند که هوش مصنوعی چقدر از لهجه و نوع بیان (Articulation) مدل اصلی استفاده کند.
- تنظیم روی ۰: صدا تختتر میشود و پویایی کمتری دارد.
- تنظیم روی ۱: بسیار پویا و با لهجه شدید مدل، اما ممکن است نویز و آرتیفکت ایجاد کند.
- پیشنهاد: مقدار پیشفرض
0.75معمولاً بهترین تعادل را دارد.
الگوریتم استخراج پیچ (Pitch Extraction Algorithm)
در نسخه ۲، گزینههای متعددی وجود دارد.
- گزینههای بالای لیست سریعتر اما با کیفیت پایینتر هستند.
- RMVP: این بهترین و باکیفیتترین الگوریتم موجود است، هرچند اجرای آن کمی بیشتر زمان میبرد. پیشنهاد ما همیشه انتخاب RMVP است.
ویژگی آزمایشی: Formant Shift
این یک ویژگی جدید است. اگر Formant را کاهش دهید، صدا کلفتتر و اگر افزایش دهید، صدا شبیه “Chipmunk” (سنجاب) میشود. این گزینه برای بهبود تبدیل صدای مرد به زن و برعکس کاربرد دارد، اما استفاده از آن اختیاری است.
پس از انجام تنظیمات، روی Convert کلیک کنید. فایل خروجی شما آماده است! همچنین میتوانید با استفاده از قابلیت Batch Conversion، یک پوشه کامل از فایلهای صوتی را یکجا تبدیل کنید.
۷. جداسازی صدا از موزیک (Vocal Separation)
تب Vocals Accompaniment Separation برای جدا کردن صدای خواننده از آهنگ استفاده میشود. این الگوریتم بر پایه مدل UVR5 ساخته شده است.
مراحل کار:
- فایل موزیک خود را دانلود کنید.
- مسیر فایل یا پوشه موزیک را در کادر مربوطه وارد کنید (میتوانید فایل را بکشید و رها کنید، اما اولویت با آدرس پوشه است، پس اگر مسیر پوشه پر باشد، درگ و دراپ کار نمیکند).
- انتخاب مدل:
- HP2 و HP3: اگر آهنگ هارمونی (همخوانی) زیادی ندارد، این گزینهها بهترند. HP3 وکال را بهتر حفظ میکند اما ممکن است کمی از موزیک نشت کند.
- HP5: اگر آهنگ هارمونیهای قوی و زیادی دارد، HP5 برای جدا کردن صدای خواننده اصلی بهتر عمل میکند.
- خروجی: روی Convert کلیک کنید. فایلها در پوشه
audio-outputsذخیره میشوند.
نکته عجیب: در فایلهای خروجی، فایلی که نامش “Instrument” است در واقع حاوی وکال است و فایلی که نامش “Vocal” است حاوی موزیک خالی است! به نظر میرسد منظور سازندگان این بوده که “Vocal Removed” (وکال حذف شده) و “Instrument Removed” (موزیک حذف شده)، پس به این نامگذاری دقت کنید.
۸. آموزش ساخت مدل صوتی اختصاصی (Training Voice Model)
این هیجانانگیزترین بخش RVC است. ما میخواهیم مدلی از کاراکتر “قمیشی” بسازیم.
الف) تنظیمات اولیه
- به تب Train بروید.
- Experiment Name: یک نام انتخاب کنید (مثلاً
Gura). - Pitch Guidance: اگر دیتای ورودی شما شامل آواز خواندن است، این گزینه اجباری است. اگر فقط صحبت کردن است، اختیاری است اما پیشنهاد میشود همیشه روشن باشد.
- Version: حتماً v2 را انتخاب کنید چون جدیدتر است و با پلتفرمهای دیگر سازگارتر است.
ب) آمادهسازی دادهها (Data Preparation)
- شما نیاز به نمونه صدای کاراکتر دارید. هر چه تعداد فایل های صدایی که بعنوان نمونه به هوش مصنوعی میدهید بیشتر باشد صدای مدل به صدای واقعی آن نزدیکتر است.
- بهترین حالت این است که موزیک پسزمینه را با UVR حذف کنید تا صدای خالص داشته باشید، اما اگر موزیک پسزمینه خیلی کم باشد، مشکلی ایجاد نمیکند.
- یک پوشه جدید به نام صدای مربوطه مثلا ghomeishi بسازید و فایل صوتی را در آن قرار دهید. توجه: در این پوشه هیچ فایل دیگری نباید باشد.
- آدرس این پوشه را در بخش Training Folder Path در نرمافزار وارد کنید.
- روی دکمه Process Data کلیک کنید و منتظر پیام
End Preprocessبمانید.
ج) استخراج ویژگیها (Feature Extraction)
- در این بخش، نرمافزار کارت گرافیک شما را شناسایی میکند.
- الگوریتم پیچ را روی RMVP قرار دهید (بهترین کیفیت).
- روی Feature Extraction کلیک کنید و منتظر پیام
All feature doneبمانید.
د) شروع آموزش (Start Training)
اینجا باید تعداد Epoch را تعیین کنید. Epoch به معنی تعداد دفعاتی است که مدل روی دادهها آموزش میبیند.
- تعداد Epoch مناسب: اگر دیتای کمی دارید (مثلاً ۲.۵ دقیقه)، عدد 50 مناسب است.
- هشدار: اگر تعداد Epoch را خیلی بالا ببرید (مثلاً هزاران)، مدل دچار “Overfitting” میشود و نویز و خش به صدا اضافه میشود.
تنظیمات ذخیرهسازی (Save Frequency): این گزینه تعیین میکند هر چند Epoch یکبار، مدل ذخیره شود.
- این کار برای جلوگیری از پریدن آموزش در صورت قطع برق مفید است.
- اگر Epoch کل ۵۰ است، فرکانس ذخیره را روی 25 بگذارید تا یک مدل در دور ۲۵ و یکی در دور ۵۰ ذخیره شود.
شروع:
- اگر دیتای شما کمتر از ۱۰ دقیقه است، گزینه
Cache all training setsرا تیک بزنید تا سرعت بالا برود. - روی Train Feature Index کلیک کنید.
- در نهایت روی Train Model کلیک کنید.
- در پنجره خط فرمان (CMD) میتوانید پیشرفت آموزش (Epoch 1, Epoch 2, …) را ببینید.
۹. نکات طلایی برای افزایش کیفیت مدل
بعد از اینکه پیام Final Checkpoint Success را دیدید، مدل شما آماده است و در پوشه weights قرار گرفته است.
- ادامه آموزش: اگر مدل ۵۰ دور آموزش دید و کیفیتش خوب نبود، میتوانید آموزش را از همانجا ادامه دهید. کافی است فایلهای ذخیره شده در پوشه
Logsرا در بخشهای مربوطه وارد کنید و آموزش را دوباره استارت بزنید. - تست مدل: برای تست مدل مثلا صدای زنانه و زیر روی صدای ورودی مردانه، در زمان تبدیل (Inference) حتماً Transpose را روی عددی بالا مثل +15 قرار دهید تا صدا طبیعی شود.
- خواندن آواز: شما میتوانید حتی یک آهنگ را با مدل ساخته شده بازخوانی کنید. کافیست فایل وکال خام یک آهنگ را به مدل بدهید و خروجی بگیرید.
۱۰. جمعبندی
نرمافزار RVC نسخه ۲ ابزاری شگفتانگیز، رایگان و نامحدود برای کپیبرداری صوتی و ساخت مدلهای هوش مصنوعی است. برخلاف سرویسهای آنلاین پولی، شما با نصب این برنامه به صورت لوکال، کنترل کاملی بر روی دادهها و کیفیت خروجی دارید. تنها مرحلهای که واقعاً به کارت گرافیک نیاز دارد، مرحله “آموزش” (Training) است و سایر مراحل مانند تبدیل صدا حتی با CPU هم قابل انجام است.
اکنون شما دانش کافی برای تبدیل شدن به هر شخصیتی را دارید؛ از پلانکتون گرفته تا خوانندگان محبوب. به یاد داشته باشید که کیفیت دیتای ورودی (صدای تمیز و بدون نویز) مهمترین عامل در ساخت یک مدل حرفهای است.