راهنمای جامع تغییر صدا با هوش مصنوعی RVC بصورت کاملا رایگان

آیا تا به حال خواسته‌اید که صدای خود را به صدای افراد مشهور مانند صدای “جناب خان” یا “عادل فردوسی پور” تبدیل کنید یا خودتان را جای یک کاراکتر انیمه مثل “باب اسفنجی” جا بزنید؟ شاید هم به دنبال راهی هستید تا با صدای خوانندگان دیگر مثل “شجریان”، “هایده” یا “ابی” آهنگ بسازید؟ اگر پاسخ شما مثبت است، ابزار RVC (Retrieval-based Voice Conversion) قدرتمندترین و بهترین گزینه‌ای است که می‌توانید با نصب آن روی سیستم کامپیوتری خود، به صورت کاملاً رایگان و متن‌باز (Open Source) از آن استفاده کنید.

در این مقاله جامع، ما به بررسی عمیق هوش مصنوعی RVC، نحوه نصب آن، تبدیل صدای خود به صدای افراد دیگر، و از همه مهم‌تر، آموزش ساخت و آموزش مدل صوتی اختصاصی خودتان خواهیم پرداخت.

فهرست مطالب

RVC چیست ؟
پیش‌نیازهای سخت‌افزاری و نرم‌افزاری
آموزش گام‌به‌گام نصب RVC بر روی ویندوز
راهنمای محیط کاربری و تب‌های مختلف
تغییر صدا (Inference): چگونه صدای خود را تغییر دهیم؟
تنظیمات پیشرفته تغییر صدا (Pitch, Algorithm, Formant)
جداسازی صدا از موزیک (Vocal Separation)
آموزش ساخت مدل صوتی اختصاصی (Training Voice Model)
نکات طلایی برای افزایش کیفیت مدل
جمع‌بندی

۱. ابزار هوش مصنوعی RVC چیست؟

ابزار RVC یا “تبدیل صدا مبتنی بر بازیابی”، یک تکنولوژی پیشرفته است که به شما اجازه می‌دهد مدل‌های صوتی را آموزش داده و صدای ورودی را به صدای هدف تبدیل کنید. برخلاف بسیاری از ابزارهای پولی، این ابزار ۱۰۰٪ رایگان است و برای بسیاری از فرآیندها از جمله تغییر صدا به صدای افراد مشهور، نیازی به کارت گرافیک (GPU) قدرتمند ندارد.

نسخه دوم (RVC V2) که در این مقاله بررسی می‌کنیم، دارای ارتقاهای قابل توجهی نسبت به نسخه اول است. این نسخه قابلیت‌های جدیدی مانند الگوریتم RMVP و تغییر فرکانس (Format Shift) را اضافه کرده است که کیفیت خروجی را به شدت افزایش می‌دهد.

۲. پیش‌نیازهای سخت‌افزاری و نرم‌افزاری

قبل از دانلود، باید بدانید که دو نوع نسخه نصبی وجود دارد. انتخاب نسخه مناسب به سخت‌افزار شما بستگی دارد:

الف) نسخه Infer (سبک)

کاربرد: فقط برای تغییر صدا (Voice Conversion).
قابلیت آموزش مدل: ندارد (نمی‌توانید صدای جدید بسازید).
نیاز به GPU: ندارد (تبریک به کاربرانی که کارت گرافیک Nvidia ندارند).
حجم: حدود ۲.۵ گیگابایت.
این نسخه برای کسانی مناسب است که فقط می‌خواهند صدای خود را به مدل‌های موجود تبدیل کنند.

ب) نسخه Infer Train (کامل)

کاربرد: هم تغییر صدا و هم آموزش مدل‌های جدید (Training).
نیاز به GPU: دارد (برای آموزش مدل نیاز به کارت گرافیک دارید).
حجم: حدود ۵ گیگابایت (تقریباً دو برابر نسخه سبک).
اگر قصد دارید صدای خودتان یا یک شخصیت خاص را به هوش مصنوعی آموزش دهید، حتماً باید این نسخه را دانلود کنید.

برای دانلود RVC ابتدا از طریق لینک فورک Mangio بسته به نیاز خود یکی از نسخه ها را دانلود کنید. در انتهای صفحه در بخش Assets، برای نصب نسخه سبک روی گزینه ای که انتهای آن INFER.bat است، و برای نصب نسخه سنگین روی گزینه ای که انتهای آن INFER_TRAIN.bat است، کلیک کنید.

۳. آموزش گام‌به‌گام نصب RVC بر روی ویندوز

نصب RVC ممکن است در نگاه اول پیچیده به نظر برسد، اما با دنبال کردن این مراحل، به سادگی می‌توانید آن را اجرا کنید.

مرحله اول: دانلود فایل‌ها

ابتدا باید یک پوشه جدید در کامپیوتر خود بسازید و نام آن را RVC بگذارید تا همه چیز مرتب باشد.
از لینک گیت‌هاب، نسخه مورد نظر خود را دانلود کنید.
پس از دانلود، فایل را باز کنید. این کار یک پنجره “Command Prompt” باز می‌کند و شروع به دانلود پکیج‌های لازم می‌کند. توجه داشته باشید که حجم نسخه اصلی چیزی حدود ۴.۷ گیگابایت است، پس باید صبور باشید تا دانلود تمام شود.

مرحله دوم: استخراج فایل‌ها (Unzip)

پس از اتمام دانلود، شما یک فایل با فرمت زیپ خواهید داشت.

برای باز کردن این فایل نیاز به نرم‌افزار WinRAR دارید.
فایل را باز کرده و پوشه‌ای به نام Mangio RVC را مشاهده خواهید کرد.
این پوشه را در پوشه اصلی RVC که قبلاً ساختید، استخراج (Extract) کنید.
نکته مهم: این پوشه حاوی بیش از ۶۰,۰۰۰ فایل است! بنابراین فرآیند استخراج ممکن است چند دقیقه طول بکشد.
پس از اتمام استخراج، می‌توانید فایل زیپ اولیه را پاک کنید تا فضای دیسک آزاد شود.

مرحله سوم: اجرای برنامه

وارد پوشه استخراج شده شوید.
فایل go-web.bat را پیدا کرده و روی آن دبل کلیک کنید.
با این کار، بعد از گذشت 1 الی چند دقیقه کوتاه رابط کاربری RVC نسخه ۲ به صورت خودکار در مرورگر شما باز می‌شود. به همین سادگی!

۴. راهنمای محیط کاربری و تب‌های مختلف

پس از باز شدن برنامه در مرورگر، با چندین تب (Tab) در بالای صفحه مواجه می‌شوید. شناخت این تب‌ها برای کار با نرم‌افزار حیاتی است:

Model Inference: این تب اصلی برای تبدیل صدای شما به صدای دیگران است.
Vocals Accompaniment Separation: این بخش برای جدا کردن صدای خواننده از موزیک و همچنین حذف اکو/ریورب استفاده می‌شود.
Train: مهم‌ترین بخش برای حرفه‌ای‌ها؛ در اینجا می‌توانید مدل صوتی هوش مصنوعی خود را از صفر بسازید.
Checkpoint Processing & Export Onnx: این بخش‌ها برای کاربران پیشرفته است و برای پردازش چک‌پوینت‌ها و خروجی گرفتن استفاده می‌شود که در این آموزش مقدماتی به آن نمی‌پردازیم.
FAQ: بخشی که سوالات متداول و خطاهای احتمالی در آن پاسخ داده شده است.

۵. تغییر صدا (Inference): چگونه صدای خود را تغییر دهیم؟

بیایید با جذاب‌ترین بخش شروع کنیم: تبدیل صدای خودتان به شخصی دیگر، مثلا صدای “farzad farzin”.

الف) دانلود مدل صوتی

برای تغییر صدا باید مدل صدای خود را داشته باشید که بتوانید صدای خود را به صدای مدل تغییر دهید. برای اینکار یا باید خودتان مدل صدا را ایجاد کنید یا میتوانید از مدل صداهایی که ما برای شما تهیه کرده ایم مدل صدای خود را انتخاب کنید. لیست کامل مدل های صدای ما را میتوانید از طریق این لینک مشاهده کنید.
مدل های صدا بصورت یک فایل ZIP می باشند. فایل مورد نظر را دانلود و در پوشه weights که داخل پوشه اصلی Mangio RVC قرار دارد، کپی و سپس استخراج کنید.

نکته: در آینده شاید نیازی به اکسترکت کردن نباشد، اما فعلاً باید فایل زیپ را باز کنید و فایل با پسوند .pth را داخل پوشه weights استخراج کنید (فایل index اختیاری است).

ب) وارد کردن صدا

فایل صوتی خود را آماده کنید (مثلاً ضبط صدای خودتان).

2. فایل صوتی خود را در پوشه audios که داخل پوشه اصلی Mangio RVC قرار دارد، کپی کنید.

ج) بارگزاری مدل در نرم افزار RVC

به تب Model Inference در مرورگر برگردید.
روی دکمه Refresh Voice List کلیک کنید.
حالا در منوی کشویی باید نام “farzad farzin” را ببینید. آن را انتخاب کنید.

4. از بخش Auto detect audio path and select from the dropdown صدای خود را انتخاب کنید.

۶. تنظیمات پیشرفته تغییر صدا (Pitch, Algorithm, Formant)

برای گرفتن بهترین نتیجه، باید تنظیمات را با دقت انجام دهید.

تنظیم گام صدا (Transpose)

این تنظیم مشخص می‌کند که صدای خروجی چقدر زیر یا بم شود. این بخش برای تغییر جنسیت صدا حیاتی است:

مرد به مرد (Male to Male): عدد را روی 0 بگذارید.
زن به زن (Female to Female): عدد را روی 0 بگذارید.
مرد به زن (Male to Female): باید پیچ صدا را افزایش دهید. معمولاً بین +8 تا +12 یا بیشتر.
زن به مرد (Female to Male): باید پیچ صدا را کاهش دهید. معمولاً روی -8 یا -12 تنظیم می‌شود.

نسبت ویژگی جستجو (Search Feature Ratio)

این گزینه تعیین می‌کند که هوش مصنوعی چقدر از لهجه و نوع بیان (Articulation) مدل اصلی استفاده کند.

تنظیم روی ۰: صدا تخت‌تر می‌شود و پویایی کمتری دارد.
تنظیم روی ۱: بسیار پویا و با لهجه شدید مدل، اما ممکن است نویز و آرتیفکت ایجاد کند.
پیشنهاد: مقدار پیش‌فرض 0.75 معمولاً بهترین تعادل را دارد.

الگوریتم استخراج پیچ (Pitch Extraction Algorithm)

در نسخه ۲، گزینه‌های متعددی وجود دارد.

گزینه‌های بالای لیست سریع‌تر اما با کیفیت پایین‌تر هستند.
RMVP: این بهترین و باکیفیت‌ترین الگوریتم موجود است، هرچند اجرای آن کمی بیشتر زمان می‌برد. پیشنهاد ما همیشه انتخاب RMVP است.

ویژگی آزمایشی: Formant Shift

این یک ویژگی جدید است. اگر Formant را کاهش دهید، صدا کلفت‌تر و اگر افزایش دهید، صدا شبیه “Chipmunk” (سنجاب) می‌شود. این گزینه برای بهبود تبدیل صدای مرد به زن و برعکس کاربرد دارد، اما استفاده از آن اختیاری است.

پس از انجام تنظیمات، روی Convert کلیک کنید. فایل خروجی شما آماده است! همچنین می‌توانید با استفاده از قابلیت Batch Conversion، یک پوشه کامل از فایل‌های صوتی را یکجا تبدیل کنید.

۷. جداسازی صدا از موزیک (Vocal Separation)

تب Vocals Accompaniment Separation برای جدا کردن صدای خواننده از آهنگ استفاده می‌شود. این الگوریتم بر پایه مدل UVR5 ساخته شده است.

مراحل کار:

فایل موزیک خود را دانلود کنید.
مسیر فایل یا پوشه موزیک را در کادر مربوطه وارد کنید (می‌توانید فایل را بکشید و رها کنید، اما اولویت با آدرس پوشه است، پس اگر مسیر پوشه پر باشد، درگ و دراپ کار نمی‌کند).
انتخاب مدل:
- HP2 و HP3: اگر آهنگ هارمونی (هم‌خوانی) زیادی ندارد، این گزینه‌ها بهترند. HP3 وکال را بهتر حفظ می‌کند اما ممکن است کمی از موزیک نشت کند.
- HP5: اگر آهنگ هارمونی‌های قوی و زیادی دارد، HP5 برای جدا کردن صدای خواننده اصلی بهتر عمل می‌کند.
خروجی: روی Convert کلیک کنید. فایل‌ها در پوشه audio-outputs ذخیره می‌شوند.

نکته عجیب: در فایل‌های خروجی، فایلی که نامش “Instrument” است در واقع حاوی وکال است و فایلی که نامش “Vocal” است حاوی موزیک خالی است! به نظر می‌رسد منظور سازندگان این بوده که “Vocal Removed” (وکال حذف شده) و “Instrument Removed” (موزیک حذف شده)، پس به این نام‌گذاری دقت کنید.

۸. آموزش ساخت مدل صوتی اختصاصی (Training Voice Model)

این هیجان‌انگیزترین بخش RVC است. ما می‌خواهیم مدلی از کاراکتر “قمیشی” بسازیم.

الف) تنظیمات اولیه

به تب Train بروید.
Experiment Name: یک نام انتخاب کنید (مثلاً Gura).
Pitch Guidance: اگر دیتای ورودی شما شامل آواز خواندن است، این گزینه اجباری است. اگر فقط صحبت کردن است، اختیاری است اما پیشنهاد می‌شود همیشه روشن باشد.
Version: حتماً v2 را انتخاب کنید چون جدیدتر است و با پلتفرم‌های دیگر سازگارتر است.

ب) آماده‌سازی داده‌ها (Data Preparation)

شما نیاز به نمونه صدای کاراکتر دارید. هر چه تعداد فایل های صدایی که بعنوان نمونه به هوش مصنوعی میدهید بیشتر باشد صدای مدل به صدای واقعی آن نزدیکتر است.
بهترین حالت این است که موزیک پس‌زمینه را با UVR حذف کنید تا صدای خالص داشته باشید، اما اگر موزیک پس‌زمینه خیلی کم باشد، مشکلی ایجاد نمی‌کند.
یک پوشه جدید به نام صدای مربوطه مثلا ghomeishi بسازید و فایل صوتی را در آن قرار دهید. توجه: در این پوشه هیچ فایل دیگری نباید باشد.
آدرس این پوشه را در بخش Training Folder Path در نرم‌افزار وارد کنید.
روی دکمه Process Data کلیک کنید و منتظر پیام End Preprocess بمانید.

ج) استخراج ویژگی‌ها (Feature Extraction)

در این بخش، نرم‌افزار کارت گرافیک شما را شناسایی می‌کند.
الگوریتم پیچ را روی RMVP قرار دهید (بهترین کیفیت).
روی Feature Extraction کلیک کنید و منتظر پیام All feature done بمانید.

د) شروع آموزش (Start Training)

اینجا باید تعداد Epoch را تعیین کنید. Epoch به معنی تعداد دفعاتی است که مدل روی داده‌ها آموزش می‌بیند.

تعداد Epoch مناسب: اگر دیتای کمی دارید (مثلاً ۲.۵ دقیقه)، عدد 50 مناسب است.
هشدار: اگر تعداد Epoch را خیلی بالا ببرید (مثلاً هزاران)، مدل دچار “Overfitting” می‌شود و نویز و خش به صدا اضافه می‌شود.

تنظیمات ذخیره‌سازی (Save Frequency): این گزینه تعیین می‌کند هر چند Epoch یک‌بار، مدل ذخیره شود.

این کار برای جلوگیری از پریدن آموزش در صورت قطع برق مفید است.
اگر Epoch کل ۵۰ است، فرکانس ذخیره را روی 25 بگذارید تا یک مدل در دور ۲۵ و یکی در دور ۵۰ ذخیره شود.

شروع:

اگر دیتای شما کمتر از ۱۰ دقیقه است، گزینه Cache all training sets را تیک بزنید تا سرعت بالا برود.
روی Train Feature Index کلیک کنید.
در نهایت روی Train Model کلیک کنید.
در پنجره خط فرمان (CMD) می‌توانید پیشرفت آموزش (Epoch 1, Epoch 2, …) را ببینید.

۹. نکات طلایی برای افزایش کیفیت مدل

بعد از اینکه پیام Final Checkpoint Success را دیدید، مدل شما آماده است و در پوشه weights قرار گرفته است.

ادامه آموزش: اگر مدل ۵۰ دور آموزش دید و کیفیتش خوب نبود، می‌توانید آموزش را از همان‌جا ادامه دهید. کافی است فایل‌های ذخیره شده در پوشه Logs را در بخش‌های مربوطه وارد کنید و آموزش را دوباره استارت بزنید.
تست مدل: برای تست مدل مثلا صدای زنانه و زیر روی صدای ورودی مردانه، در زمان تبدیل (Inference) حتماً Transpose را روی عددی بالا مثل +15 قرار دهید تا صدا طبیعی شود.
خواندن آواز: شما می‌توانید حتی یک آهنگ را با مدل ساخته شده بازخوانی کنید. کافیست فایل وکال خام یک آهنگ را به مدل بدهید و خروجی بگیرید.

۱۰. جمع‌بندی

نرم‌افزار RVC نسخه ۲ ابزاری شگفت‌انگیز، رایگان و نامحدود برای کپی‌برداری صوتی و ساخت مدل‌های هوش مصنوعی است. برخلاف سرویس‌های آنلاین پولی، شما با نصب این برنامه به صورت لوکال، کنترل کاملی بر روی داده‌ها و کیفیت خروجی دارید. تنها مرحله‌ای که واقعاً به کارت گرافیک نیاز دارد، مرحله “آموزش” (Training) است و سایر مراحل مانند تبدیل صدا حتی با CPU هم قابل انجام است.

اکنون شما دانش کافی برای تبدیل شدن به هر شخصیتی را دارید؛ از پلانکتون گرفته تا خوانندگان محبوب. به یاد داشته باشید که کیفیت دیتای ورودی (صدای تمیز و بدون نویز) مهم‌ترین عامل در ساخت یک مدل حرفه‌ای است.

وبلاگ