o
    ´‹
jº<  ã                   @   s¬  d dl mZ d dlmZ d dlZd dlZd dlZd dlZ	d dlm
Z
mZ ddddddœdededed	ed
edejfdd„Zddddœdedededeeef fdd„Zdd„ Zdd„ Zddddœdejdededejfdd„Zddddœdejdededejfdd „Zd!d"œdejd#edejfd$d%„Zdd!d&œdejd#edejfd'd(„Zdd)œd*ejd+ejdejfd,d-„Zddd.œd/ejd+ejdejfd0d1„Zdd2œd3ejdejfd4d5„Zddd6œd3ejdejfd7d8„Zd9d:œd*ejd;edejfd<d=„Zdd9d>œd/ejd;edejfd?d@„ZdddddAdBdCdDœdEejdedFedGedHedIedJedejfdKdL„ZddddBdCdMœdEejdFedGedIedJedejfdNdO„Z ddPdQœd*ejdejfdRdS„Z!dddTdUœdejdFedVedeeef fdWdX„Z"dddddddAdCdYœdejdZed[edFedGeded\edJedejfd]d^„Z#dEejdejfd_d`„Z$ddaddbdddcœd3ejddededededefdedf„Z%ddddddgœd3ejdeddedGedFedejfdhdi„Z&ddjd&œdejd#edejfdkdl„Z'ddmdnœd3ejdoedejfdpdq„Z(dmdrœdejdoedejfdsdt„Z)ddTduœdvededwedejfdxdy„Z*dddzœd3ejd{ededdfd|d}„Z+d3ejd~edejfdd€„Z,d~edejfdd‚„Z-dejdejfdƒd„„Z.dejd…edejfd†d‡„Z/dejfdˆd‰„Z0dS )Šé    )ÚBytesIO)ÚTupleN)ÚmagphaseÚpyin)Úsample_rateÚfft_sizeÚnum_melsÚmel_fmaxÚmel_fminr   r   r   r	   r
   Úreturnc                 K   s>   |dur|| d ksJ ‚|| dksJ ‚t jj| ||||dS )zXBuild melspectrogram basis.

    Returns:
        np.ndarray: melspectrogram basis.
    Né   r   )ÚsrÚn_fftÚn_melsÚfminÚfmax)ÚlibrosaÚfiltersÚmel)r   r   r   r	   r
   Úkwargs© r   úS/home/kuhnn/.local/lib/python3.10/site-packages/TTS/utils/audio/numpy_transforms.pyÚbuild_mel_basis   s   r   )Úframe_length_msÚframe_shift_msr   r   r   c                 K   s@   | | }|  ¡ sJ dƒ‚t| d | ƒ}t|t|ƒ ƒ}||fS )zƒCompute hop and window length from milliseconds.

    Returns:
        Tuple[int, int]: hop length and window length for STFT.
    z1 [!] frame_shift_ms should divide frame_length_msg     @@)Ú
is_integerÚintÚfloat)r   r   r   r   ÚfactorÚ
win_lengthÚ
hop_lengthr   r   r   Úmillisec_to_length"   s
   r!   c                 C   s   |dkr	t  | ¡S t  | ¡S ©Né
   )ÚnpÚlog10Úlog©ÚxÚbaser   r   r   Ú_log1   s   

r*   c                 C   s   |dkr
t  d| ¡S t  | ¡S r"   )r$   ÚpowerÚexpr'   r   r   r   Ú_exp7   s   
r-   é   r#   ©r(   Úgainr)   r(   r0   r)   c                 K   s.   | dk   ¡ dksJ dƒ‚|tt d| ¡|ƒ S )a  Convert amplitude values to decibels.

    Args:
        x (np.ndarray): Amplitude spectrogram.
        gain (float): Gain factor. Defaults to 1.
        base (int): Logarithm base. Defaults to 10.

    Returns:
        np.ndarray: Decibels spectrogram.
    r   ú' [!] Input values must be non-negative.g:Œ0âŽyE>)Úsumr*   r$   Úmaximum©r(   r0   r)   r   r   r   r   Ú	amp_to_db=   s   r5   c                 K   s   t | | |ƒS )a  Convert decibels spectrogram to amplitude spectrogram.

    Args:
        x (np.ndarray): Decibels spectrogram.
        gain (float): Gain factor. Defaults to 1.
        base (int): Logarithm base. Defaults to 10.

    Returns:
        np.ndarray: Amplitude spectrogram.
    )r-   r4   r   r   r   Ú	db_to_ampM   s   r6   g
×£p=
ï?)Úcoefr7   c                 K   s(   |dkrt dƒ‚tj d| gdg| ¡S )a!  Apply pre-emphasis to the audio signal. Useful to reduce the correlation between neighbouring signal values.

    Args:
        x (np.ndarray): Audio signal.

    Raises:
        RuntimeError: Preemphasis coeff is set to 0.

    Returns:
        np.ndarray: Decorrelated audio signal.
    r   ú [!] Preemphasis is set 0.0.r.   ©ÚRuntimeErrorÚscipyÚsignalÚlfilter©r(   r7   r   r   r   r   Úpreemphasis[   s   r?   )r(   r7   c                 K   s(   |dkrt dƒ‚tj dgd| g| ¡S )zReverse pre-emphasis.r   r8   r.   r9   r>   r   r   r   Ú
deemphasisl   s   r@   )Ú	mel_basisÚspecrA   c                 K   s   t  || ¡S )a  Convert a full scale linear spectrogram output of a network to a melspectrogram.

    Args:
        spec (np.ndarray): Normalized full scale linear spectrogram.

    Shapes:
        - spec: :math:`[C, T]`

    Returns:
        np.ndarray: Normalized melspectrogram.
    )r$   Údot)rB   rA   r   r   r   r   Úspec_to_mels   s   rD   ©r   rA   r   c                 K   s8   | dk   ¡ dksJ dƒ‚tj |¡}t dt || ¡¡S )z3Convert a melspectrogram to full scale spectrogram.r   r1   g»½×Ùß|Û=)r2   r$   ÚlinalgÚpinvr3   rC   )r   rA   r   Úinv_mel_basisr   r   r   Úmel_to_spec‚   s   rI   )ÚwavrJ   c                 K   s(   t dd| i|¤Ž}t |¡}| tj¡S )zàCompute a spectrogram from a waveform.

    Args:
        wav (np.ndarray): Waveform. Shape :math:`[T_wav,]`

    Returns:
        np.ndarray: Spectrogram. Shape :math:`[C, T_spec]`. :math:`T_spec == T_wav / hop_length`
    ÚyNr   )Ústftr$   ÚabsÚastypeÚfloat32)rJ   r   ÚDÚSr   r   r   Úwav_to_spec‰   s   	
rR   )rJ   rA   c                 K   s8   t dd| i|¤Ž}tdt |¡|dœ|¤Ž}| tj¡S )z)Compute a melspectrogram from a waveform.rK   )rB   rA   Nr   )rL   rD   r$   rM   rN   rO   )rJ   rA   r   rP   rQ   r   r   r   Ú
wav_to_mel—   s   rS   g      ø?)r+   r+   c                 K   s   |   ¡ }tdd|| i|¤ŽS )z=Convert a spectrogram to a waveform using Griffi-Lim vocoder.rB   Nr   )ÚcopyÚgriffin_lim)rB   r+   r   rQ   r   r   r   Úspec_to_wavž   s   rV   )r   r+   c                 K   s.   |   ¡ }t||d d}tdd|| i|¤ŽS )z@Convert a melspectrogram to a waveform using Griffi-Lim vocoder.rA   rE   rB   Nr   )rT   rI   rU   )r   r+   r   rQ   r   r   r   Ú
mel_to_wav¤   s   rW   ÚreflectÚhannT)rK   r   r    r   Úpad_modeÚwindowÚcenterrK   r    r   rZ   r[   r\   c              	   K   s   t j| ||||||dS )z§Librosa STFT wrapper.

    Check http://librosa.org/doc/main/generated/librosa.stft.html argument details.

    Returns:
        np.ndarray: Complex number array.
    )rK   r   r    r   rZ   r[   r\   )r   rL   )rK   r   r    r   rZ   r[   r\   r   r   r   r   rL   ¬   s   ùrL   )rK   r    r   r[   r\   c                 K   s   t j| ||||dS )z©Librosa iSTFT wrapper.

    Check http://librosa.org/doc/main/generated/librosa.istft.html argument details.

    Returns:
        np.ndarray: Complex number array.
    )r    r   r\   r[   )r   Úistft)rK   r    r   r[   r\   r   r   r   r   r]   É   s   r]   é<   )rB   Únum_iterc              
   K   s°   t  dt j t jj| jŽ  ¡}t  | ¡ t¡}t	dd|| i|¤Ž}t  
|¡ ¡ s3tdƒ t  dg¡S t|ƒD ]}t  dt  tdd|i|¤Ž¡ ¡}t	dd|| i|¤Ž}q7|S )Ny               @rK   z8 [!] Waveform is not finite everywhere. Skipping the GL.ç        y              ð?r   )r$   r,   ÚpiÚrandomÚrandÚshaperM   rN   Úcomplexr]   ÚisfiniteÚallÚprintÚarrayÚrangeÚanglerL   )rB   r_   r   ÚanglesÚ	S_complexrK   Ú_r   r   r   rU   Ü   s   "rU   F)r(   r    Úpad_two_sidesro   c                 K   sD   | j d | d | | j d  }|sd|fS |d |d |d  fS )zCompute paddings used by Librosa's STFT. Compute right padding (final frame) or both sides padding
    (first and final frames)r   r.   r   )rd   )r(   r    ro   r   Úpadr   r   r   Úcompute_stft_paddingsé   s    rq   )r(   Ú
pitch_fmaxÚ
pitch_fminr    r   r   Ústft_pad_moder\   rr   rs   rt   c                 K   sª   |dusJ dƒ‚|dusJ dƒ‚t di d|  tj¡“d|“d|“d|“d|“d	|d
 “d|“d|“d|“dd“dd“dd
“dd“dd“dd“dd“Ž\}	}
}d|	|
 < |	S )aû  Compute pitch (f0) of a waveform using the same parameters used for computing melspectrogram.

    Args:
        x (np.ndarray): Waveform. Shape :math:`[T_wav,]`
        pitch_fmax (float): Pitch max value.
        pitch_fmin (float): Pitch min value.
        hop_length (int): Number of frames between STFT columns.
        win_length (int): STFT window length.
        sample_rate (int): Audio sampling rate.
        stft_pad_mode (str): Padding mode for STFT.
        center (bool): Centered padding.

    Returns:
        np.ndarray: Pitch. Shape :math:`[T_pitch,]`. :math:`T_pitch == T_wav / hop_length`

    Examples:
        >>> WAV_FILE = filename = librosa.example('vibeace')
        >>> from TTS.config import BaseAudioConfig
        >>> from TTS.utils.audio import AudioProcessor
        >>> conf = BaseAudioConfig(pitch_fmax=640, pitch_fmin=1)
        >>> ap = AudioProcessor(**conf)
        >>> wav = ap.load_wav(WAV_FILE, sr=ap.sample_rate)[:5 * ap.sample_rate]
        >>> pitch = ap.compute_f0(wav)
    Nz1 [!] Set `pitch_fmax` before caling `compute_f0`.z1 [!] Set `pitch_fmin` before caling `compute_f0`.rK   r   r   r   Úframe_lengthr   r   r    rZ   r\   Ún_thresholdséd   Úbeta_parameters)r   é   Úboltzmann_parameterÚ
resolutiongš™™™™™¹?Úmax_transition_rategö(\ÂõA@Úswitch_probç{®Gáz„?Úno_trough_probr`   r   )r   rN   r$   Údouble)r(   rr   rs   r    r   r   rt   r\   r   Úf0Úvoiced_maskrn   r   r   r   Ú
compute_f0ô   sJ   $ÿþýüûúùø	÷
öõôóòñ
ð
rƒ   c                 K   s:   t dd| i|¤Ž}t|ƒ\}}t tj|d dd¡}|S )ax  Compute energy of a waveform using the same parameters used for computing melspectrogram.
    Args:
      x (np.ndarray): Waveform. Shape :math:`[T_wav,]`
    Returns:
      np.ndarray: energy. Shape :math:`[T_energy,]`. :math:`T_energy == T_wav / hop_length`
    Examples:
      >>> WAV_FILE = filename = librosa.example('vibeace')
      >>> from TTS.config import BaseAudioConfig
      >>> from TTS.utils.audio import AudioProcessor
      >>> conf = BaseAudioConfig()
      >>> ap = AudioProcessor(**conf)
      >>> wav = ap.load_wav(WAV_FILE, sr=ap.sample_rate)[:5 * ap.sample_rate]
      >>> energy = ap.compute_energy(wav)
    rK   r   r   )ÚaxisNr   )rL   r   r$   Úsqrtr2   )rK   r   r(   Úmagrn   Úenergyr   r   r   Úcompute_energy2  s   rˆ   iØÿÿÿgš™™™™™é?)rJ   Útrim_dbr   Úmin_silence_secr0   r)   r‰   c                 K   sp   t || ƒ}t |d ƒ}t| ||d}	t|t| ƒ| |ƒD ]}
t | |
|
| … ¡|	k r3|
|   S qt| ƒS )aA  Find the last point without silence at the end of a audio signal.

    Args:
        wav (np.ndarray): Audio signal.
        threshold_db (int, optional): Silence threshold in decibels. Defaults to -40.
        min_silence_sec (float, optional): Ignore silences that are shorter then this in secs. Defaults to 0.8.
        gian (float, optional): Gain to be used to convert trim_db to trim_amp. Defaults to None.
        base (int, optional): Base of the logarithm used to convert trim_db to trim_amp. Defaults to 10.

    Returns:
        int: Last point without silence.
    é   r/   )r   r6   rj   Úlenr$   Úmax)rJ   r‰   r   rŠ   r0   r)   r   Úwindow_lengthr    Ú	thresholdr(   r   r   r   Úfind_endpointH  s   ÿr   )rJ   r   r‰   r   r    c                 K   s2   t |d ƒ}| || … } tjj| |||dd S )z6Trim silent parts with a threshold and 0.01 sec marginr~   )Útop_dbru   r    r   )r   r   ÚeffectsÚtrim)rJ   r   r‰   r   r    r   Úmarginr   r   r   Útrim_silenceg  s   
r•   gffffffî?c                 K   s   | t | ƒ ¡  | S )zîNormalize the volume of an audio signal.

    Args:
        x (np.ndarray): Raw waveform.
        coef (float): Coefficient to rescale the maximum value. Defaults to 0.95.

    Returns:
        np.ndarray: Volume normalized waveform.
    )rM   r   r>   r   r   r   Úvolume_normv  s   
r–   g      ;À©rJ   Údb_levelr˜   c                 K   s8   d|d  }t  t| ƒ|d  t  | d ¡ ¡}| | S )Nr#   é   r   )r$   r…   rŒ   r2   )rJ   r˜   r   ÚrÚar   r   r   Úrms_normƒ  s   $rœ   )r˜   c                 K   s4   d|  krdksJ dƒ‚ J dƒ‚t | |d}|S )zæNormalize the volume based on RMS of the signal.

    Args:
        x (np.ndarray): Raw waveform.
        db_level (float): Target dB level in RMS. Defaults to -27.0.

    Returns:
        np.ndarray: RMS normalized waveform.
    iÿÿÿr   z) [!] db_level should be between -99 and 0r—   )rœ   )r(   r˜   r   rJ   r   r   r   Úrms_volume_norm‰  s   $
r   )r   ÚresampleÚfilenamerž   c                 K   s,   |rt j| |d\}}|S t | ¡\}}|S )aü  Read a wav file using Librosa and optionally resample, silence trim, volume normalize.

    Resampling slows down loading the file significantly. Therefore it is recommended to resample the file before.

    Args:
        filename (str): Path to the wav file.
        sr (int, optional): Sampling rate for resampling. Defaults to None.
        resample (bool, optional): Resample the audio file when loading. Slows down the I/O time. Defaults to False.

    Returns:
        np.ndarray: Loaded waveform.
    )r   )r   ÚloadÚsfÚread)rŸ   r   rž   r   r(   rn   r   r   r   Úload_wav˜  s
   ÿr£   )r   Úpipe_outÚpathc              	   K   sv   | dt dt  t | ¡¡ƒ  }| tj¡}|r0tƒ }tjj 	|||¡ | 
d¡ |j 	| ¡ ¡ tjj 	|||¡ dS )am  Save float waveform to a file using Scipy.

    Args:
        wav (np.ndarray): Waveform with float values in range [-1, 1] to save.
        path (str): Path to a output file.
        sr (int, optional): Sampling rate used for saving to the file. Defaults to None.
        pipe_out (BytesIO, optional): Flag to stdout the generated TTS wav file for shell pipe.
    éÿ  r~   r   N)r   r$   rM   rN   Úint16r   r;   ÚioÚwavfileÚwriteÚseekÚbufferr¢   )rJ   r¥   r   r¤   r   Úwav_normÚ
wav_bufferr   r   r   Úsave_wav®  s   	
r¯   Úmulaw_qcc                 K   sZ   d| d }t  | ¡t  d|t  | ¡  ¡ t  d| ¡ }|d d | d }t  |¡S )Nr   r.   ç      ð?g      à?)r$   Úsignr&   rM   Úfloor)rJ   r°   r   Úmur<   r   r   r   Úmulaw_encodeÂ  s   0ÿrµ   c                 K   s4   d| d }t  | ¡| d| t  | ¡ d  }|S )z(Recovers waveform from quantized values.r   r.   )r$   r²   rM   )rJ   r°   r   r´   r(   r   r   r   Úmulaw_decodeË  s   $r¶   c                 K   s   t  | d dd¡ t j¡S )Ni €  i €ÿÿr¦   )r$   ÚcliprN   r§   )r(   r   r   r   r   Úencode_16bitsÒ  s   r¸   Úquantize_bitsc                 K   s   | d d| d  d S )a	  Quantize a waveform to a given number of bits.

    Args:
        x (np.ndarray): Waveform to quantize. Must be normalized into the range `[-1, 1]`.
        quantize_bits (int): Number of quantization bits.

    Returns:
        np.ndarray: Quantized waveform.
    r±   r   r.   r   ©r(   r¹   r   r   r   r   ÚquantizeÖ  s   
r»   c                 K   s   d|  d| d  d S )z4Dequantize a waveform from the given number of bits.r   r.   r   rº   r   r   r   Ú
dequantizeã  s   r¼   )1r¨   r   Útypingr   r   Únumpyr$   r;   Ú	soundfiler¡   r   r   r   Úndarrayr   r!   r*   r-   r   r5   r6   r?   r@   rD   rI   rR   rS   rV   rW   ÚstrÚboolrL   r]   rU   rq   rƒ   rˆ   r   r•   r–   rœ   r   r£   r¯   rµ   r¶   r¸   r»   r¼   r   r   r   r   Ú<module>   s^   úþýüûú
øÿÿÿÿ

þ(( ""$ "
øþýüûúùø

öúþýüûú
øÿÿÿÿ

þ÷þýüûúùø	÷
õ>ùþýüúù	
÷!úþýüûú
ø"" $$	