o ´‹ j«iã@s<ddlZddlZddlmZmZmZddlZddlZddl m Z ddlm mZ ddl mZddlmZmZmZmZmZmZmZmZmZe e¡Z ddeeefd eejd ededed edede dedej!fdd„Z"Gdd„dƒZ#Gdd„de j$ƒZ%Gdd„de j$ƒZ&Gdd„de j$ƒZ'Gdd„de j$ƒZ(dS)éN)ÚListÚOptionalÚTuple)Ú LayerNorm) Ú Fp32GroupNormÚ Fp32LayerNormÚ GLU_LinearÚGradMultiplyÚMultiheadAttentionÚSamePadÚ TransposeLastÚget_activation_fnÚinit_bert_paramsÚstaticçFÚshapeÚpadding_maskÚ mask_probÚmask_lengthÚ mask_typeÚ mask_otherÚ min_masksÚ no_overlapÚ min_spaceÚreturnc sä|\} } t | | fd¡}t|| t|ƒtj ¡ƒ}t||ƒ}g} t| ƒD]}|durN| || ¡ ¡ ¡}t||t|ƒtj ¡ƒ}t||ƒ}n| }|}|dkr]t ||¡‰nA|dkrotjj||dd|d‰n/|dkr„tjj|||d‰d d „ˆDƒ‰n|dkr˜tjj ||d‰dd „ˆDƒ‰ntd |ƒ‚t ˆƒdkrt||dƒˆd<|r g‰‡‡fdd„}d|fg}tˆƒ}tˆddD]>‰t ‡‡fdd„|Dƒtj¡}t |¡}|dkrän#|t |¡}tjjt|ƒ|d}| |¡\}}| |||ˆ|ƒ¡qÈt ˆ¡‰n-tˆƒ}|||kr||d}tjj|||dd‰t ‡‡fdd „ttˆƒƒDƒ¡‰| t ˆˆ|k¡¡q&tdd „| Dƒƒ}t| ƒD]\}‰tˆƒ|krhtjjˆ|dd‰d||ˆf<qT|S)a Computes random mask spans for a given shape Args: shape: the the shape for which to compute masks. should be of size 2 where first element is batch size and 2nd is timesteps padding_mask: optional padding mask of the same size as shape, which will prevent masking padded elements mask_prob: probability for each token to be chosen as start of the span to be masked. this will be multiplied by number of timesteps divided by length of mask span to mask approximately this percentage of all elements. however due to overlaps, the actual number will be smaller (unless no_overlap is True) mask_type: how to compute mask lengths static = fixed size uniform = sample from uniform distribution [mask_other, mask_length*2] normal = sample from normal distribution with mean mask_length and stdev mask_other. mask is min 1 element poisson = sample from possion distribution with lambda = mask length min_masks: minimum number of masked spans no_overlap: if false, will switch to an alternative recursive algorithm that prevents spans from overlapping min_space: only used if no_overlap is True, this is how many elements to keep unmasked between spans FNrÚuniforméé)ÚsizeÚnormalcSsg|]}tdtt|ƒƒƒ‘qS)r)ÚmaxÚintÚround©Ú.0Úx©r&úT/home/kuhnn/.local/lib/python3.10/site-packages/TTS/vc/modules/freevc/wavlm/wavlm.pyÚ asz(compute_mask_indices..ÚpoissoncSsg|]}tt|ƒƒ‘qSr&)r!r"r#r&r&r'r(dszunknown mask selection rcs†tj |||¡‰ˆ ‡fdd„t|ƒDƒ¡g}ˆ|ˆ|kr,| |ˆˆdf¡|ˆ|ˆ|krA| ˆ|ˆ|f¡|S)Nc3s|]}ˆ|VqdS©Nr&©r$Úi©Ú span_startr&r'Ú ps€z8compute_mask_indices..arrange..r)ÚnpÚrandomÚrandintÚextendÚrangeÚappend)ÚsÚeÚlengthÚkeep_lengthÚ new_parts)Úmask_idcrr-r'Úarrangensz%compute_mask_indices..arrangeT)Úreversec3s0|]\}}||ˆˆkr||ndVqdS)rNr&)r$r6r7)r8rr&r'r/}s€.z'compute_mask_indices..©Úp)Úreplacecs*g|]}tˆ|ƒD]}ˆ||‘q qSr&)r4)r$ÚjÚoffset)Úlengthsr;r&r'r(s*cSsg|]}t|ƒ‘qSr&)Úlen)r$Úmr&r&r'r(“s)r0Úfullr!Úfloatr1Úrandr r4ÚlongÚsumÚitemr2rr)Ú ExceptionÚminÚsortedÚfromiterÚchoicerDÚpopr3Úasarrayr5ÚuniqueÚ enumerate)rrrrrrrrrÚbszÚall_szÚmaskÚall_num_maskÚ mask_idcsr,ÚszÚnum_maskr<ÚpartsÚ min_lengthÚlensÚl_sumÚprobsÚcr6r7Úmin_lenr&)r8rCr;rr'Úcompute_mask_indices#s~ÿþ ÿþ þ "rcc@s$eZdZddd„Zdefdd„ZdS)ÚWavLMConfigNcCsìd|_d|_d|_d|_d|_d|_d|_d|_d|_d|_ d|_ d |_d |_d |_ d |_d |_d |_d|_d|_d |_d|_d|_d|_d|_d |_d |_d|_d|_d|_d|_d|_d|_d|_ d|_!d|_"|durt| #|¡dSdS)NÚdefaultéééÚgeluFz0[(512,10,5)] + [(512,3,2)] * 4 + [(512,2,2)] * 2çð?çš™™™™™¹?ré gÍÌÌÌÌÌä?rrré€éi@i)$Úextractor_modeÚencoder_layersÚencoder_embed_dimÚencoder_ffn_embed_dimÚencoder_attention_headsÚ activation_fnÚlayer_norm_firstÚconv_feature_layersÚ conv_biasÚfeature_grad_multÚ normalizeÚdropoutÚattention_dropoutÚactivation_dropoutÚencoder_layerdropÚ dropout_inputÚdropout_featuresrrÚmask_selectionrÚno_mask_overlapÚmask_min_spaceÚmask_channel_lengthÚmask_channel_probÚmask_channel_selectionÚmask_channel_otherÚno_mask_channel_overlapÚmask_channel_min_spaceÚconv_posÚconv_pos_groupsÚrelative_position_embeddingÚnum_bucketsÚmax_distanceÚgru_rel_posÚupdate©ÚselfÚcfgr&r&r'Ú__init__sPÿÿÿzWavLMConfig.__init__r’cCs|j |¡dSr*)Ú__dict__rrr&r&r'rÖszWavLMConfig.updater*)Ú__name__Ú __module__Ú__qualname__r“Údictrr&r&r&r'rdœs 9rdc s„eZdZdeddf‡fdd„Zdd„Zdejd ejdejfd d„Z dd ejd e ejde de de ede fdd„Z‡Z S)ÚWavLMr’rNcs(tƒ ¡t d|j›¡||_t|jƒ}|dd|_t |d|j |jd|_|j|j kr6t |j|j ¡nd|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_|j|_t |j¡|_t |j¡|_|j |_ t !t" #|j ¡ $¡¡|_%t&|ƒ|_'t(|jƒ|_)dS)NzWavLM Config: éÿÿÿÿrr)Úconv_layersrzÚmoderw)*Úsuperr“ÚloggerÚinfor”r’ÚevalrvÚembedÚConvFeatureExtractionModelrorwÚfeature_extractorrqÚnnÚLinearÚpost_extract_projrr€rrrr‚r„r…r†rƒr‡rˆÚDropoutr~rrxÚ ParameterÚtorchÚFloatTensorÚuniform_Úmask_embÚTransformerEncoderÚencoderrÚ layer_norm)r‘r’Úfeature_enc_layers©Ú __class__r&r'r“Ûs> üÿ zWavLM.__init__cCsÆ|j\}}}|jdkr/t||f||j|j|j|jd|j|jd }t |¡ |j¡}|j||<nd}|j dkr_t||fd|j |j|j|j|j|jd}t |¡ |j¡ d¡ d|d¡}d||<||fS)Nrr)rrr)rrrrš)rrrcrr€rrr‚r©Ú from_numpyÚtoÚdevicer¬r„rƒr…r†r‡rˆÚ unsqueezeÚexpand)r‘r%rÚBÚTÚCÚmask_indicesÚmask_channel_indicesr&r&r'Ú apply_mask s< ÷ ø" zWavLM.apply_maskÚfeaturesrcCsZ| d¡| d¡}|dkr|dd…d|…f}| | d¡| d¡d¡}| d¡}|S)Nrrrš)rÚviewÚany)r‘r¾rÚextrar&r&r'Úforward_padding_mask,s zWavLM.forward_padding_maskFÚsourcerWÚret_convÚoutput_layerÚret_layer_resultsc Cs$|jdkr| |¡}|jdkrt ||j¡}nt ¡ | |¡}Wdƒn1s+wY| dd¡}| |¡}|durE| ||¡}|j durO| |¡}| |¡}|r_| ||¡\}} n|}|j|||durkdn|dd\}} |||| dœ}|r€|dn|d}|rŒ||d f}||d fS)Nrrjrr)rÚlayer)r%rr¾Ú layer_resultsr¾r%rÈr) rxr£r Úapplyr©Úno_gradÚ transposer¯rÂr¦r~r½r®) r‘rÃrrWrÄrÅrÆr¾r%r»rÈÚresÚfeaturer&r&r'Úextract_features9s4 € ÿ ÿzWavLM.extract_features)NFFNF)r•r–r—rdr“r½r©ÚTensorrÂrÚboolr!rÎÚ __classcell__r&r&r±r'r™Ús@þý.#þý üùþýüûúùr™csTeZdZ ddeeeeefdedededef ‡fd d „ Z ddd „Z ‡ZS)r¢rreFr›rzrœrwÚ conv_typec stƒ ¡|dvsJ‚ d‡‡fdd„ }||_|jdkr\d}t ¡|_t|ƒD]0\}} t| ƒdks;Jdt| ƒƒ‚| \‰} }|j ||ˆ| ||d k|dkoR|d k|d¡ˆ}q)dS|jdkr˜d}t ¡|_t|ƒD])\}} t| ƒdksxJ‚| \‰} }|j t j |ˆ| |¡¡|j t j ¡¡ˆ}qldS|jd krd}d}t ¡|_t|ƒD]V\}} t| ƒdks·J‚| \‰} }|j t jj|ˆ| |dd¡|j t j ˆ|g¡¡|j t j ¡¡ˆ}|ddd kr|j t jjdddd¡tt |d¡ƒ}q«dS dS)N>rer¯Fcs¨‡‡‡‡‡fdd„}|o |dksJdƒ‚|r0t |ƒtjˆdt tƒtˆddtƒ¡t ¡¡S|rFt |ƒtjˆdtˆˆddt ¡¡St |ƒtjˆdt ¡¡S) Ncs&tjˆˆˆˆˆd}tj |j¡|S)N)ÚstrideÚbias)r¤ÚConv1dÚinitÚkaiming_normal_Úweight)Úconv©rwÚkÚn_inÚn_outrÓr&r'Ú make_convszEConvFeatureExtractionModel.__init__..block..make_convFz'layer norm and group norm are exclusiver>T)Úelementwise_affine)Úaffine)r¤Ú Sequentialr§rrÚGELUr)rÜrÝrÛrÓÚ is_layer_normÚ is_group_normrwrÞ©ÚdimrzrÚr'Úblockxs* ýø üz2ConvFeatureExtractionModel.__init__..blockrerézinvalid conv definition: r¯r)rãrärwÚconv2dÚcustoméP)ÚpaddingrT)rÓÚ ceil_mode)FFF)rr“rÒr¤Ú ModuleListr›rTrDÚstrr5r©ÚConv2dÚReLUrÚ MaxPool2dr!ÚmathÚceil) r‘r›rzrœrwrÒrçÚin_dr,ÚclrÛrÓÚidimr±rår'r“lsj ù% ùÿñ ú €÷z#ConvFeatureExtractionModel.__init__NcCsÐ| d¡}|jdkr@|jD]}t|tjƒr$| dd¡}||ƒ dd¡}q ||ƒ}q | dd¡ ¡}| | d¡d| d¡¡}|S|jD]}||ƒ}qC|jdkrf| ¡\}}}}| dd¡ ¡ ||||¡}|S)Nrrêrrèrršré) r¶rÒr›Ú isinstancer¤rrËÚ contiguousr¿r)r‘r%rWrÙÚbraÚtÚfr&r&r'ÚforwardÌs û z"ConvFeatureExtractionModel.forward)rreFrer*)r•r–r—rrr!rGrïrÐr“rýrÑr&r&r±r'r¢ks"úþýüûú`r¢cs0eZdZ‡fdd„Zddd„Zddd„Z‡ZS) rcs>tƒ ¡ˆjˆ_ˆjˆ_tjˆjˆjˆjˆjdˆjdˆ_ d}t dd|ˆjˆj¡}tjj ˆj jd|dtj ˆj jd¡tjjjˆj dddˆ_ t ˆj tˆjƒt ¡¡ˆ_ tˆd ƒrpˆjˆ_ˆjˆ_ˆjˆ_n d ˆ_dˆ_dˆ_t ‡‡fdd„tˆjƒDƒ¡ˆ_ˆjˆ_t ˆjƒˆ_!ˆj"ˆ_#ˆ $t%¡dS) Nr)Úkernel_sizerìÚgroupsrérj)ÚmeanÚstdrØ)Únamerær‹FcsLg|]"}tˆjˆjˆjˆjˆjˆjˆjˆjˆj o|dkˆj ˆjˆjd‘qS)r)Ú embedding_dimÚffn_embedding_dimÚnum_attention_headsrzr{r|rtruÚhas_relative_attention_biasrŒrrŽ) ÚTransformerSentenceEncoderLayerrrrrsrzr{r|rtrur‹rŒrrŽr+©Úargsr‘r&r'r(s"òôÿz/TransformerEncoder.__init__..)&rr“rzrqrr¤rÕr‰rŠÚpos_convróÚsqrtrÖÚnormal_rØÚ constant_rÔÚutilsÚparametrizationsÚweight_normrárrâÚhasattrr‹rŒrrîr4rpÚlayersrurr¯r}Ú layerdroprÉr)r‘r rzrr±r r'r“âs@ û ñÿzTransformerEncoder.__init__NcCs4| ||||¡\}}|jr|dur| |¡}||fSr*)rÎrur¯)r‘r%rÚstreaming_maskrÇrÈr&r&r'rýs zTransformerEncoder.forwardc Cs|durd||<| | dd¡¡}| dd¡}||7}|js#| |¡}tj||j|jd}| dd¡}g}d}|durB| ||f¡d}d} t|j ƒD]0\} }t j ¡}|jr\||jkrh|||d|| d\}}} |durs| ||f¡| |kr{|}nqK|dur‚|}| dd¡}||fS)Nrrr)r?ÚtrainingF)Úself_attn_padding_maskÚneed_weightsÚself_attn_maskÚpos_bias) rrËrur¯ÚFrzrr5rTrr0r1r) r‘r%rrÚ tgt_layerÚx_convrÈÚzÚrrr,rÇÚdropout_probabilityr&r&r'rÎ"sF ûþz#TransformerEncoder.extract_features)NNN)r•r–r—r“rýrÎrÑr&r&r±r'rás 8rcs eZdZdZ d d ed ededed edededededededededdf‡fdd„ Z d!de j de j de j defdd„Z‡ZS)"rz_ Implements a Transformer Encoder Layer used in BERT/XLM style pre-trained models. rgrhérkÚreluFrrrrrzr{r|rtrurrŒrÚrescale_initrŽrNcsÎtƒ ¡||_||_||_||_t|ƒ|_t|j||d| | ||| d |_ t |¡|_t |j¡|_ t |¡|_||_t|jƒ|_|jdkrOt|j|dƒ|_nt |j|¡|_t ||j¡|_t|jƒ|_dS)NT)rzÚself_attentionrrŒrr#rŽÚgluÚswish)rr“rrzr|Úactivation_namer rtr Ú self_attnr¤r§Údropout1Údropout2Údropout3rurÚself_attn_layer_normrÚfc1r¥Úfc2Úfinal_layer_norm)r‘rrrrzr{r|rtrurrŒrr#rŽr±r&r'r“Ws6 ÷ z(TransformerSentenceEncoderLayer.__init__r%rrrc Cs>|}|jrP| |¡}|j||||d||d\}}}| |¡}||}|}| |¡}|jdkr4| |¡}n| | |¡¡}| |¡}| |¡}| |¡}||}nJ|j|||||||d\}}}| |¡}||}| |¡}|}|jdkrz| |¡}n| | |¡¡}| |¡}| |¡}| |¡}||}| |¡}|||fS)z— LayerNorm is applied either before or after the self-attention/ffn modules similar to the original Transformer imlementation. F)ÚqueryÚkeyÚvalueÚkey_padding_maskrÚ attn_maskÚ position_biasr%)rur,r(r)r/r'r-rtr*r.r+)r‘r%rrrrÚresidualÚattnr&r&r'rýŽsZ ù ù z'TransformerSentenceEncoderLayer.forward) rgrhr!rkrkrkr"FFrrFF)NNFN) r•r–r—Ú__doc__rGrïrÐr!r“r©rÏrýrÑr&r&r±r'rQsròþýüûúùø ÷ öõô óòñ:úþýüûr)rrrFr))ÚloggingróÚtypingrrrÚnumpyr0r©Útorch.nnr¤Útorch.nn.functionalÚ functionalrrÚ#TTS.vc.modules.freevc.wavlm.modulesrrrr r rrr rÚ getLoggerr•ržr!rÏrGrïrÐÚndarrayrcrdÚModuler™r¢rrr&r&r&r'ÚsT , ÷ ÿþýüûúùø ÷ öy>vp