o ´‹ jžã@s<ddlZddlZddlmZddlmZGdd„deƒZdS)éN)ÚDataset)Ú AugmentWAVcsreZdZ d‡fdd„ Zdd „Zd d„Zdd „Zdd„Zdd„Zdd„Z dd„Z dd„Zdd„Z‡Z S)ÚEncoderDatasetçš™™™™™ù?é@é FNc s*tƒ ¡||_||_|j|_t||jƒ|_||_||_||_ | |_ | ¡\|_|_dd„t |jƒDƒ|_d|_d|_|r_|d|_|jrTd|vsNd|vrTt||ƒ|_d| ¡vr_|d|_|j r“tdƒtd |›ƒtd t|jƒ›ƒtd|j›ƒtdt|jƒ›ƒtd |j›ƒdSdS)a Args: ap (TTS.tts.utils.AudioProcessor): audio processor object. meta_data (list): list of dataset instances. seq_len (int): voice segment length in seconds. verbose (bool): print diagnostic information. cSói|]\}}||“qS©r ©Ú.0ÚiÚkeyr r úF/home/kuhnn/.local/lib/python3.10/site-packages/TTS/encoder/dataset.pyÚ (óz+EncoderDataset.__init__..NÚpÚadditiveÚrirÚgaussianz > DataLoader initializationz | > Classes per Batch: z | > Number of instances : z | > Sequence length: z | > Num Classes: z | > Classes: )ÚsuperÚ__init__ÚconfigÚitemsÚsample_rateÚintÚseq_lenÚnum_utter_per_classÚapÚverboseÚuse_torch_specÚ_EncoderDataset__parse_itemsÚclassesÚ enumerateÚclassname_to_classidÚaugmentatorÚgaussian_augmentation_configÚdata_augmentation_prÚkeysÚprintÚlen) ÚselfrrÚ meta_dataÚ voice_lenÚnum_classes_in_batchrrÚaugmentation_configr©Ú __class__r rr s6 úzEncoderDataset.__init__cCs|jj||jjd}|S)N)Úsr)rÚload_wavr)r*ÚfilenameÚaudior r rr2=szEncoderDataset.load_wavcsæi}ˆjD]}|d}|ˆjj}|| ¡vr|| |¡q|g||<q‡fdd„| ¡Dƒ}t| ¡ƒ}| ¡g}ˆjD]/}|d}ˆjjdkrO|dn|d}||vrXq?ˆ |¡j dˆj dkrfq?| ||dœ¡q?||fS) NÚ audio_filecs$i|]\}}t|ƒˆjkr||“qSr )r)r)rÚkÚv©r*r rrNs$z0EncoderDataset.__parse_items..Úemotion_encoderÚemotion_nameÚspeaker_namer)Ú wav_file_pathÚ class_name)rrÚclass_name_keyr'ÚappendÚlistÚsortÚmodelr2Úshaper)r*Úclass_to_uttersÚitemÚpath_r=r!Ú new_itemsr r8rÚ __parse_itemsAs* ÿ zEncoderDataset.__parse_itemscCó t|jƒS©N)r)rr8r r rÚ__len__bó zEncoderDataset.__len__cCrIrJ)r)r!r8r r rÚget_num_classeserLzEncoderDataset.get_num_classescCs|jSrJ)r!r8r r rÚget_class_listhszEncoderDataset.get_class_listcCs ||_dd„t|jƒDƒ|_dS)NcSrr r r r r rrmrz.EncoderDataset.set_classes..)r!r"r#)r*r!r r rÚset_classeskszEncoderDataset.set_classescCstdd„|j ¡DƒƒS)Ncss|] \}}||fVqdSrJr )rÚc_nÚc_idr r rÚ ps€z>EncoderDataset.get_map_classid_to_classname..)Údictr#rr8r r rÚget_map_classid_to_classnameosz+EncoderDataset.get_map_classid_to_classnamecCs |j|SrJ)r)r*Úidxr r rÚ__getitem__rrLzEncoderDataset.__getitem__cCsäg}g}|D]]}|d}|d}|j|}| |¡}t d|jd|j¡} || | |j…}|jdurD|jrDt ¡|jkrD|j |¡}|j sV|j |¡} | t | ¡¡n| t |¡¡| |¡qt |¡}t |¡}||fS)Nr<r=r)r#r2ÚrandomÚrandintrCrr$r&Ú apply_onerrÚmelspectrogramr?ÚtorchÚFloatTensorÚstackÚ LongTensor)r*ÚbatchÚlabelsÚfeatsrEÚ utter_pathr=Úclass_idÚwavÚoffsetÚmelr r rÚ collate_fnus( zEncoderDataset.collate_fn)rrrFNN)Ú__name__Ú __module__Ú__qualname__rr2r rKrMrNrOrTrVrgÚ __classcell__r r r/rr s"ö3!r)rWr[Útorch.utils.datarÚTTS.encoder.utils.generic_utilsrrr r r rÚs