aigc-apps · bubbliiiing · Mar 11, 2026 · Mar 11, 2026 · Mar 12, 2026 · Mar 12, 2026
diff --git a/examples/longcatvideo/predict_i2v.py b/examples/longcatvideo/predict_i2v.py
@@ -149,7 +149,6 @@
 
 if GPU_memory_mode == "sequential_cpu_offload":
     replace_parameters_by_name(transformer, ["modulation",], device=device)
-    transformer.freqs = transformer.freqs.to(device=device)
     pipeline.enable_sequential_cpu_offload(device=device)
 elif GPU_memory_mode == "model_cpu_offload_and_qfloat8":
     convert_model_weight_to_float8(transformer, exclude_module_name=["modulation",], device=device)

diff --git a/examples/longcatvideo/predict_s2v_avatar.py b/examples/longcatvideo/predict_s2v_avatar.py
@@ -1,9 +1,7 @@
-import math
 import os
 import sys
 from pathlib import Path
 
-import librosa
 import numpy as np
 import torch
 from audio_separator.separator import Separator
@@ -18,9 +16,9 @@
 
 from videox_fun.dist import set_multi_gpus_devices, shard_model
 from videox_fun.models import (AutoencoderKLLongCatVideo, AutoTokenizer,
+                               LongCatVideoAudioEncoder,
                                LongCatVideoAvatarTransformer3DModel,
-                               UMT5EncoderModel, Wav2Vec2FeatureExtractor,
-                               Wav2Vec2ModelWrapper)
+                               UMT5EncoderModel)
 from videox_fun.models.cache_utils import get_teacache_coefficients
 from videox_fun.pipeline import LongCatVideoAvatarPipeline
 from videox_fun.utils.fm_solvers import FlowDPMSolverMultistepScheduler
@@ -136,15 +134,10 @@
 )
 
 # Get Audio encoder (for avatar mode)
-audio_encoder = Wav2Vec2ModelWrapper(
+audio_encoder = LongCatVideoAudioEncoder(
     os.path.join(model_name_avatar, 'chinese-wav2vec2-base')
 )
-audio_encoder.feature_extractor._freeze_parameters()
-
-wav2vec_feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(
-    os.path.join(model_name_avatar, 'chinese-wav2vec2-base'), 
-    local_files_only=True
-)
+audio_encoder.audio_encoder.feature_extractor._freeze_parameters()
 
 # Get Scheduler
 Chosen_Scheduler = scheduler_dict = {
@@ -165,7 +158,6 @@
     text_encoder=text_encoder,
     scheduler=scheduler,
     audio_encoder=audio_encoder,
-    wav2vec_feature_extractor=wav2vec_feature_extractor,
 )
 
 if compile_dit:
@@ -175,7 +167,6 @@
 
 if GPU_memory_mode == "sequential_cpu_offload":
     replace_parameters_by_name(transformer, ["modulation",], device=device)
-    transformer.freqs = transformer.freqs.to(device=device)
     pipeline.enable_sequential_cpu_offload(device=device)
 elif GPU_memory_mode == "model_cpu_offload_and_qfloat8":
     convert_model_weight_to_float8(transformer, exclude_module_name=["modulation",], device=device)

diff --git a/examples/longcatvideo/predict_t2v.py b/examples/longcatvideo/predict_t2v.py
@@ -147,7 +147,6 @@
 
 if GPU_memory_mode == "sequential_cpu_offload":
     replace_parameters_by_name(transformer, ["modulation",], device=device)
-    transformer.freqs = transformer.freqs.to(device=device)
     pipeline.enable_sequential_cpu_offload(device=device)
 elif GPU_memory_mode == "model_cpu_offload_and_qfloat8":
     convert_model_weight_to_float8(transformer, exclude_module_name=["modulation",], device=device)