百度文库风格文档生成:基于Fun-ASR内容提取-CSDN博客 2026年1月4日 - 声学特征提取:系统计算 Mel 频谱图,将声音信号转换成视觉可辨识的时频图像; 声学模型推理:训练好的大模型对每一帧进行音素或子词预测,形成初步文本序...