作为一个想要成为技术宅的理工直男,每天脑子里都会闪过各种各样奇奇怪怪的想法,也会尝试在能力范围内去实现,比如之前我的文章,ModelScope|打造专属ASR。而直到某天,在我无意中更新了一下模型版本后(也许可能是这个原因),发现原本的代码不能运行了,所以我开始修改代码,于是发现了FunASR这个更加简单的神器。
其实FunASR本身就是由阿里达摩院的Paraformer模型框架演进而来,算是针对语音识别方向进行了定向调优,优不优的我也不知道,但我确信,是降低了入门的门槛,甚至可以说有代码基础就可以上。
from funasr import AutoModel
model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc",)
res = model.generate(input=f"{model.model_path}/example/asr_example.wav",
batch_size_s=300,
hotword='魔搭')
print(res)
是的,你没看错,官方的Demo,就这么短,而实际上,进行语音识别的核心代码,真就这么两行。事实上,除了人工智能方向的研究人员,或者能力提供厂商以外,绝大部分人使用官方的默认参数,获得的结果就已经是可接受范围内了,没有哪个模型差到不能接受。
而且于我而言,只需要再加上genLRC函数和循环遍历文件夹内的wav文件,就可以轻松的满足我的需求。甚至,性能也是足够的优秀,比如基于我目前3060 12G的显卡,每小时的音频文件可能转写时间也就三五分钟。
回到文章标题,我觉得FunASR就是这样一个产品,让每个人享受科技的乐趣的同时,保留让专业人员深挖的可能。想想前几年,我在有语音识别的需求时,从百度到腾讯再到阿里,能找到一个可用模型就已经很开心了,而到现在,甚至几乎每一个人都可以轻而易举的实现本地语音转写,这才是科技发展的意义,是雷军说的「让每个人享受科技的乐趣」,更是高晓松说的「社会的发展让人人更加平等」。
