FunASR | 让每个人享受科技的乐趣

作为一个想要成为技术宅的理工直男，每天脑子里都会闪过各种各样奇奇怪怪的想法，也会尝试在能力范围内去实现，比如之前我的文章，ModelScope|打造专属ASR。而直到某天，在我无意中更新了一下模型版本后（也许可能是这个原因），发现原本的代码不能运行了，所以我开始修改代码，于是发现了FunASR这个更加简单的神器。

其实FunASR本身就是由阿里达摩院的Paraformer模型框架演进而来，算是针对语音识别方向进行了定向调优，优不优的我也不知道，但我确信，是降低了入门的门槛，甚至可以说有代码基础就可以上。

from funasr import AutoModel
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad",  punc_model="ct-punc",)
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
                     batch_size_s=300, 
                     hotword='魔搭')
print(res)

是的，你没看错，官方的Demo，就这么短，而实际上，进行语音识别的核心代码，真就这么两行。事实上，除了人工智能方向的研究人员，或者能力提供厂商以外，绝大部分人使用官方的默认参数，获得的结果就已经是可接受范围内了，没有哪个模型差到不能接受。

而且于我而言，只需要再加上genLRC函数和循环遍历文件夹内的wav文件，就可以轻松的满足我的需求。甚至，性能也是足够的优秀，比如基于我目前3060 12G的显卡，每小时的音频文件可能转写时间也就三五分钟。

回到文章标题，我觉得FunASR就是这样一个产品，让每个人享受科技的乐趣的同时，保留让专业人员深挖的可能。想想前几年，我在有语音识别的需求时，从百度到腾讯再到阿里，能找到一个可用模型就已经很开心了，而到现在，甚至几乎每一个人都可以轻而易举的实现本地语音转写，这才是科技发展的意义，是雷军说的「让每个人享受科技的乐趣」，更是高晓松说的「社会的发展让人人更加平等」。

发表回复 取消回复

发表回复取消回复