开个新坑,介绍下我自己项目或者折腾中使用到的好用的Nuget包
<0x01> KokoroSharp
项目Github
这个包通过Onnx跑一个ai模型进行语音合成
KokoroSharp.CPU即开即用的体验KokoroSharp.GPU需要CUDA Toolkit和CuDNN工具,可以让推理快一点
(我用下来低频调用的话,CPU推理也够用了)
这个包的英文输出确实不错,但对中文输出欠佳
(开包即用的模型是kokoro-v1.0)
还在预览的v1.1版本对中文就好很多,但原本有的语音质量有所下滑
不过由于这个项目使用的是onnx的方式,可能导致了v1.1的onnx版本表现不及预期
(折腾一会而让这个库能跑v1.1,然后对比python示例发现onnx版本中文质量确实不行)
只能说未来可期吧,对ai这块我也刚入门,目前也没能力自己炼丹
<0x02> whisper.net
项目Github
这个包可以让C#用上Openai的whisper语音识别模型
建议配合NAudio的录制,需要自己实现处理逻辑
(虽然做不到即开即用,但这样也确实可以适配更多情况)
需要注意的是,传入的音频格式必须为wav,16k采样率
使用base模型做中文识别,效果还行