【开源项目】工业级ASR工具推荐:FunASR 一键部署,音视频语音高效转文本

玩技站长
玩技站长
管理员, Keymaster
7002
文章
2
粉丝
软件头条评论7字数 362阅读1分12秒阅读模式

【开源项目】工业级ASR工具推荐:FunASR 一键部署,音视频语音高效转文本-图片1

一、简介

  • FunASR 是一个基本的语音识别工具包,提供多种功能,包括语音识别ASR等
  • 基于FunASR,有很多可以直接使用的学术和工业级预训练模型,具有准确率高、效率高、部署便捷等优点,支撑语音识别业务的快速建设
  • FunASR开源项目地址:https://github.com/modelscope/FunASR
  • hello_asr是一个使用docker快速部署FunASR并转成API服务的工具,代码地址:https://github.com/luler/hello_asr

二、安装

  • 准备好docker、docker-compose环境,可以不使用GPU,直接在CPU上运行
  • 新建docker-compose.yml配置文件,配置内容如下:
    version: '3'
    services:
      hello_asr:
        image: dreamplay/hello_asr:latest
        ports:
          - 12369:12369
        restart: always
  • 在docker-compose.yml文件下一键运行(注意镜像包含模型和软件环境,会有点大,请耐心下载)
    docker-compose up -d

三、使用示例

提供的接口:POST: http://127.0.0.1:12369/asr

  • mp3、wav等音视频文件转成文字
    • 使用funasr直接把上传的音频转换成文本信息
    • 再根据funasr的转换结果,提取生成SRT字幕

【开源项目】工业级ASR工具推荐:FunASR 一键部署,音视频语音高效转文本-图片2

  • mp4等视频文件转文字
    • 原理就是通过ffmpeg把视频转成wav音频,再使用funasr对wav音频进行文本转换

【开源项目】工业级ASR工具推荐:FunASR 一键部署,音视频语音高效转文本-图片3

四、总结

  • 简单的提取音视频文本还是可以胜任的,音频识别准确率还是不错的
  • 如果需要提高转换性能,需要使用GPU来启动

 
  • 版权提示:非本站文章仅供存储任何法律责任由作者承担▷违法举报◁▷新闻不符◁▷我要投稿◁
    免责声明:部分内容来自用户上传发布或新闻客户端自媒体如有侵权请反馈站长处理
  • 原创转载:阅读转载说明>>> https://www.playezu.com/zixun/ruanjiantoutiao/kaiyuanxiangmugongyejiasrgongjutuijianfunasr-yijianbei.html
匿名

发表评论

匿名网友
确定

拖动滑块以完成验证