网站背景图
西橘日志 喂马 劈柴 周游世界
博主

昨天 08:15在线

西橘日志
喂马 劈柴 周游世界
博主 西橘日志
晋ICP备17001937号喂马 劈柴 周游世界 博主 昨天 08:15 在线自豪地使用 Typecho 建站搭配使用 🌻Sunny 主题当前在线 10 人

晋ICP备17001937号

喂马 劈柴 周游世界

网站已运行 7 年 317 天 9 小时 31 分

Powered by Typecho & Sunny

11 online · 61 ms

作者
崚影

有没有开源的语音转文本模型,同时有时间轴和识别人分离的功能

25次阅读

0

Comment:共2条
发表
  1. 头像
    @
    https://modelscope.cn/home 看看
    · Windows · Chrome · 中国上海市联通

    👍

    💖

    💯

    💦

    😄

    🪙

    👍 0 💖 0 💯 0 💦 0 😄 0 🪙 0
    1. 头像
      @

      博主

      崚影
      @ayiya
      我试了,用whisper large v3 turbo模型,可以语音识别,有时间轴,但是没有说话人分离,于是我用了两个方法,一个方法是让LLM模型通过说话人意图来分别,另一种是通过pyannote模型直接识别,目前看两个都可以,就差语音转文本的识别准确率待提高了
      · Windows · Chrome · 中国江苏省无锡市电信

      👍

      💖

      💯

      💦

      😄

      🪙

      👍 0 💖 0 💯 0 💦 0 😄 0 🪙 0
搜索 消息 足迹
你还不曾留言过..
你还不曾留下足迹..
博主 不再显示
博主
未知作品 歌曲封面
博主 立即安装