欢迎光临散文网 会员登陆 & 注册

免费开源 Constme-Whisper离线语音识别 v1.12识别率高 速度快 附模型

2023-07-24 20:50 作者:爱分享的剑二十七  | 我要投稿

Constme-Whisper是OpenAI的Whisper自动语音识别ASR模型的衍生项目。

Constme-Whisper可以在Windows上使用,支持高性能GPGPU处理,可以利用GPU加速处理。

本体是个启动器,需要结合一个语言识别模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相对的速度也更慢。

  • 基于DirectCompute的与供应商无关的GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”

  • 纯C++实现,除了基本的操作系统组件外,没有运行时依赖关系

  • 比OpenAI的实现快得多。

  • 混合 F16 / F32 精度:Windows 需要自 D3D 版本 10.0 起支持缓冲区R16_FLOAT

  • 内置性能探查器,用于测量单个计算着色器的执行时间

  • 内存使用率低

  • 用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis除外), 以及大多数在Windows上运行的音频捕获设备(除了一些专业设备,它们只实现ASIO API)。

  • 用于音频捕获的语音活动检测。

  • 易于使用的 COM 样式 API,nuget 上提供的惯用 C# 包装器

  • 提供预构建的二进制文件

软件截图





下面是项目的一些介绍 可以看看

High-performance GPGPU(General-Purpose Graphics Processing Unit)inference of OpenAI's Whisper automatic speech recognition (ASR) model 是指利用高性能图形处理单元进行OpenAI的Whisper自动语音识别(ASR)模型的推断(inference)过程。Whisper ASR模型是一种先进的语音识别技术,通过深度学习和人工智能的方法,能够准确地将语音转换为文本。而利用GPGPU进行推断,是为了加速这一模型的执行过程,提高语音识别的实时性和效率。

现代计算机的图形处理单元(GPU)已经不再是仅仅用于图形渲染的设备,其高度并行的计算能力使其适合处理许多其他类型的任务,包括机器学习和深度学习。通过充分发挥GPU的并行计算能力,可以加速Whisper ASR模型的推断过程,使其能够更快地对输入的语音进行分析和转录。

利用GPGPU进行Whisper ASR模型的推断有几个关键的优势。首先,GPU可以同时执行多个任务,因此可以并行处理多个音频流并在较短的时间内完成推断。这对于需要实时性的语音识别应用非常重要,例如语音助手、电话交互系统等。其次,GPU具有较高的计算能力和内存带宽,能够处理大量的语音数据,并在短时间内生成实时的识别结果。最后,利用GPGPU进行推断可以减轻主机CPU的负担,释放出更多的计算资源用于其他任务,提高整体系统的效率和性能。

除了提供高性能的语音识别推断,使用GPGPU还可以为Whisper ASR模型带来更广泛的应用和扩展性。目前,语音识别技术正在广泛应用于语音转写、语音指令、实时翻译等领域。通过利用GPGPU进行推断,Whisper ASR模型可以更好地满足这些应用的需要,提供更精确、更快速的识别服务。

总的来说,通过利用高性能GPGPU进行OpenAI的Whisper自动语音识别模型的推断,可以提高语音识别的实时性和效率。这一技术的应用将极大地推动语音识别在各个领域的发展,并为用户提供更优质、更便捷的语音交互体验。随着硬件和软件的不断创新和进步,相信GPGPU推断技术将在语音识别领域发挥越来越重要的作用。

下面是教程

目前这个工具只有英文版,没有中文。我写一个简单的教程吧
先下载解压好后,打开软件会提示让你选择模型,模型我已经准备好,就放在软件目录下


为了方便我选择了那个体积最大的模型。。。其他默认,等待几秒。进入下一个界面 如下


transcribe file 就是你需要生成文字的视频。我随便找了一段素材。

output format 就是输出文件 让你选择


格式看你自己需要了。这里注意的语言那里要选chinese。

后面的翻译不要点,否则会自动翻译成英文了

一切就绪后点击右下方的transcribe 生成的速度嘛 看你的电脑硬件配置了,都是离线操作。

我大致测试了几个视频生成文字后识别率还是很高的

给你们截图一下我生成的文字


下面这个图片是手贱点了翻译后生成的。。。

英文翻译的地道不地道我也不知道,只能说能看,谁叫我英文早还给老师了


这个软件还有个麦克风输入生成文字,这个我没试,有需要的小伙伴 你们可以试试?

免费开源 Constme-Whisper离线语音识别 v1.12识别率高 速度快 附模型的评论 (共 条)

分享到微博请遵守国家法律