免费开源 Constme-Whisper离线语音识别 v1.12识别率高速度快附模型

2023-07-24 20:50 作者:爱分享的剑二十七 0人读过 | 我要投稿

Constme-Whisper是OpenAI的Whisper自动语音识别ASR模型的衍生项目。

Constme-Whisper可以在Windows上使用，支持高性能GPGPU处理，可以利用GPU加速处理。

本体是个启动器，需要结合一个语言识别模型文件（ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large）使用，模型越大，效果越好，但相对的速度也更慢。

基于DirectCompute的与供应商无关的GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”
纯C++实现，除了基本的操作系统组件外，没有运行时依赖关系
比OpenAI的实现快得多。
混合 F16 / F32 精度：Windows 需要自 D3D 版本 10.0 起支持缓冲区R16_FLOAT
内置性能探查器，用于测量单个计算着色器的执行时间
内存使用率低
用于音频处理的媒体基础，支持大多数音频和视频格式（Ogg Vorbis除外），以及大多数在Windows上运行的音频捕获设备（除了一些专业设备，它们只实现ASIO API）。
用于音频捕获的语音活动检测。
易于使用的 COM 样式 API，nuget 上提供的惯用 C# 包装器
提供预构建的二进制文件

软件截图

下面是项目的一些介绍可以看看

High-performance GPGPU（General-Purpose Graphics Processing Unit）inference of OpenAI's Whisper automatic speech recognition (ASR) model 是指利用高性能图形处理单元进行OpenAI的Whisper自动语音识别（ASR）模型的推断（inference）过程。Whisper ASR模型是一种先进的语音识别技术，通过深度学习和人工智能的方法，能够准确地将语音转换为文本。而利用GPGPU进行推断，是为了加速这一模型的执行过程，提高语音识别的实时性和效率。

现代计算机的图形处理单元（GPU）已经不再是仅仅用于图形渲染的设备，其高度并行的计算能力使其适合处理许多其他类型的任务，包括机器学习和深度学习。通过充分发挥GPU的并行计算能力，可以加速Whisper ASR模型的推断过程，使其能够更快地对输入的语音进行分析和转录。

利用GPGPU进行Whisper ASR模型的推断有几个关键的优势。首先，GPU可以同时执行多个任务，因此可以并行处理多个音频流并在较短的时间内完成推断。这对于需要实时性的语音识别应用非常重要，例如语音助手、电话交互系统等。其次，GPU具有较高的计算能力和内存带宽，能够处理大量的语音数据，并在短时间内生成实时的识别结果。最后，利用GPGPU进行推断可以减轻主机CPU的负担，释放出更多的计算资源用于其他任务，提高整体系统的效率和性能。

除了提供高性能的语音识别推断，使用GPGPU还可以为Whisper ASR模型带来更广泛的应用和扩展性。目前，语音识别技术正在广泛应用于语音转写、语音指令、实时翻译等领域。通过利用GPGPU进行推断，Whisper ASR模型可以更好地满足这些应用的需要，提供更精确、更快速的识别服务。

总的来说，通过利用高性能GPGPU进行OpenAI的Whisper自动语音识别模型的推断，可以提高语音识别的实时性和效率。这一技术的应用将极大地推动语音识别在各个领域的发展，并为用户提供更优质、更便捷的语音交互体验。随着硬件和软件的不断创新和进步，相信GPGPU推断技术将在语音识别领域发挥越来越重要的作用。

下面是教程

目前这个工具只有英文版，没有中文。我写一个简单的教程吧
先下载解压好后，打开软件会提示让你选择模型，模型我已经准备好，就放在软件目录下