无障碍完全翻译指南

写给自己:这是我曾经在探索“文字翻译和语音翻译”方面做出的一些努力,包含令人兴奋的丰富的图片、视频和超链接,是以往对技术历史性的见证,表述是以分享的口吻。同时这是我用obsidian写的第一篇文章,它可能完全不适合阅读,好在它更像一个历史性的归档,我不需要频繁的复习它。
##复习 deepl+沉浸式翻译。whisper的各种姿势除了自己写API调用。win11实时字幕的玩——找不到合适的翻译字幕方法。
目录
文字翻译
目前最受欢迎的网页翻译插件一一沉浸式翻译
自由文本与OCR翻译最优解决方案一一DeepL
专业文本翻译方案一一Gpt4(Gpt3.5也行)
图片PDF文本翻译方案一一浏览器打开用插件或Deepl文件翻译
语音翻译
最精确的语音转文字应用一一Whisper
在云端运行【推荐】:三个项目(包括N46Whisper)
本地运行
极客-李沐老师优化
使用开发好的应用程序(Buzz等)
最便捷的语音转文字应用一一Win11实时字幕
文影——OCR已有英语字幕并翻译为中文
其他更简单方案一一采用虚拟音源线 Cable 把桌面音频当成麦克风输入
目前最受欢迎的网页翻译插件 ——沉浸式翻译

官网 https://immersive-translate.owenyoung.com/
Github https://github.com/immersive-translate/immersive-translate
完全免费!类似彩云小译的翻译效果。支持多种翻译API如谷歌翻译、Deepl和OpenAI的Chatgpt。使用它可以实现浏览器上任何语言的无障碍阅读。
个人使用下来,平常我用谷歌翻译,速度快。遇到对翻译质量有要求时候,用OpenAI,openai准特别多但是有点慢,需要等一会儿。插件支持把配置同步到Google Drive,我开启了这个,方便在多个浏览器中使用同种译文样式。
自由文本与OCR翻译最优解决方案——DeepL

DeepL翻译我就不多说了,大家都知道,带AI属性,大多数语种比Google机翻好很多。翻译结果可以选词重做(如图),写应试英语作文很好用。桌面端支持OCR,而且快捷键Ctrl+c+c(Ctrl+按两下c)特别方便,在任何时候能唤起。
专业文本翻译方案—— Gpt4 (Gpt3.5也行)

如图,使用诗人预设身份,对禅诗进行翻译,要求尽可能押韵和韵味,gpt3.5 翻译质量约等于英专生。可以预设任何需要的专业身份,然后要求翻译甚至润色。感觉能取代普通的人工代翻。
如果你要实现便捷的使用Chatgpt翻译调用,可以使用 既是浏览器插件也是跨平台桌面端应用 的 [OpenAI Translator](https://github.com/yetone/openai-translator)

什么,你不知道怎么注册 [国内注册的方法和过程,账号注册教程](https://www.yundongfang.com/Yun212199.html?ref=chatgpt.yundongfang.com)
图片PDF文本翻译方案——浏览器打开用插件或Deepl文件翻译
*这方面我用到比较少,可能有更好的方案
阅读而言,用浏览器打开PDF,然后用沉浸式翻译插件翻译就行了
需要有成品的话,可以用Deepl网页端破解版插件[DeepL-Crack](https://github.com/blueagler/DeepL-Crack)来免费翻译5MB以下的PDF、Word、PPT或txt文件
效果如下,保留排版,结果可编辑。图片里无法翻译,专业术语领域表现稍差,通用领域应该很不错。

语音翻译
上网冲浪只是文字翻译哪里够,看视频看直播的翻译需求更大。语音翻译一般分为语音识别和翻译两部分。
最精确的语音转文字应用——Whisper

如上述视频效果(这里本来是个能直接播放的iframe框架),使用whisper对日语直播进行实时转录为文字
whisper是OpenAI开发的语音识别模型,免费,识别正确率上目前吊打其他对手。
因为吃电脑的显存比较大,且在本地运行配置环境比较麻烦,推荐在云端colab进行配置,非常简单。可供参考的一些项目组:
在云端运行【推荐】
N46Whisper项目 (日语字幕组)【含OpenAI翻译接口】
任何本地视频上传到云端上配双语字幕然后下载(不局限于日语)
N46Whisper Colab直达含教程 [N46Whisper.ipynb - Colaboratory (google.com)](https://colab.research.google.com/github/Ayanaminn/N46Whisper/blob/main/N46Whisper.ipynb#scrollTo=k5n2xrB631JV)
官方Github地址 [ GitHub - Ayanaminn/N46Whisper: 基于whisper的日文字幕生成器](https://github.com/Ayanaminn/N46Whisper)
有不懂的话可以看以下教程
专栏教程

专栏完全小白教程

B站搜索 N46Whisper 也有很多手把手操作教程,跟着点就行
现在你已经知道colab怎么用了,试试接下来的项目
基于whisper的直播语音转字幕项目 colab_whipser_stream_translator
任何直播流的语音转文字转录(任何直播平台)【不含翻译】
**Colab直达含教程 [colab_whipser_stream_translator.ipynb - Colaboratory (google.com)](https://colab.research.google.com/drive/1SEhfzUSm07IUjMd5_HrbmXd9cyh0N-wW?usp=sharing)
作者本人专栏教程

直播流的翻译是刚需。配合使用浏览器自带的Google Translate翻译转录的外语。
OpenAI-Whisper-語音辨識-製作字幕檔-v2项目
为Youtube影片、撥放清單、 Vocaroo 網址),或是上載後的影片配字幕【不含翻译】
Colab直达含教程 [2023-03-07-OpenAI-Whisper-語音辨識-製作字幕檔-v2.ipynb - Colaboratory (google.com)](https://colab.research.google.com/drive/1oKn8MgZETXxT0t6iLM4JcN_LmuhckSTl)
作者本人视频 [使用 OpenAI Whisper 製作影音的字幕或逐字稿 - YouTube](https://www.youtube.com/watch?v=m5q8jZ8aZl0)
本地运行
Whisper Github:https://github.com/openai/whisper
可供参考的分享:

极客-优化

李沐老师做了一些很厉害的对于whisper甚至是剪视频工作本身的优化,如针对没有说话的部分剪裁掉(剪去空白的地方)、通过字幕剪辑视频。这方面我还有很大的研究空间。
使用开发好的应用程序
在本地配置好环境后,使用应用程序无需命令行地语音转文字
*列出知道的几个,应该还有很多类似的,大概就是封装一下做个界面。我没怎么试过,跑large电脑带不动,不如白嫖colab。


最便捷的语音转文字应用——Win11实时字幕
目前的win11最新版支持英文实时字幕。win11体验计划的先行版本Build 25300以上支持中文、法语、德语、英语、葡萄牙语、西班牙语的实时字幕
win11英文实时字幕准确率很高。其他语言大概有八成以上准确率。
可以配合 实时字幕翻译软件
文影【实时OCR已有英语字幕并翻译为中文(只支持英语)】

(希望之后能支持各种语言)
效果如下
应用场景:看Twitch直播

应用场景:给Spotify配字幕

有字幕和无字幕的视频阅读速度是天壤之别的,运用win11实时中文字幕也非常便于快速浏览没有字幕的B站中文视频,大概2.5倍速是能接受的准确度极限。
类似的应用还有chrome实时字幕(只支持英语)

也可以在chrome打开本地视频进行离线转录。
其他更简单方案——采用虚拟音源线把桌面音频当成麦克风输入
使用 虚拟音源线 Cable + Google Translate语音输入
效果如下:

教程:https://www.youtube.com/embed/rkzhTCjdXoU
使用 虚拟音源线 Cable+讯飞输入法语音输入+Deepl翻译
效果如下,语音输入与win11实时法语字幕相差不大。

这是我目前看非英语外语直播或无字幕视频的解决方案,选用Deepl是因为它的显示界面比Google Translate好,输入框文字和翻译结果都会自动滚动。
而google translate视角会随着输入框输入光标滚动,在这在大量文本输入后会造成巨大错位,不方便作字幕观看(因为外语输入一整页了中文输出才半页)。

全文完 2023.4.2更新
当前听歌上网,无障碍效果如下。还是喜欢这样悬浮的真正的字幕界面,实时字幕这块目前仍有不足,希望很快能够有任意外语的双语字幕。

写完就后悔了,不该写这种历史性回顾,应该做渐进阅读