faster-whisperを使って口述筆記に挑戦

OpenAI社のAIの話を追っかけでして、Whisperの存在を知り、口述筆記をやってみたいと思って居た。

そしたら先日、Whisperより早く、GPUも食わないfaster-whisperというモジュールの存在を知った。

一昨日、以下のサイトからサンプルプログラムを頂き、動かしてみた。結果は良好。

[ローカル環境] faster-whisperを利用してリアルタイム文字起こしに挑戦

しかし残念な事にこのプログラムは話したものをテキストに落とす部分が無い。あと、終了させるときにエラーが出ちゃう。そこをちょいとだけ改造してみた。昨夜何度か試したが、問題は無い模様。次はGUIにしたり、ChatGPTと連携させたりとかかな?

黒歴史、作ります。後ChatGPTすごい。

今年のGWはプログラム作成強化週間となりました。

先月末から別アカウントの方で使うソフトを作成し、今日リリース。小っさいプログラムなので今後アップデートは余り無い予定。GUIがダサいので多少作り直すかもしれないけど。

で、GWの残り何をするか。

今回プログラムをChatGPT4と作って思ったんだけども。ChatGPT4との協力は良いね。何が良いかって言うと、作業に対する心理的な敷居がだいぶ低くなる。

引っかかったらとりあえず聞く。何らかの答えが出る。自分で調べるなりもう一回聞くなりして精度を高める。一人で作ってると煮詰まりがち。そして段々面倒くさくなって止まる。やりたい事が見つかっても、とっかかりが見つからなくて止まってしまう。そういう事がかなり減る。これは私のようなやる気無し勢からするとデカい。

まぁただ、普段のスピードと違ってウェイトがあまり掛からないので、疲れちゃうのが玉に瑕、か?

で、そこで思ったんですわ。そーいえば、敷居が高くなって止まったモノがあったなと。

小説です。以前、書いてた小説、カクヨムに載せてたんだけど1話書くのに5時間は掛かってた。それでも中断したり何たりしながらも一年半くらいは頑張ったのかな。でもそこで止まってしまった。やっぱり1話に時間が掛かりすぎる。書くことに対して気が重くなってしまった。

そこでChatGPTですよ。アイディア出しとか執筆そのものなんかをフォローしてくれると嬉しい。全自動というのはよく見かけるけど、協力態勢はあまり見かけない。そして短編では無くて長編の手伝いをしてほしい。

ChatGPTの記憶に関してはトークン毎の料金の問題もあり、あまり使える手段では無い。なので、全編を通してのアドバイスとかはちょっと難しい。スポットで表現を見て貰うとかそんな感じになるのかな?

となれば、一番にやって貰いたいのは口述筆記。大まかにやってくれれば良い。後は手動で直したりChatGPTに投げたり出来ればそれで。下ごしらえをしてくれるだけで大幅に時短になるし、モチベーション維持にも役立つはず。

幸い、OpenAIのソフトにはWhisperというものがある。ネットで見かけるのはこれのAPIを使ってのSpeech to Text(or chat)な訳なのだが、せっかくRTX3080(12Gver)を持っているのでローカルで動かしたい。これを使って喋った内容を一端テキストに変換する。これを第1段階とする。

変換が出来るようになったら、それを適当なテキストボックスか何かに入れて雑に編集。質問点なんかを添えてChatGPTに質問。戻ってきたモノを見ながら修正。さらに再質問、みたいなサイクルが出来ると良いなと。

まぁ雑に考えているだけなので、やっていくうちに変わる部分も多々有ると思うのだけど、とりあえずはこんな感じ。