【Android】レコーダーアプリの文字起こしの精度

【Android】レコーダーアプリの文字起こしの精度を確認

Androidスマホで使える便利なGoolge製のレコーダーアプリは、音声の録音以外にも文字起こし機能が備わっています。

これがとても便利な機能なのですが、日本語の認識については、どれぐらいなのかが気になります。

この部分が、今後のリアルタイム翻訳の正確性と速度へとつながると思います。

という事で、今回はサンプルとして「Zガンダム」のクワトロ・バジーナの地球連邦政府のダカール会議での演説を使って、文字起こしの精度の確認をしてみたいと思います。

テレビを通じての音声を、Pixel5aのレコーダーアプリを使って文字起こしという条件となります。

 

クワトロ・バジーナの演説で文字起こしの精度確認

クワトロ・バジーナの演説内容で今回のテストで利用した部分は下記です。

議会の方と、このテレビを見ている連邦国々民の方には、突然の無礼を許して頂きたい。

私はエゥーゴのクワトロ・バジーナ大尉であります。

話の前に、もう一つ知っておいてもらいたい事があります。私はかつてシャア・アズナブルという名で呼ばれた事もある男だ。

 

3回録音し、文字起こしのテストをして確認しています。

1回目の文字起こし

1回目の文字起こしのテキストは下記ですが、一部滑舌や音声の影響もあり誤字がありますが、かなり高い精度で文字起こしできています。

「次回の方とこのテレビを見ている。連邦国国民の方には突然のブレを許していただきたい。私は雄吾の 9 月のバジーナタイであります。もう 1 つ知っておいてもらいたいことがあります。私はかつてシャアアズナブルという名で呼ばれたこともある男だ。」

 

 

2回目の文字起こし

2回目の文字起こしのテキストは下記ですが、同じ部分で誤字になっている事から、音声の方の問題のようです。

「次回の方とこのテレビを見ている。連邦国国民の方には突然のブレを許していただきたい。私は雄吾のクワトロバジーナタイヤであります。話のないもう 1 つ知っておいてもらいたいことがあります。私はかつてシャアアズナブルという名で呼ばれたこともある男だ。」

 

3回目の文字起こし

3回目の文字起こしのテキストは下記ですが、少し精度があがりましたが「無礼」「エゥーゴ」「大尉」の認識と判別が難しいようです。

議会の方とこのテレビを見ている。連邦国国民の方には突然のブレを許していただきたい。私は雄吾のクワトロバジーナであります。もう 1 つ知っておいてもらいたいことがあります。私はかつてシャアアズナブルという名で呼ばれたこともある男だ。

 

まとめ

今回のテストを見てもかなり精度の高い文字起こしができていると思います。

一般的ではない単語のエゥーゴは難しいのと、言葉が消失しがちな「い」が判別できないようです。

「ぶれい」が話し言葉の「ぶれ-」と認識されているような気がします。あと「たいい」も「たいぃ」という感じでしょうか。

ただ、それらを除けば、ほぼ間違いなく文字起こしができていますので、ビジネスレベルで活用ができると思います。

あと、シャアアズナブルを一度も間違えられる事がなかった点は驚きです。GoogleのAIがキーワードとして認識しているようです。

これから更に精度が上がれば書記が必要なくなりそうです。