 不特定話者フレーズとは、誰の声でも認識できるフレーズのことでSR-MOD100はあらかじめ、よく利用されるフレーズ25語が登録されています。誰の声でも認識できるので、あらかじめ学習させる必要はありません。登録されているフレーズ一覧は下記の「不特定話者登録フレーズ一覧」をご覧ください。 |  | | 不特定話者認識の場合 | 特定話者フレーズとは、決まった人の声のみを認識できるフレーズのことで、最大32語(※1)を登録することができます。特定話者フレーズは5秒以内の音声について音声認識が可能で、任意のフレーズをSR-MOD100に登録させて、最初にその音声を2回程度反復学習させることで、音声認識が可能となります。 話者特定フレーズは最大32語まで登録できますので、例えば同じフレーズでも話者を変えて登録・学習させれば複数の話者の音声認識にも対応できます。 |  | | 特定話者認識の場合 | ※本製品は、すべての場合に対して音声認識の精度を保証するものではありません。例えば、話者に方言等のなまりがあったり、背景雑音が大きい場合や、声の音量が小さい又は過大すぎる場合、認識しにくい声質だったりするなど、様々な要因で認識精度が低下することがあります。本製品の認識精度はすべての場合において、その精度を保証するものではありません。あらかじめご了承下さい。 ※1:32フレーズとは、パスワードフレーズ(SVフレーズ)の5フレーズを除いた場合の登録可能数です。SVフレーズを登録すると、その分特定話者認識フレーズ(SDフレーズ)の32フレーズの登録可能数は減ります。SVフレーズを最大の5フレーズ登録すると、SDフレーズは27フレーズとなります。  すべての制御はTX線とRX線の2線式非同期式シリアル通信(UART)となります。ロジック電圧レベルは0V-5Vですので、PICマイコン等のTTL回路と直結して利用可能です。(仕様は0V-3.3VですがIOピンは5Vトレラントです。)
音声認識させるフレーズは、すべてグループ分けしてそのグループ内に番号0から順番に登録させることができます。下記例をご紹介します。例えば下記例では、Group1に0〜4までの5つのフレーズが登録されています。これは特定話者認識フレーズですのでユーザーが登録したフレーズです。 
登録内容はすべてSR-MOD100本体の不揮発性メモリーに記憶されます。電源を切断してもフレーズや学習内容は保持されます。 ここで、音声認識を開始するコマンド(64h)と、グループを指定する値を送信します。この場合にはGroup1を指定します。コマンドを受信するとSR-MOD100は音声入力の待機状態となりますので、マイクに向かってフレーズを発声します。例えば「ストップ」と発声した場合、その音声が認識されると、SR-MOD100は認識完了のコマンドと、認識したフレーズがGroup1のIndex2に該当する音声だったことをシリアル通信で出力します。 PICマイコン等の制御側からは、その送られてくるコマンドを読むだけで、どの音声が発声されたのかが分かります。ユーザーが任意のフレーズを登録できる特定話者認識フレーズは最大15グループに32語まで登録が可能です。グループ分けをすることで、話者を分けたり、シーンに応じたフレーズに振り分けたりすることが可能です。 フレーズの登録並びに管理は、パソコン上から専用のソフトウエアにて行うことができます。パソコンとは別売のUSB接続キット(60R800)を使用して接続することができます。UART通信なので、自作にてMAX232等のレベル変換ICを介してパソコンのRS232Cポートと接続することも可能です。 
※上記模式図の手順3では実際には73hの後に次の値を送信させるためにマイコン側から20hを送信する必要があります。  フレーズの登録や管理はすべてUARTコマンドなのでマイコン等からも行えますが、パソコンと接続すれば、専用のユーティリティソフトで簡単に制御、管理ができます。パソコンとは、別売のUSB接続キット(60R800)と7ピンヘッダーピン(63CT1)にて接続が行えます。
ユーティリティソフトでは、SR-MOD100のすべての機能をパソコン上から操作することができます。また、フレーズ登録の際の文字列登録や、フレーズ学習の回数管理なども行うことができます。登録内容、学習内容等はすべてSR-MOD100本体の不揮発性メモリーに記憶されます。 動作確認も簡単です。フレーズ登録と学習をさせた後、音声認識開始ボタンを押して、SR-MOD100のマイクに向かって発声するだけで、登録されたフレーズと一致すれば、そのフレーズを反転表示させて、認識ができたことを視認できます。 
 SR-MOD100は話者に依存する特定話者認識と、話者を特定しない不特定話者認識の音声認識が可能ですが、その他にもう1つ、話者特定フレーズ機能も搭載しています。この機能は同じフレーズに対して(別のフレーズでも可能)、最大5人までの音声を学習登録させることで、話者の声質から話者を識別する機能です。
例えば、同じフレーズ「解錠(カイジョウ)」を登録し、これに対して5人の話者が発声して学習、登録させるとSR-MOD100は、5人の話者の声質分析して記憶します。話者特定フレーズ認識実行コマンドを送信して、マイクより「カイジョウ」と音声を入力すると、どの話者の声なのかを特定してその結果を出力します。 声質によって識別ができるため、誰が発した音声なのかを識別することができます。パスワード機能のような働きができますので、例えば声で解錠できるおもちゃ等のキーアプリケーションなどに応用できます。 ※本機能は、話者を完全に特定及び認識できることを保証するものではありません。よって、セキュリティが求められる場所へは適用できません。あくまでもホビーユースの範囲内でのご使用にとどめて頂けますようお願い致します。  使用可能言語は日本語はもちろんのこと、英語・イタリア語・ドイツ語・フランス語・スペイン語の6カ国語に標準で対応しています。
それぞれの言語に対応することで、ネイティブの発音で正しく音声認識がでるきように調整されています。 ※他言語を母国語としない日本人が、他言語(例えばドイツ語)などを、ネイティブとは異なる発音で発声した場合、ドイツ語設定をしていても正しく認識しません。各言語はそれぞれの言語を母国語とする話者が、正しいイントネーションで発声した場合に認識されるよう最適化されています。 ■ 不特定話者登録フレーズ一覧(日本語) | 不特定話者フレーズWordset 1 | | アクション | 進め | 曲がれ | 走れ | 見ろ | 攻撃 | 止まれ | | こんにちは | | | | | | | | 不特定話者フレーズWordset 2 | | 左 | 右 | 上 | 下 | 前 | 後ろ | | | 不特定話者フレーズWordset 3 | | ゼロ | イチ | ニ | サン | ヨン | ゴ | ロク | | ナナ | ハチ | キュウ又はク | ジュウ | | | | 上記25語は、話者が誰であっても共通して認識できるフレーズです。 なお、不特定話者認識フレーズは、あらかじめ登録されているフレーズであって、これを変更したり追加又は削除することはできません。
|