音声認識に関して関心があり試してもいたのだがこんな記事があり
大変参考になった
なるほど、そうなのか
http://www.geocities.jp/seitai_77/index.html
XP 音声認識 Office2003の音声認識を使いこなそう Windows7の音声認識も
音声認識の実際 設定1 認識UP法のコツ 他の認識ソフトとの比較 new 2009-12-7 更新
膨大な古い手書きの原稿(ガリ版刷り等)はスキャナーで読み取っても文字認識しくれないので、
それらのデジタル化に僕は音声認識を使用してます。
「音声認識を使いこなそう」というホームページで、音声認識ソフトで文章入力する時、
手助けになればと思って作りました。
「音声認識」で検索してみたところ、実際に音声認識を使いこなしている方が、
少ないように感じたのと、音声認識は「使いものにならない、おもちゃ」、
という声をよく耳にしたので、こういうのがあってもいいと考えて作りました。
音声認識を使い始めてから7、8年は経っています。
テキストデータで少なくとも、16MB以上(400字×2万枚以上)は入力しましたが、
初期の頃はビアボイスV10+ATOKを使っていましたが、今はXP,Office2003の音声認識で殆ど入力してます。
メール文、ブロク、ネット検索も殆ど音声認識です。
なにせ、キーボード入力が指一本でする位に極端に遅いので………。
今迄に色々な経験した事を、載せてもいいかなと思いこのページを作りました。
参考 http://support.microsoft.com/kb/826853/ja
参考 http://www.microsoft.com/japan/enable/products/windowsvista/adjspeech.mspx(ビスタ)
参考 http://technet.microsoft.com/ja-jp/library/cc835563.aspx (ビスタ)
参考 http://windows.microsoft.com/ja-JP/windows7/Set-up-Speech-Recognition (Windows7)
new
★Windows7(Home Premium & Professional)が09/10/22に宅配便で来ました。
Windows7 起動(ネットに繋がる迄)1分07秒 シャットダウン18秒(CPU Core2 T7200 2GHz メモリー1GB)
XP 起動(ネットに繋がる迄)1分21秒 シャットダウン37秒(CPU Core2 T7200 2GHz メモリー1GB)
Windows7かなり早い。
うちのDELL(ノート)のパソコンはデュアルブートにしてあり、Windows7用パーティションを作って、
XPでもWindows7でも使えるようにしてあります。Windows7を使う時は、パーティションソフトで
Windows7パーティションをアクティブにして、再起動するとWindows7になるようにしてあります。
普段は電源を入れるとXPしか立ち上がらないようにしてあり、必要な時だけWindows7にします。
Windows7音声認識Ver 6.1(ビルト7600) 音声認識エンジン8.0
ビスタ 音声認識Ver 6.0(ビルト6000) 音声認識エンジン8.0
XP 音声認識 Microsoft Japanese V6.1 Recognizer
音声認識に関してWindows7はビスタと今のところ殆ど同じですが、認識率はアップしているかな?
トレーニングなしでも殆ど認識するし、勝手にコマンドが働く(ビスタの時は閉口した)のも少ないようで
すが、一寸使い込んでみましたが殆どビスタと変わらない。
Windows7、ビスタの音声認識はキーボード入力が遅い人の為の補助機能の様に思われます。
Office2003とWindows7とを使い比べてみましたが、やはり僕にはOffice2003の方が合っているようだ。
Office2003は使いこんでいくとすぐ認識率が上がるが、Windows7、ビスタはOffice2003の様には上がらない。
Office2003の何とかして欲しい点は、「ここは漢字で、ここはひらがなで」という事が出来ない事です。
又「◎」と認識して欲しいが、必ず「二十。」と出てくる。Windows7、ビスタは「二十。」は認識しないよう
に設定できるが、Office2003はそういう機能がなくて、色々試しましたが、やはり上手く行か
ない。
仕方がないので、入力最後に置き換え一括変換をしてます。
「Windows音声認識を使用すると、ユーザーがやりたいことをコンピューターに音声で指示することができ
ます。たとえば、受信者の名前やメッセージの内容を話しかけることで、簡単に電子メールを作成できま
す。Windows7では音声認識機能の精度が高まっています。さらに、Windows7の音声認識では、多くの一般
的なアプリケーションのディクテーションをサポートします」と書いてあるが………。
★Windows7,ビスタの音声認識の設定
設定1
スタートボタン→コントロールパネル→コンピュータの簡単操作→音声認識オプション→マイクのセット
アップ→次へ→次へ→………→完了。
設定2
音声認識オプション→ユーザーの音声をより正確に……させる→次へ(8分)→完了
これで、音声認識の開始ボタンを押せばこれで音声認識は使用出来ます。
XPのOffice2003の音声認識に比べるとWindows7,ビスタの設定はきわめて簡単です。
★Windows7にOffice2003をインストールしてOffice2003の音声認識が使えるか試してみましたが、
使えませんでした。
トップへ
音声認識はヒット率が悪いので音声認識を使用しない方が多いようです。
「使い物にならない」とか聞きますが、50文字で一単語の誤認識ぐらいで私は使ってます。
認識率90%から97%です。ちなみにうちはこんな具合です(55秒で入力)。
(シャープメビウス,OSはXP,Office2003,AvanceAC97Audio)(2002-4月購入)
★入力したい文章
「だから必要なものだから食ったら良いだろうと言って食ったってそれは何もならない。そういう吸収する条件を作らなくてはならない。それを必要としてる状態に仍って良い物も悪くなったり悪い物も良くなったりするので、栄養物の化学を栄養の化学だと間違えてしまって何でも栄養の沢山含まれているものさえ食えば丈夫になる様に錯覚してる様な事は体ということが抜きになってる。」
★音声認識された文章
「だから必要なものだから食ったらよいだろうといって食ったってそれは何もならない。そういう吸収する条件を作らなくてはならない。それを必要としてる状態によって良いものも悪くなったり悪いものも良くなったりするので、栄養物の科学を併用の科学だと間違えてしまって何でも栄養のたくさん含まれている猛者へ来れば丈夫になるように錯覚してるようなことはからだということが抜きになっている。」
175文字中完全な間違いは「栄養(併用)」と「ものさえ食えば(猛者へ来れば)」でした。もう一度読み直したら「栄養」と「ものさえ食えば」も認識してくれました。
あとは「仍って(よって)、物(もの)、化学(科学)、沢山(たくさん)、様に(ように)、体(からだ)」等です。
最初から、こんなに認識率はよくないです。たまごっちと同じように飼いならし、
使い込んで行くとこれ位になります。最初で75%~80%は認識してくれると思います。最初でこれ位認識しな
い場合はオーディオデバイスとの相性が悪いと思われます。
一週間位、音声認識ソフトを使ってみて段々認識率が上がってこない場合は使用を止めた方が賢明かな。
最初から音声だけはきちっと拾ってない場合は(「曖昧模糊として」を「曖昧も事して」等)、
何か具合の悪い所があるように思われます。我が家のパソコン工房製ディスクトップPCは色々試しましたが、
いまだに認識率が上がらない。理由は分らず。(他のPCはそんな事ないのに……たぶんオーディオデバイスの性能がよすぎるので余分な音まで拾ってしまうのでは?)
マイクロソフトOffice2003(OfficeXPでも可)インストール済みかを確認。
(Office2007は使用不可、ビスタOSの中に音声認識機能が組み込まれている)
パソコンによってはOffce2003の音声認識部分だけインストールされていないのが、たまにあります。
Office2003の全てを一旦アンイストールして、もう一度Officeのすべての機能(完全)をインストールし直すのが
一番手っ取り早い。
1.言語バーの右クリック→設定→詳細設定→
「互換性の構成」にチェック入れる→適用、OK (再起動させる)
これでWordでも一太郎でも、メモ帳でもワードパッドでも
メール文でも検索も音声認識で文章が書けます。
ブログの日記も音声入力で書き込む事が出来ます。
2.言語バーの音声認識ツール(長方形に小さいマイクのマーク)→オプション
(出ない時、メモ帳で何か文字入力をする)→下の方、音声認識の詳細設定→音声認識プロパティー画面
(スタートボタン→コントロールパネル→サウンド、音声、およびオーディオデバイス→音声認識をクリ
ック→音声認識のプロパティ、これでも出ます)
(音声認識ツール→オプション(音声認識の入力設定で)→音声認識データをサポートするアプリケーション
のドキュメントで保存するにチェッ
クを入れる)
★音声認識のプロパティー画面について
プロファイルの認識……子供が使ったりママが使ったり、或いは常時使う人が別の環境で使う時などに設定
する名前(「既定の音声プロファイル」を使っても良い)
新規……既定の音声プロファイル以外を新規登録する時
トレーニングする人の名前や環境などを登録すると良い
設定……認識の感度や認識の正確度と応答時間の調整(「高/長」側にした方がよさそうです)
プロファイルのトレーニング……音声認識の認識率を上げる為のトレーニング
(トレーニングは最低三つ(30分弱)はするといいです)
(七つ全部トレーニング(1時間10分位)すれば一番良いが……)
マイクの構成……マイクの入力ボリュームを適正にする
(時たまやった方うがいいです)
とりあえず「既定の音声プロファイル」にチェックが入っているのを確認して、
パソコンにヘッドセットを差し込んで、プロファイルのトレーニングのイントロを一つだけしましょう。
(9分位かかる、トレーニングがすらすらいけばマイクのとの相性はいいです。)
あとで追加のトレーニングをします。
3.音声認識にはディクテーションモード(文章入力)と
音声コマンドモード(音声により機能を実行させるモード)の二つがあります。
言語バーの「マイク」をクリックして、言語バーの一番右の下向き▽(KANA右隣)
←ここ
をクリックすると一覧の中にディクテーションモードと音声コマンドモード
が出てきます。チェックを入れるとどちらも使用可能になります。
ディクテーションモードと音声コマンドモードを両方一緒に使うことは出来ない設定になっている。
今回は文章入力なのでディクテーションモードには必ずチェックを入れる。
そして言語バーのマイクマークをクリックすると右隣にディクテーションモードマークが
出ますので、それをクリックして実行中(青色が濃くなります)にします。
設定1.2.3.迄の設定が出来れば音声認識は使用可能になります。
(ディクテーションモードマークの右隣の白抜きの長方形の窓に「聞き取り中」が出る)
(「聞き取り中」が出ない時は矢印キー(↑、←、↓、→等)のどれかを押すと出ます)
ヘッドセットをパソコンに差し込んで、(マイクの構成で音量を適正にしてから)
試しにメモ帳かWordで、マイクに向かって
「今日はよい天気」と言ってみましょう。
「今日はよい天気」と文字が出れば成功!
そして、音声認識ツールの単語の追加と削除に新単語(例 近接場光)を登録する。
また、単語/用例の登録で新単語(例 近接場光(きんせつばこう))を登録して、(登録しなくても音声認識は
するが…)
マイクに向かって
「近接場光という光は特別なものらしい」と言ってみましょう。
「近接場光という光は特別なものらしい」と文字が出れば大成功!
★咳、くしゃみなどした時、(音量調節が変わる為なのか?……)認識率がガクンと
落ちる事がよくあります。そういう時は再起動すると元の認識率に戻ります。
トップへ
基本的には(他の認識ソフトも)マイクとの相性、それと音声認識に合う自分用の辞書にいかにするかで
す。
IMEのツール→プロパティ→辞書学習→参照→imjp9u(.txtデータ)をどこかに保存しておくといいです。
A、パソコンに入っているオーディオデバイスとマイクの相性。これが結構音声認識に影響があります。
認識率アップのトレーニングがすんなりスラスラ行くようならばオーディオデバイスとの相性はいいと思
われます。相性が悪い場合トレーニングがつっかえつっかえになります。
一般的に言ってノートパソコンの方が内部雑音が少ない為か、認識率はいい様です。
また、マイク音量はじゃっかん低めの方が余分な音を拾わない為、認識率はいい(PCにもよるが)
我が家にはパソコン六台(BTO-PC、デル、富士通、パナソニック、パソコン工房、シャープ)ありますが、
デル、シャープ、富士通の順で認識率がいいです。特にデルは95%以上のヒット率です。
パソコン工房のは内部雑音を拾うせいかかなり認識率が悪い。色々試したが結局認識率上がらず。
理由はよく分らない。たぶん内部雑音のせいかサウンドデバイスとの相性が悪いのでしょう。
最近(2009/4/27)、CPU(i7 940 2.93GH メモリ12G)のBTO-PCを買いましたが、文字が出てくるまでが早い、
これは気持ちいい。そのうちハードディスクをSSDにすると、どうなるかやる予定。
ヘッドセットを六種類、20個以上購入しました。感度が余りにも良すぎても悪くてもいけないようです。
感度が良すぎる(-40db)と不要な音まで拾ってしまう為、勝手に認識してしまうことがありました。
マイク感度(-55dB前後)(うちのは-58dB)が良さそうです。
USB型マイクは使った事がないので分かりませんが、
(マイクロソフト社はUSB型マイクを推奨してます)
USB型マイクの方が雑音を拾いにくいので良いかもしれません。
マイクの性能は結構バラツキがあります。Made in Chinaは性能に結構バラツキがあります。
中にはマイクがほとんど音声を拾わないのもあり、(返品してくれた)
音声を拾ってもガサガサの音のが二つもありました(返品してくれなかった)。
B、人の会話が周りである所、テレビの音は認識率は落ちます。
又ファンヒーターの音、エアコンの音、パソコンの冷却ファンの音、内部雑音(電磁雑音)を拾う(割に有
る)、等によって認識率が落ちる事もありました。
風邪声や普段と喉の調子が違う時は認識率がかなり落ちます。
影響する雑音と殆ど影響しない雑音が有りますが、静かが一番です。
C、CPUの性能は必ずしも認識率が上がるとは言えないです。認識する迄の時間が短くなるだけです。
ちなみにDELL(インテルT7200、2G)、富士通(Pen4、3.2G)、パソコン工房(Pen4、3.0G)、
シャープ(AMDアスロン4、1.2G)、パナソニック(PenM、1.1G)、BTO-PC(i7 940 2.93GH)です。
意外だったのは一番古いシャープが結構認識がいい。結局、オーディオと中の辞書で決まる様です。
D、文章を読む時、間の入れ方具合で認識率が可成違います。
例「文章を読む時、間の入れ方 _ 具合で_ _認識率が_ _可成_違います。」
こんな具合です。上手く認識してくれなさそうなところだけ、間を入れてもよい。
ソフトによっては間を入れない方がいい場合あります。
E、一番認識率向上は音声認識登録単語をマメに登録するのが一番。
(音声認識ツール(長方形に小さいマイクマーク)→単語の追加と削除)
例、「病気」という単語が音声認識登録単語(音声認識ツールの単語の追加と削除)に登録したにもかかわ
らず、中々認識してくれない時「病気を」「病気が」「病気に」「病気は」と
マメに一杯登録するのがいいです
(面倒ですが……)。また、普段文章を読んでいる時と同じように「病気」と言って登録し直してみるのも
良い。
それでも駄目な場合、「病気を」「病気が」「病気に」「病気は」を普通の単語/用例の登録
(ユーザー辞書)(品詞は名詞で)に登録してから、音声認識登録単語(音声認識ツールの単語の追加と削除)
にも、登録すると良くヒットする様になります。
つまり、ユーザー辞書への登録と、音声認識への単語登録と、両方二段構えでするのです。
F、言語バーのツール→プロパティ(IMEスタンダードのプロパティ)→辞書/学習の学習を過剰側にしておく
といいようです(誤認識文字を修正すると学習辞書が一番上に来るから)。
また、「学習結果をユーザー辞書に書き込む」にチェックを入れるトップへ
ドラスピへ
★Office2003……一気に長文を入力して行く時にはOffice2003の音声認識は都合がいいです。
また、Office2003はひらがなの「の」「が」「は」「に」「を」等の助詞だけを発音してもちゃんと認識
してくれる。
一文字の音声の入力は結構良い。これは有難かった。
Office2003の欠点は音声認識の単語やその他の物を保存出来ないということです。
再インストールした場合、また殆ど最初からし直さなければいけない。
つまり、プロファイルトレーニングをもう一度し直さなくてはいけない。
ユーザー辞書を保存しておくと、再インストール後も、そのユーザー辞書部分だけコピーすると、最初か
ら設定するよりかなり認識率が上がります。
つまりプロファイルのトレーニング一つするだけでかなり元の状態に戻ります。
登録単語(辞書ツールの登録単語)をコピーするだけでもかなり認識率は元に戻ります。
(言語バーのツール→辞書ツール→ツール→一覧の出力と、テキストファイルからの登録)
(Cドライブ→Documents and Settings→使用者名→Application Data→
Microsoft→IMJP9_0→imjp9uのユーザー辞書をどこかに保存しておくと再インストール後も利用出来る。
★ビスタ,Windows7……ビスタ,Windows7は色々な機能が盛りだくさん付いてます。
しかしOffice2003の方がシンプルで使い易いという面はあります。
文章入力してるのに勝手に便利機能が働くのだけは、勘弁して欲しい。Windows7はちょっと少ないかな。
設定の仕方で働かなくする事は出来るかな思いましたが、ないみたいです。
チマチマと入れて行くぶんにはビスタ、Win7はいいです。
今のところ、ビスタ、Win7の音声認識を使う予定はないです。
ビスタの音声認識は進化しているという噂を聞き、ビスタOS(2006-12-21)マシンをすぐ買いましたが、
結局、XPにダウン・グレードした。ビスタそのものが、使いにくいし、遅いので………。
Windows7も思った程ではないかな。
★IBMビアボイスV10……Office2003と比べると、ちょっと勝手に判断して認識して行くような部分がありま
す。Office2003の方が少し使い易い。Office2003は誤認識した時、
間違ったところだけ読み直すと上手く認識してくれるが、
ビアボイスは間違ったところだけ読み返すと単語のあとに勝手に助詞やら、
後に続くであろう単語を、一つか二つ位付けて来る事がよく有った。
トレーニングした部分をフロッピーに保存出来るのは中々いいです。
★IBMビアボイスV10.5はちょっといいらしい。ビアボイスはATOKとの組み合わせが良い。
★ドラゴンスピーチ……未使用のドラゴンスピーチ2005のセレクト版とパートナー版が手に入った(2008/12
/22に)。
ドラスピのセレクト版は僕にとっては必要が無いようです。
ドラスピ、一つのトレーニングに時間(1時間位かかるかな)が物凄くかかる。くたびれてしまった。
「っ」を含む単語(発汗、圧迫、発揮、あっては、など)の認識はどういう訳か認識し難い。
今のところ、全体的にビスタと似ていると思っていますが、ビスタの方がいいかな。
一般的な流れる様な文章入力はドラスピはかなり良いが、
新しい登録単語が必要な専門的で流れる様でない文章は旨く認識しない様です。
その点Office2003は良く認識する。ビアボイスと同じく勝手に文を作って入力して行くような所が少しあ
ります。
Office2003、ビスタは入力された音声のみに対して音声認識されるがドラスピはちょっと違うようです。
ドラスピ悪くは無いが、思った程良くもないのでちょっとがっかり。(使い込んでないからかもしれないが
……)
ドラスピとOffice2003は一長一短。普通の流れるような文に対してはドラスピはいいでしょう。
僕のように特殊な文の音声認識にはOffice2003は抜群。
二、三行づつ交互にドラスピ、Office2003(普段余り使ってないパソコンのOffice2003で)
と入力してみましたが矢張りOffice2003の方が認識率はいいかな。
ドラスピ使いこなしても、多分Office2003より良く認識する様には今のところ思えないなぁ。
ドラスピと比して、Office2003の欠点は漢字に変換しなくはないが、
漢字に変換して認識してくれる率が少なく、ひらがなで出てくることが多い。
★AmiVoice(アミボイス)……使った事はない。認識率がどの位か知りたい。
音声トレーニングが必要ないことと、書き言葉、政治経済言葉、話し言葉、ブログ用と
四つの辞書体系に分かれているらしい。\15.000(価格.com)~22,000近く出して買う気には
まだなれない。Office2003のIME辞書を充実させれば(限界はあるが)結構いけると自負してますが……。
でも、一度は使ってみたい……。かなりいいらしい!!
参考 http://www.sadlerwc95.com/amivoice/ (←Office2003,音声入力正確率は50%なんて事はないですよ)
トップへ