研究社 会社案内 採用情報 サイトマップ 書店様向け 教育現場向け

研究社 WEB マガジン Lingua リンガ

 

 

リレー連載

 実践で学ぶ  コーパス活用術

17

青木 理香

コーパスで話し言葉を探る

―― 実践編――

© (WT-shared) Matthew 6476

 

 前回は、話し言葉コーパスと音声コーパスの種類、目的、内容などについて紹介しました。今回は、実際にコーパスを使って話し言葉に関する様々な考察をしてみましょう。インターネットさえあれば操作できるコーパスを中心に紹介していますので、ぜひアクセスしてみてください。

 

 1  話し言葉コーパスに触れてみよう

 まずは、話し言葉の書き起こしデータを含むコーパスを使ってみましょう。ここでは、手軽に利用できる代表的な話し言葉コーパスの一つである Michigan Corpus of Academic Spoken English(MICASE)を例として挙げます。MICASE は、ミシガン大学において様々な状況下で録音された、1571人による約200時間分(約180万語)の話し言葉の書き起こし文を収録したコーパスです。以下の URL で MICASE のデータを検索することができます。

http://quod.lib.umich.edu/cgi/c/corpus/corpus?c=micase;page=simple

 左側の Find: に続くボックスの中に、調べたい語や句を入れてみましょう。ここでは、アメリカ英語の話し言葉における hedge(ぼかし言葉)[1] の代表例として、kind of を入力しています。

 右側の Speaker Attributes は話者に関する情報、Transcript Attributes はコンテクスト、学術分野、談話スタイル等に関する情報を選ぶ欄になっています。興味のあるものを選択してください。上の図では、コンテクストと学術分野について絞り込まれています(コンテクストについては、特定の学問分野と関連がない Service Encounter と Tour 以外すべてを選択しています。学術分野についても、Not Applicable/Other 以外のすべてを選んでいます)。なお、何も選ばなくても検索は可能です。

 さて、入力が終わったら、Submit Search ボタンをクリックしましょう。View all results now のリンクを開くと、検索した語句が中央に揃ったコンコーダンスが表示されます。検索結果が見づらい場合は、コンコーダンスのすぐ上にある Sort results by: を使ってみましょう。これにより、検索語句の左右の語についてアルファベット順に並べ替えることができ、共起語などについて調べることができます。例えば、1R を選択すると、検索結果が検索語句の1語右隣の語について並べ替えられます。3つある選択欄のうち、左側のものから順に並べ替えが優先されます。下の図は、1R のみを選択したものです。

 コンコーダンスの一番右の列 View context のリンクをクリックすると、話者に関する詳細なデータや、検索語句を含むより長い書き起こし文を見ることができます(下の図)。また、一番左の列 Transcript ID をクリックすると、談話全体を見ることができます。

 コンコーダンスの上にある View results statistics をクリックすると、談話ごとの検索語句の出現頻度、談話の学術分野とスタイル、話者の性別や学内での立場に関するデータを見ることができます。これにより、検索した語句が、どのような状況下で誰によって使われることが多いかを概観することができます。kind of については、以下の図のような結果が表示されました。単純な計算ですが、kind of の出現例2321例のうち、女性によるものが1339例(57.7%)、男性によるものが982例(42.3%)です。[2] このことから、このコーパスにおいては kind of が女性によって使われる傾向が強いということが言えそうです。また、性別だけでなく、学術分野等によっても使用頻度が異なっていることがわかります。[3]

 このように、話し言葉コーパスを使うと、話し言葉においてある特定の語句が、誰によって、どのように使われているかを観察することができます。学習したい、または教えたい語句について検索し、どのような語と共起しているか、どのような状況で使われているか、どのような話者によって使われているかを調べることで、その語句に対する理解も深まるはずです。

 

 2  音声コーパスに触れてみよう

 次に、実際に音声を聞くことができるコーパスを使ってみましょう。前回述べたとおり、話し言葉コーパスは、談話分析のために作られたものと音響分析に作られたものに分けられます。

 (1)  TED Corpus Search Engine (TCSE)

 まず、談話分析向けと言えるコーパスの中から、TED Corpus Search Engine(TCSE)[4] を使ってどのようなことができるかを見ていきたいと思います。以下の URL にアクセスしてください。

http://yohasebe.com/tcse/

 これは、TED[5] のスピーチをコーパスにしたもので、同志社大学の長谷部陽一郎氏によって作成されました。TED のスピーチはもともと英語ですが、TED Open Translation Project というプロジェクトによって、様々な言語の訳が作られています。TCSE は、和訳のデータを元に作成された英日対照音声コーパスです。[6] 単語を検索し、その単語が使われている部分の動画を頭出しすることができるだけでなく、どのような単語と一緒に使用されているか、すべてのスピーチにおいてどのくらい均等に使われているかを簡単に調べることができます。

 まず、検索ボックスに調べたい語句を入力し、SEARCH ボタンをクリックします。ここでは、前章の例と同様、kind of と入力しています。和訳が付いているデータのみを抽出したいときは、Include English only talks というボックスのチェックを外してください。以下の例では、チェックが付いたままになっています。

 検索結果が表示されました。検索語句がスピーチ内に出現する位置、時間などが表示されています。検索語句が現れる部分の動画を見るには、赤い のボタンをクリックしてください。

 以下のように、動画とスクリプトが現れます。学習したい表現がスピーチ内でどのように使用されているのかを、スクリプトと音声だけではなく、映像とともに見ることができるので、学習語彙や文法事項の使用例、リスニング演習の材料、スピーチ演習のモデルとして役立てることができます。また、同様の方法で日本語による検索もできますので、日本語の表現が英語でどのように表されるかを調べることも可能です。

 語の分布や組み合わせなどに関する分析をしたい場合は、検索ボックスの右または下にある N-gram というボタンをクリックし、調べたい語(複数の語は不可)を入力して SEARCH ボタンをクリックします。下の例では、kind と入力しています。

 すると、以下のように4つのタブで結果が表示されます。

 Word info のタブでは、検索語の頻度や散布度[7] を品詞ごとに確認することができます。POS が品詞、[8] Freq が頻度、Num of Talks がスピーチの数、Dispersion が散布度を表しています。ここで表示されている散布度は、小さければ小さいほど散らばりの範囲が広い(各スピーチにおいて偏りなく使用されている)ことを表しています。上の表では、「親切な」という意味の形容詞({jj})などよりも、名詞({nn})として使われている kind が全体の99%近くを占めていて、散らばり具合が大きいということがわかります。各品詞の行をクリックすると、検索語がそれぞれの品詞で使用されているスピーチのリストが表示されます。[9]

 2-grams のタブでは、検索語を含む2連続の語(検索語とその前後の語句)に関する分析を見ることができます。まず、左上の表で、表示させたい組み合わせを選択します。一番上の行を選択するとすべての組み合わせが表示されます。2番目の行は、検索語とそれに続く語の組み合わせを、3行目は、検索語とその直前の語の組み合わせを表示させるときにクリックします。以下の例では、検索語とその後の語の組み合わせを表示しています。

 ほとんどの出現例が、kind of の形で使われており、[10] それ以外の場合も、人称代名詞({pr}), that, in などの限られた語を直後に伴う頻度が高いことがわかります。先ほどと同様、各行をクリックすると、検索語がそれぞれの形で使われているスピーチのリストを見ることができます。また、3-grams, 4-grams のタブでも、同様の方法で言語学的分析をすることができます。

 以上のように、TCSE などの音声コーパスを使うことで、ある表現が使われている生の資料を教材として簡単に提示したり、言語学的な分析をしたりすることができます。生きた英語の表現の様々な例を実際の音声とあわせて観察することができる音声コーパスは、自然な英語表現の理解と産出に貢献してくれるはずです。

 また、音声コーパスの中には、英語教育に役立てることを目的の一つとして作成されたものもあります。例えば、English Language Interview Corpus as a Second-Language Application(ELISA)[11] は、英語母語話者に対するインタビュー映像を収録したコーパスです。書き起こしデータやコンコーダンス機能だけではなく、インタビュー映像に関する内容確認問題、ディクテーション問題、語彙問題、文法問題なども提供されており、授業の教材としてコーパスを容易に使用することができます。教科書で紹介されている話し言葉と、実際に使用されている話し言葉は大きく異なり、実際の話し言葉のほうがバリエーションに富んでいるということが指摘されていますが、[12] これらのコーパスを教材として利用することで、そのギャップを埋めることができるでしょう。

 (2)  日本人学生による読み上げ英語音声データベース(UME-ERJ)

 今度は、音声コーパスを使って音響分析をしてみましょう。ここでは、前回紹介した、日本人学生による読み上げ英語音声データベース(UME-ERJ)を使いたいと思います。UME-ERJ は DVD で配布されています。また、UME-ERJ のウェブサイト上では、サンプル音声を聞くことができます。

http://research.nii.ac.jp/src/UME-ERJ.html

 それから、音響分析に使用するソフトウェアの準備をします。今回は、Praat というソフトウェアを使用します。アムステルダム大学で開発された Praat は、音声の録音、分析、合成など、様々な処理を実行できるソフトウェアです。無料でダウンロードすることができ、音声学や音響学の研究で広く使われています。音声の強さ、高さ、成分などをスペクトログラムと呼ばれる記録図上に可視化できるため、音の性質をわかりやすく示すことができます。以下の URL からダウンロードが可能です。

http://www.fon.hum.uva.nl/praat/

 ダウンロードできたら、まず Praat を立ち上げてみましょう。いくつかウィンドウが出てきますが、今回は Praat Objects というウィンドウを使います。Praat Objects ウィンドウの上部にあるメニューから、Open と書かれているところを選んでクリックすると、詳しいメニューが出てきます。その中から Read from file . . . を選んでクリックしてください。調べたいローカルの音声ファイルを選択して開くと、Praat Objects ウィンドウの Objects: のリストに、選んだ音声ファイルが現れます。下の図は、DVD の中の RYUf03_S3_001 というファイルを選択したときのものです。

 音の性質を調べるには、右側の View & Edit ボタンをクリックします。すると、新しいウィンドウが出てきます。このウィンドウの上部には音声波形、下部にはスペクトログラムが表示されています。スペクトログラムの縦軸は周波数、横軸は時間を表しています。

 一番下に濃いグレーのバーが3つ並んでいますが、1段目は選択部分の音声、2段目は現在ウィンドウに表示されている部分の音声、3段目はファイル全体の音声の長さを示しています。クリックすると当該部分の音声を聞くことができます。下の図は、アメリカ人英語母語話者によって発音された The misquote was retracted with an apology. という文の音声についてのウィンドウです。

 これを見ても、波形とスペクトログラムが何を示しているのかよくわかりません。例として、声の高さ(pitch)がどのようになっているか見てみます。上のメニューの Pitch にある Show pitch を選択すると、以下のように、スペクトログラム上に青い線が現れます。これはピッチ曲線と呼ばれ、音の高さを表しています。下の図では、ところどころ曲線が途切れてしまっていますが、ピッチ曲線に大きく3つの起伏があることがわかります。

 これを、日本人学習者の発音と比べるとどうなるでしょうか。コーパスで、ファイル名を頼りにして、上の図で示したアメリカ人英語母語話者と同じ文が録音されている日本人学習者の音声ファイルを探しましょう。見つかったファイルのスペクトログラムを上と同じ方法で表示させると、以下のような結果が出ました。英語母語話者に比べて起伏の幅がかなり小さいことがわかります。つまり、この日本人学習者による英語のピッチ、イントネーションは平板形で、高さの起伏も小さいということです。この結果は、様々な先行研究の結果とも一致しており、日本人による英語の発音の大きな特徴の一つであると言えます。

 前回も紹介したように、UME-ERJ には、学習者の発音の正確性をアメリカ人英語教師に評価させたデータも収録されています。上の図で分析した日本人英語学習者の評価を見てみると、5点満点中平均2.52点でした。それに対して、満点に近い平均4.47点と評価された日本人英語学習者のスペクトログラムは次のとおりです。

 1人目の学習者と比べて、ピッチ曲線に複数の起伏が見られます。つまり、ピッチ、イントネーションを豊かに変化させた発音ができているということです。これらのことから、英語の発音には声の高さが重要であり、高低のめりはりをつけて発声することでより母語話者らしい発音につながるということがわかります。実際に、英語では、長さ、声の強さ、声の高さの3つを使って強勢がつけられると言われています。日本における英語教育では、しばしば「強弱のリズム」を意識するように指導されますが、強弱だけではなく、高低にも注意して発音練習するべきであるということを明確に示すことができるのです。

 コーパスに収録されたデータと音声分析ソフトウェアを使うと、母語話者と日本人学習者の違いを可視化でき、自分の発音とモデル発音を比較しながら練習することができます。自分の発音を録音するためには、Praat Objects ウィンドウ上部の New というメニューから Record mono Sound . . . をクリックしてください。新しく出てきた SoundRecorder というウィンドウ上で録音を行うことができます。左下の Record をクリックすると録音が始まります(録音を終えるときは、Stop をクリック)。右下の Name: というボックスでは、音声に名前を付けることができます。録音をすべて終え、分析を始めたいときは、右下の Save to list & Close をクリックします。すると、SoundRecorder ウィンドウが閉じ、Praat Objects ウィンドウの Objects: のリストに、録音した音声が表示されているはずです。

 Praat では、音の高さ以外の様々な音声特徴についても分析することができます。[13] ほかにも音の強さ(intensity)を観察したり、音の長さを計ったり、聴覚印象が似ている2音の音質を比較したりすることができます。例えば、raw /rɔː/ と law /lɔː/ の発音をスペクトログラム上で比較すると、以下のようになります。raw の最初(赤く囲まれた部分)の形が、law とは異なっています。raw の下から3番目と4番目の黄色い線の開始部分が、lawに比べてかなり下に位置していますが、これは、唇を丸くする動作に起因しているとされています。つまり、英語の /r/ は、日本語の「ウ」のような口を作って発音することがポイントであると示すことができます。

 また、英語のアクセントについて学習、または指導したい場合は、強勢が置かれた音節の特徴(長さ、強さ、高さ、音質など)をスペクトログラム上に示すことで、視覚を使ってわかりやすく理解することができます。

 

 3  まと

 本稿では、例としてごく一部の言語現象に関する分析方法を紹介しました。話し言葉コーパスは、様々なバックグラウンドを持つ話者によって実際に発話されているリアルな英語に触れることを可能にします。書き言葉コーパスと比べると、種類、数、規模ともに遅れをとっていますが、話し言葉コーパスは、書き言葉には見られない話し言葉の特徴を明らかにする無限の可能性を持っています。今後、英語研究や英語教育へのさらなる貢献が期待されています。

 

 

〈著者紹介〉

青木 理香 (あおき りか)

埼玉大学英語教育開発センター助教。専門は音声学、外国語教育。特に、日本人学習者による英語音声習得、バイリンガル・トリリンガルの音声習得などに関心がある。現在は、日中バイリンガルによる英語破裂音の知覚と産出を中心に研究を進めている。執筆に参加した辞書に Kernerman Japanese French Learners' Dictionary (K Dictionaries), 『プログレッシブ英和中辞典 第5版』(小学館)などがある。

 

 


〈注〉

[1] 発話や陳述を弱め、直接的な言い方を避けるための表現。I think . . . , maybe, kind of など。

[2] より正確な分析のためには、MICASE 全体のデータにおける各話者、コンテクストの比率が必要ですね。以下のページで見ることができます。
http://web.archive.org/web/20030226052235/http://lsa.umich.edu/eli/micase/MICASEStats.htm
 例えば、学術分野別データ(Table 2)に記載されている男女比を元に概算すると、今回の検索時に選択した4つの学術分野に関するスピーチの話者は、男性が645人(47%)、女性が727人(53%)となります。

[3] Poos & Simpson(2002)による研究結果でも、学術分野によって hedge の使用頻度が異なるという結論が出ています。Poos, D., and R. Simpson (2002) “Cross-Disciplinary Comparisons of Hedging: Some Findings from the Michigan Corpus of Academic Spoken English.” R. Reppen, S. M. Fitzmaurice, and D. Biber (eds), Using Corpora to Explore Linguistic Variation 9(1). Amsterdam: John Benjamins, 3-23.

[4] Hasebe, Yoichiro (2014) User's Manual for TCSE (TED Corpus Search Engine), Version 0.1.3. Available online at http://yohasebe.com/tcse/

[5] Technology, Entertainment, Design の略で、世界中の様々な分野における著名人がプレゼンテーションを行うカンファレンスの名称。

[6] 和訳が付いていない部分もあります。

[7] データの散らばり具合を表す値。

[8] 品詞の記号がそれぞれ何を表しているかは、 http://yohasebe.com/tcse/en-pos で確認することができます。

[9] TCSE の構文解析は、解析ソフト(英語は Enju, 日本語は MeCab)によって機械的に行われているため、品詞情報などが100%の精度ではないことに注意してください。

[10] この表では、kind of という行が4行出てきます。これは、Word info タブで表示された品詞によって行が分かれているためです。現バージョンの TCSE では、n-gram の表の異なる品詞の行をクリックしても、表示されるのはすべて同じリストで、品詞ごとに分類されたリストではありません。

[12] Cresti, E. (2007) “Some Comparisons between UBLI and C-ORAL-ROM.” Y. Kawaguchi, S. Zaima, and T. Takagaki (eds), Spoken Language Corpus and Linguistics Informatics. Amsterdam: John Benjamins, 125-52.

[13] 詳しくは、以下の URL にあるような日本語のオンラインマニュアルを参考にしてください。
Colorless Green Ideas: 音声分析ソフト Praat の使用に役立つウェブサイト
http://id.fnshr.info/2013/01/24/praatweb/


 

 

関連書籍
『研究社 日本語口語表現辞典』
『研究社 日本語コロケーション辞典』

キーワードで書籍検索
コーパス corpus 話し言葉 音素 音節 談話分析

▲ページトップに戻る

複写について プライバシーポリシー お問い合わせ

Copyright(C)Kenkyusha Co., Ltd. All Rights Reserved.