今回から2回にわたり、日本語学習者のための辞書開発に向けたコーパス活用の事例を紹介します。英語の学習辞書でのコーパスの活用には長い歴史と実績がありますが、日本語の場合、その試みは緒に就いたばかりです。しかし、2000年代に入ってから相次いで日本語コーパスが構築され、日本語の辞書開発にもコーパスを活用しようとする動きが盛んになってきています。1回目はその試みの事例としてオンラインの学習辞書を紹介し、辞書開発にコーパスを役立てるためのオンラインツールの使い方を説明します。2回目は学習辞書の開発にコーパスを活用する事例として多義語の語釈と語義の配列を取り上げます。
英語の辞書では、1987年にコーパスを本格的に活用した学習辞書 Collins Coubuild English Language Dictionary が刊行されて以来、学習辞書の開発にコーパスが活用されることが当たり前となっており、日本でも『ウィズダム英和辞典』や『ユースプログレッシブ英和辞典』など、コーパス準拠の辞書が刊行され始めています(石川 2012)。それに比べて日本語の辞書へのコーパスの活用は大きく後れをとっており、コーパス準拠の国語辞典や日本語学習辞書は未だに刊行されていない状況です。 しかし、2000年代に入ってからは日本でもさまざまな日本語コーパスが構築され、日本語研究や教育への応用が盛んになってきました。特に、2011年に、国立国語研究所の「KOTONOHA」計画[1] の一貫として1億語規模の「現代日本語書き言葉均衡コーパス(BCCWJ)」が公開されてからは、その動きが加速しています。このような流れの中で、国語辞典や日本語学習辞書の開発にも、今後コーパスの活用が必須となることは間違いなく、最近では、辞書とコーパスに関連する出版物が数多く刊行されています。[2] 以下では、コーパス準拠の日本語学習辞書開発の試みとして「日本語教育語彙表」と「基本動詞ハンドブック」を紹介し、これらの辞書開発に威力を発揮するオンラインツールとして NINJAL-LWP for BCCWJ と NINJAL-LWP for TWC の使い方を説明します。
「日本語教育語彙表」は17,920語を収録し、語義、用例、コロケーション、類義語などが調べられる日本語学習者用のウェブ辞書として2015年3月に公開されました。ここでは、収録語と重要度の決定、用例の提示、コロケーションリストの作成にコーパスが活用されています。収録語の選定にあたっては、BCCWJ2009年度領域内公開版[4] と日本語教科書コーパス[5] から内容語のみを抽出し、一定の方式で選定した複合語も加えて出現頻度に基づいた語彙表を作成しました。重要度はBCCWJのコアデータ[6] を語単位で集計し、それぞれの語の累積頻度の比率に基づいて5段階のランク付けを行いました。なお、全ての語に6段階(初級前半・初級後半・中級前半・中級後半・上級前半・上級後半)の難易度が付されていますが、この判定は複数のベテラン日本語教師による主観判定に基づいて決定したものです。 図1は「日本語教育語彙表」で「聞く」を検索した画面です。見出し語の横にあるコロケーション情報や類義語情報をクリックすると、それぞれの画面にジャンプします。図2は、「聞く」のコロケーション情報の画面で、「共起語としてのパターン」のうち、名詞+助詞を調べた結果の一部が示されています。
「基本動詞ハンドブック」は日本語学習者と日本語教師が基本動詞の理解を深められるように、図解などを用いて分かりやすく解説したオンラインツールです。[7] 図3は、「飛ぶ」を検索した画面です。
「基本動詞ハンドブック」では例文、語義、コロケーションの記述のほか、語義の配列順の決定などにコーパスが活用されています。 以下では「日本語教育語彙表」や「基本動詞ハンドブック」の作成に活用した二つのオンラインツール NINJAL-LWP for BCCWJ と NINJAL-LWP for TWC を紹介し、その使い方を説明することにします。
これら二つは「レキシカルプロファイラー」と呼ばれているツールで、コーパスを利用して語の共起関係や文法的な振る舞いなどを調査した情報を集積し、その結果を統計的に処理した上で、その語の特徴的な振る舞いを提示する役割を果たします。NINJAL-LWP for BCCWJ(NLB)は BCCWJ,NINJAL-LWP for TWC(NLT)は筑波ウェブコーパス(TWC)[8] の、名詞、動詞、形容詞、連体詞、副詞に関して網羅的な調査を行い、その結果が検索できるように設計されています。どちらの使い方も基本的には同じですので、以下では NLB を用いた検索方法を説明します。[9] まず、NLB のトップページから検索を開始するをクリックし、利用規約のページに入ってチェックボックスに同意のチェック を入れた上で同意するをクリックすると、図4の検索画面に入ります。
その画面の入力ボックスに調べたい語を入力して絞り込みをクリックするとその語の候補が提示されます。入力は仮名かローマ字を使います。図5は平仮名で「あう」と入力したときの検索結果です。そこで示された候補の中から該当する語をクリックすると、その語の検索結果の画面が開きます。図6は、「会う」を選んだときの画面の一部で、「グループ別」の画面が表示されています。
この画面では「会う」が名詞と助詞を伴った「…が会う」「…は会う」といったパターンや、「会われる」「会わせる」といった助動詞を伴ったパターンなどの頻度を調べることができます。また、特定のパターンをクリックするとそのパターンのコロケーションが頻度順に提示され、共起の強さを示す統計値である MI(Mutual Information)や LD(LogDice)の値が表示されます。[10] さらに、パターンのリストの中から特定のコロケーションをクリックすると、コーパスから検索された用例が短いものから順に提示されます。図7は「…に会う」というパターンの「人に会う」というコロケーションの用例を提示させた画面です。
図6は「グループ別」の画面を表示したものですが、この画面の上部に見られるパターン頻度順を選択すると、頻度順に示された共起パターンが提示され、「会う」の場合は「…に会う」というパターンが最も多く出現したことなどが分かります。また、図6のパターン頻度順の隣にある基本の画面を開くと、サブコーパスごとの頻度と100万語あたりの頻度、書字形(「会う」の場合は「会う・逢う・逢ふ・晤う」)の頻度と比率、活用形や後続助動詞の頻度と比率などが示されます。 類義語を調べる場合は、類似した意味を持つ複数の語の検索結果を並べて参照する必要が生じます。そのようなときは、「2語比較機能」を使うと便利です。比較できるのは、名詞、動詞、形容詞、連体詞、副詞のうち、同じ品詞の2語です。形容詞にはイ形容詞(形容詞)とナ形容詞(形容動詞)が含まれますが、その組み合わせのペアも比較できます。そのほかに、イ形容詞と連体詞、ナ形容詞と連体詞の比較も可能です。例えば、「会う」と「遭う」を比較したい場合、図4の検索画面の右上にある→ 2語比較検索をクリックします。次に動詞をクリックし、入力ボックスに「あう」と入れ、絞り込みをクリックします(図8)。「会う」と「遭う」は「あう」というひとつの語形ですので、入力ボックスには「あう」だけを入れれば十分ですが、「冷える」と「冷める」のように異なる語形の場合は、「ひえる」と「さめる」をスペースで区切って入力してから絞り込みを行います(図9)。
さらに、比較したい2語にチェック を入れて、リストの右上にある2語比較をクリックします(図10)。図11は「冷える」と「冷める」の2語比較の画面が開いたところです。
以下では「名詞+助詞」のコロケーションで最も頻度が高い「…が冷える」と「…が冷める」を比較することにしましょう。その箇所をクリックすると、図11の右側の空白の部分が図12のように変わります。これは、「…が冷える」と「…が冷める」のコロケーションを LD 差の降順に配列したものです。LD 差というのは、左側のコロケーション(この場合は「…が冷える」)の LD から右側のコロケーション(この場合は「…が冷める」)の LD を引いた値で、その差が大きくなればなるほど「…が冷える」の特徴的なコロケーションと言えます。ここでは色の濃さによって特徴の度合いの強さを表しています。一方、「…が冷める」の特徴的なコロケーションを見るときは、右上のLD 差 ▼をクリックすると図13の画面が現れます。図12と図13を比較すれば、「…が冷える」は「体」「身体」「足」「お腹」などの身体部位を表す語や「空気」「マグマ」など物体を表す語との共起が目立つのに対し、「…が冷める」は「熱」「ほとぼり」「気持ち」「愛情」「熱狂」など抽象物を表す語との共起が目立つことが分かります。さらに、「下半身が冷える」や「マグマが冷える」とは言えても「下半身が冷める」や「マグマが冷める」という言い方が出現しなかったこと、逆に「ほとぼりが冷める」や「熱が冷める」とは言えても「ほとぼりが冷える」や「熱が冷える」という言い方が出現しなかったこと、および、図12や図13の画面をもう少し下へスクロールすると、「体が冷える」と「体が冷める」、「気持ちが冷える」と「気持ちが冷める」のようにどちらも出現した用例があることなどが分かります。このような情報を手がかりとして、「冷える」は「元々の温度からさらに下がること」や「元々の状態から悪化すること」、「冷める」は「高い温度から元々の温度へ下がること」や「高いレベルになった状態が元々の状態に戻ること」を表すことが分かるのです。[11]
図12. 「冷える」の特徴的コロケーション
図13. 「冷める」の特徴的コロケーション
〈参考文献〉 石川慎一郎(2012)「英語教育における辞書」外国語教育学会『外国語教育研究』15: pp. 87-94. 小野正樹・小林典子・長谷川守寿(2009, 2010)『上級日本語学習者向け コロケーションで増やす表現』Vol.1, Vol.2, くろしお出版。 砂川有里子(2014)「コーパスを活用した日本語教師のための類似表現調査法」日本語/日本語教育研究会『日本語/日本語教育研究』5: pp. 7-27, ココ出版。 伝康晴・荻野綱男(編)(近刊)『コーパスと辞書』講座日本語コーパス第7巻、朝倉書店。 中俣尚己(2014)『日本語教育のための 文法コロケーションハンドブック』くろしお出版。 Yukio Tono, Makoto Yamazaki and Kikuo Maekawa (2013). A Frequency Dictionary of Japanese. London/New York: Routledge.
〈注〉 [1] 日本語のコーパスの長期整備計画。BCCWJ のほかには「日本語話し言葉コーパス(CSJ)」、種々の「近代語のコーパス」が公開されており、100億語規模の「超大規模コーパス」と「日本語歴史コーパス」が開発中です。http://pj.ninjal.ac.jp/corpus_center/kotonoha.html [2] 伝・荻野編(近刊)といった辞書とコーパスに関する講座本、Tono, Yamazaki and Maekawa(2013)のコーパス準拠の頻度辞書、小野・小林・長谷川(2009, 2010)や中俣(2014)の日本語学習者用コロケーションハンドブックなどが挙げられます。 [3] ダウンロード版は、http://jhlee.sakura.ne.jp/JEV.html. [4] 一般公開前に試行版として領域内で公開されたバージョン。 [5] 国内外で使用されている約100冊分の教科書データ。 [6] 形態素解析されたデータを人手により修正し、より解析精度を高めた100万語のデータ。 [7] 現在構築途上で、2015年12月現在、65見出しが公開されています。 [8] 筑波大学がウェブサイトから構築した11億語の日本語コーパス。http://nlt.tsukuba.lagoinst.info [9] NLB と NLT それぞれのサイトやユーザーマニュアル(http://nlb.ninjal.ac.jp/site_media/pdf/NLB.manual.v.1.30.pdf)により詳しい使い方が説明されていますので、そちらも参照してください。 [10] MI スコアおよび LogDice の算出は、Sketch Engine に準拠しています。詳しくは、Statistics used in the Sketch Engine(http://trac.sketchengine.co.uk/raw-attachment/wiki/SkE/DocsIndex/ske-stat.pdf)をご覧ください。共起の強さに関する指標については、連載第6回もご参照ください。 [11] 「冷える」と「冷める」の類義語のより詳しい記述は、砂川(2014)を参照してください。
|