実践で学ぶ　コーパス活用術 34 | 研究社 WEB マガジン Lingua リンガ

リレー連載

　実践で学ぶ　 コーパス活用術

三木　望

コーパスで学習者の英作文の特徴を探る

―― 「メタ談話標識」とは何か ――

　今回から2回にわたって、学習者の書き言葉コーパスを使ったメタ談話標識（metadiscourse marker）――いわゆる「つなぎ言葉」――の分析と英語教育の実践を紹介します。

１	メタ談話標識とは何か

　みなさんは、英作文の授業で、first, for example, as a result のような「つなぎ言葉」（transitions, link words, connectors）を習ったことがあるのではないでしょうか。英作文の教科書『Writing Power ライティング・パワー』（研究社）によると、「つなぎ言葉（transition words）は文と文、あるいは節と節を結びつけ、文章全体にスムースな流れをつくるものである。また、読み手を混乱することなく、導く道しるべの役割もはたしている。」と定義されています。[1]　学習者が英作文を書くとき、トピックや書きたい内容に意識を集中しがちですが、対象とする読み手に書き手が述べたいことを効果的に伝えるためには、内容だけでなく、「どのように」伝えるのかということも同様に重要です。その伝え方によっては、学習者の英語が文法的に正しくとも、母語話者の英語にはない違和感を生じさせ、読み手とのコミュニケーションに支障をきたすかもしれません。

　最近の英作文の研究では、「つなぎ言葉」の代わりに、「メタ談話標識」という用語が使用されます。メタ談話（metadiscourse）は、命題の内容に直接影響を与えないが、首尾一貫した論理的な文章を構成したり、読み手が命題の内容や文章の展開、読み手に対する書き手の立場を理解したりする際に役立つ概念を指します。そのため、discourse about discourse あるいは communication about communication と呼ばれます。[2]

　内容に直接関わらないがコミュニケーションを潤滑にさせる重要な機能を持つという点で、メタ談話標識は、I mean や well などの「談話標識（discourse markers）」と似ています（詳しくは、連載第18回を参照）。談話標識が話し言葉で研究されるのに対して、メタ談話標識は、書き言葉で研究されることが多いです。とくに読者の反応を予測・考慮しながら、自分の意見を述べる「論説文（argumentative writing）」は、さまざまなメタ談話標識が使用されるので、アカデミック・ライティングや学習者の英作文などを対象とした研究が進み、学術分野ごとの論文のメタ談話標識の特徴や英語学習者と英語母語話者のメタ談話標識の違いが明らかになってきています。最近では、ビジネスレター、会社の年次報告書、教科書などのいろいろな書き言葉のジャンルにおけるメタ談話標識の使用が研究されています。

　では、どのようなメタ談話標識があるのでしょうか。Hyland（2000, 2005）は、メタ談話標識を、Interactive Category と Interactional Category に大別して、次のように機能ごとに分類しています。

表1.　Hyland のメタ談話標識の分類

	範疇	機能	例
Interactive Category	Transitions	節と節の間の関係を表す	in addition, but, and, because, so
	Frame markers	順番や本文の段階を指す	first, second(ly), third(ly), finally
	Endophoric markers	本文中の他の部分の情報を指す	noted above, see Fig, in section 2
	Evidentials	他の文章からの情報を指す	according to X, Z states
	Code glosses	内容に関する意味や機能を読み手が把握するのに役立つ	e.g., such as, in other words
Interactional Category	Hedges	言質を取られないようにする	might, perhaps, possible, about
	Boosters	書き手の確信を強調する	in fact, definitely, it is clear that
	Attitude markers	命題に対する書き手の態度を表す	important, interesting, unfortunately
	Self-mentions	書き手を明確に言及する	I, we（読み手を含まない）, my, me, our
	Engagement markers	読み手に語りかけて、議論に参加させ、書き手の意見に導く	you, we（読み手を含む）, must, should, 命令文、疑問文

Transition は、さらに以下の3つに分かれます。

Addition 議論を追加する例: and, furthermore, moreover

Comparison 類似や対照を示す例: similarly, on the other hand, however

Consequence 結論や譲歩を示す例: therefore, so, though, nevertheless

同様に、Frame marker も、以下のように下位分類されています。

Sequencing 本文を並べ、議論の順番をつける例: first, next

Label stage 本文の段階を伝える例: to sum up, overall

Announce goal 文章の目的を述べる例: my purpose is . . .

Shift topic 話題の展開を示す例: well, now

Hyland のリストには、こうしたメタ談話標識が約500項目あります。

２	メタ談話標識の分析とコーパス

　これまでの連載で述べられたように、コーパスによる分析は、複数のデータを比較して特徴語を抽出したり、頻度解析や統計分析に基づいて、ある語彙や文法項目のコロケーションを調べて、コンコーダンスで実際の使用を分析したりします。では、Hyland のリストに載っている全てのメタ談話標識の頻度をコンピュータで検索して、統計処理をすれば、メタ談話標識の使用の実態を分析できるのでしょうか。

　メタ談話標識は、文脈に基づいて、その機能を判断する必要があります。例えば、we は読み手を含むかどうかによって、Self-mention か Engagement marker に分類されるので、前後の文脈を考察して判断する必要があります。また、must や should のような法助動詞の意味と機能の判断は、分析者の主観が入ることがあります。

　さらに、メタ談話標識は、文脈に依存してさまざまな形式を取ることが可能なので、Hyland のリストが全てのメタ談話標識を網羅しているわけではありません。このため、単純に Hyland リストのメタ談話標識を、語彙や文法項目と同じようにコンピュータで検索して頻度を調べるだけでは、対象データの特徴を分析することは困難です。

　メタ談話標識は、言語項目の頻度を直接計量するよりも、機能を示すアノテーション（付与情報）を該当する表現に付与して（例: <EM>must</EM>）、すなわち、機能範疇をコンピュータで検索可能な形式にしてから計量するほうが、後の分析に便利です。例えば、コーパスソフトウェアで so を検索すると強調の意味も含むあらゆる so が結果に含まれますが、タグを検索すれば、結論の so だけといったように、範疇別に頻度を集計して分析できます。

　代名詞のような高い頻度の言語項目を含む、約500以上の Hyland のメタ談話標識リストについて、手作業で大量のデータにアノテーションを付与することは現実的ではありませんので、実際には、プログラミングでアノテーションを一斉に付与した後で、前後の文脈を考察しながら、修正作業を行うことになります。

また、前後の文脈があるとはいえ、アノテーションを付与することは、分析者の解釈を加えることになります。どのようなアノテーションを付与するかが、結果に直接影響を及ぼすので、基準や方針をしっかりと事前に決めておく必要があります。

　このように、手作業による確認が不可欠なので、コーパスによるメタ談話標識の分析は、時間と労力を必要とします。しかし、大量のデータから得られた頻度の統計分析に基づく特徴から、今までわからなかった言語事実を発見することもありますし、何よりも、限られたデータに基づいた研究者の直感や印象より分析の客観性を高めてくれます。

　以下、日本人英語学習者のコーパスを使用して、習熟度別にメタ談話標識を分析して、日本人学習者のメタ談話標識の特徴について述べます。

３	使用した学習者コーパス

　今回使用する学習者コーパスは、大学生・大学院生があるトピックについて書いた論説文を収集した NICE 3.2です。詳しくは、連載第10回と下記のウェブサイトを参照してください。

　http://sgr.gsid.nagoya-u.ac.jp/wordpress/?page_id=883

日本人学習者のデータについては、習熟度別の特徴を分析するために、以下の3つのサブコーパスを作成しました。

・初級　TOEIC スコア 550点以下（20ファイル）
・中級　600点から770点（20ファイル）
・上級　830点以上（14ファイル）

英語母語話者のコーパスからは、両親の母語が英語である参加者のファイル20個を選び、本分析の参照コーパスにしました。[3] [4]

４

方法

　NICE には、CHAT（Codes for the Human Analysis of Transcripts）と呼ばれる1行1文形式で、添削文を含むさまざまな情報が保存されていますので、日本人学習者の行だけを対象にメタ談話標識のタグをプログラミングで付与しました。結論を表す so にアノテーションを付与すると次のようになります。

<TR_Consequence>So</TR_Consequence>, the level of the study in technology, medicine and so is going down.　（NICE 中級コーパスより）

開始タグの <TR_Consequence> と終了タグ </TR_Consequence> で、so を挟み込んで記述します。タグの中に記述されている TR_Consequence は、Transition というメタ談話の範疇を表し、半角下線の後に、このメタ談話標識の下位範疇、Consequence が続きます。このように、XML に準ずるタグを使用すると、メタ談話標識そのものだけでなく、その機能も記述して保存することができます。[5]

　アノテーションを付与した後に、目視で各ファイルのアノテーションを確認します。複数のメタ談話の範疇に分類される表現は、プログラミングでアノテーションを付与すると、<EM><SEM>we</SEM></EM> のように、複数のタグがつきますが、前後の文脈の意味から判断して、タグを一つに決定していきます。実際に確認すると、例えば、強調の「とても」という意味の so に TR_Consequence のタグがついていたりして、変更箇所は多岐に及びますが、何度でも修正して、アノテーションとして情報を保存できる利点は大きいです。

　アノテーションを確認したら、無料のコーパスソフトウェア AntConc を使って、各メタ談話標識のタグを検索します。Global SettingsでShow tagsになっていることを確認して、Applyのボタンを押して、設定します。

図1.　AntConc の Global Settings

次に Search TermのWordsのチェックを外します。

図2.　AntConc の Search Term（1）

そして、ボックス　　にメタ談話のタグを入力して、Startボタンを押すと、特定のメタ談話の範疇の頻度が出ます。

図3.　AntConc の Search Term（2）

個別のメタ談話標識を検索する際には、アノテーション全体を入力します。

図4.　AntConc の Search Term（3）

　次に日本人英語学習者のメタ談話標識の分布結果を紹介しましょう。

５	日本人英語学習者のメタ談話標識の分布と使用

　習熟度別に日本人英語学習者のメタ談話標識の分布を紹介します。コーパスのサイズが異なるため、10万語あたりの相対頻度を用いています。また、学習者の傾向と比較するために、NICE の英語母語話者の使用頻度も示しています。

図5.　日本人英語学習者のメタ談話標識の分布（10万語あたりの相対頻度）

　全てのコーパスにおいて、頻度が2以下だった Endophoric marker と Evidential は、図5に含まれていません。メタ談話標識の分析は、一般的には長い学術論文なども対象であるため、Hyland のリストには、本文中の他の部分の情報を指す Endophoric marker（例: in Section 2）や本文以外の文献からの情報を指すEvidential（例: According to X）も含まれています。しかし、NICE のデータは、辞書などの参考書を使用しないで作成された、比較的短い英作文であり、書き手が本文の他の箇所や他の文献に言及することはほとんどありませんでした。したがって、これは、日本人英語学習者や英語母語話者が Endophoric marker と Evidential のメタ談話標識を使用しないというわけではなく、英作文の短さが原因でしょう。

　図5において、日本人学習者全体では、Engagement marker, Self-mention, Transition の順に頻度が高いことがわかりました。Engagement marker は、読者に積極的に語りかけて、読者の注目を引き、読者を議論に参与させ、読者の注目を特定の解釈へと誘導する機能があります。Self-mention は、1人称代名詞で書き手に言及して、その権威や存在を示す機能を指しますが、一方で、話し言葉の特徴であるとも言われています。Transition は、議論の追加、比較・対照、原因と結果の節と節の関係を示し、論説文では、欠かせないメタ談話標識です。日本人学習者の中では、and, but, because, so の頻度が顕著でした。学習者のレベルが上がるほど、使用頻度が下がっているのが特徴で、詳しくは次回の記事で取り上げます。

　英語母語話者と比較して、全ての習熟度レベルで統計的に有意な差異が確認できたのは、Engagement marker と Self mention, Frame marker の過剰使用でした。以下、これらのメタ談話標識の範疇について考察します。

5.1	Engagement marker と Self-mention

　英語母語話者と比較して、日本人英語学習者は表2の Engagement marker と表3の Self-mention を過剰に使用していました。

表2.　日本人英語学習者の Engagement marker の過剰使用

	上級	中級	初級
人称代名詞	you, your, we*	we, us, you, our	you, we, our
必要・義務の（助）動詞	have to, should, need to	have to, should	should, have to
疑問文	疑問文	疑問文	疑問文

（注）* 読み手を含む。

表3.　日本人英語学習者の Self-mention の過剰使用

	上級	中級	初級
人称代名詞	I, my, me	I, my, me	I, we**, my

（注）** 読み手を含まない。

人称代名詞の過剰使用から、英語母語話者に比べて日本人学習者が事物よりも人を中心に英文を展開していることが予測されます。人称代名詞の中でも、とくに1人称代名詞単数と2人称代名詞はインフォーマルな会話の特徴と言われていますので、[6]　これらの人称代名詞の過剰使用は、学習者が書き言葉と話し言葉の区別をせずに、英作文をしていることを示唆しています。初級の学習者は、Engagement marker に分類される読み手を含む inclusive we だけでなく、Self-mention に分類される読み手を含まない exclusive we も過剰に使用していました。

（例1）When I was the first grade in high school, our class had a exchange students from Canada. At first, we did not know how to talk to her.　（日本人学習者初級）

（例1）で my や I を使用することも可能ですが、おそらく書き手はクラスメートを意識して、2人称代名詞複数形を使用したと思われます。このように、初級の学習者は学生生活の経験、とくに部活動などを述べる際に exclusive we を使用する場合があるのですが、inclusive we が読み手を議論に巻き込み、読み手との連体感を高める効果があるのに対して、exclusive we は読み手から距離を作ると言われています。[7]

　should などの必要・義務を表す（助）動詞は、元来、論説文での頻度が、物語や記述文など他のタイプの文章より高いのですが、こうした Engagement marker を過剰に使用している学習者は、英語母語話者と比較してストレートに自分の意見を主張していることが伺えます。

　疑問文は、学習者と英語母語話者を比較すると、量だけでなく質も異なっていました。[8]　英語母語話者の疑問文では、why が半数を占めるのに対して、学習者は全ての習熟度レベルで why より what を始めとする他の疑問詞の頻度が高いのが特徴でした。さらに、学習者の疑問文の多くが、これから扱うトピックを導入する、あるいは変更する疑問文（topical question）でした。[9]

（例2）What do you imagine about music? Some people may think that music is not so important or irrelevant to them because they just don’t have any interest in it. Others may have an brilliant impression in music because they have learned music at school or just love it. . . .　（日本人学習者中級）

“Importance of Music and Its Education” というタイトルの（例2）は、第一パラグラフの冒頭に疑問文を使用して、読者に音楽についての考えを喚起してから、音楽に関する一般的な意見を述べています。一方、英語母語話者の疑問文には、トピック疑問文だけでなく、質問と反対の自分の主張を強調して読み手を説得する修辞疑問文（rhetorical question）も含まれていました。

（例3）. . . To start with, there is a lot of the teacher explaining grammar rules, and hardly any actual native content － plus, what little there is is all old and uninteresting. How are students supposed to learn to listen to and understand a foreign language, without ever actually listening to it?
　Of course, there is some reasoning behind the current methods. The main reason, it seems, being that it makes for easier testing. After all, you can test a student on whether she knows a grammar point, or the exact meaning of a certain word in their mother tongue, but it becomes a little more difficult to tell whether she gets what’s going on in a television show, or has good feel for what a certain word means in relation to the rest of the language. . . .　（英語母語話者）

このように、英語母語話者は疑問文を使って読者に考えさせながら、自分の主張へ巧みに導いています。疑問文の使用については、さらに大量のデータで統計に基づき生起位置を含めて分析する必要があります。

5.2	Frame marker

　本文の展開や順番を表す Frame maker の下位範疇の分布を図6に示します。

図6.　Frame marker の下位範疇の頻度（10万語あたりの相対頻度）[10]

この中では、英語母語話者と比較して、文章の目的を述べる Announce goal と議論の順番をつける Sequencing が全ての習熟度レベルで統計的に有意な頻度を示していました。Sequencing のメタ談話標識の中では、first(ly) と second(ly) が高い頻度を示し、レベルが上がるにつれて頻度が下がっていました。

　学習者の Announce goal の特徴として、I want to / I would like to (I'd like to) / I will (I'll) / Let me に続けて show や talk about のような発話動詞（verb of saying）が用いられるのに対して、英語母語話者は自分の立場をもっと明確にした表現（例: I will argue for, I will make the case for など）を使用するという特徴がありました。

（例4）I have played volleyball for about 7 years, and I have had a lot of experience. I will write a essay about my volleyball life. . . .　（日本人学習者初級）
（例5）. . . In this essay I will make the case for learning － any learning － as beneficial both to each of us individually and to society as a whole. . . .　（英語母語話者）

これは、学習者の語彙力や、論説文が自分の意見を述べる文章であるという認識が学習者にないことが原因かもしれません。あるいは、NICE 3.2では、英作文をする際に “Do you agree or disagree . . . ?” のような明確な指示文がなく、書き手が3つのトピック（education, money, sports）から選択して書くため、賛否よりも、何について書くのかに焦点をおく Announce goal のメタ談話標識が使用されるのかもしれません。

　Announce goal に Sequencing が後続して、理由がいくつかあると宣言した後に、Sequencing でマークしながら、順番に理由を述べるのが、典型的な初級の学習者の談話パターンでした。

（例6）I like sports. When I was in high school, I am belonging to the baseball team. But now, I am belonging to the track and field club in {{PersonalInfo}} University. I usually go to the club three days in a week. It is very fun. There are three reason why I am doing sports. First, when we win the game or when we run faster or jump higher than ever, we feel very good. . . . Second, we can play sports with other people like friends or family. . . . Third, doing sports is good for the health.（中略）　（日本人学習者初級）

中級と上級の学習者の中には、Sequencing に Announce goal が後続する、すなわち順番に何について話すのか明言しながら議論を展開するエッセイがありました。

（例7）. . . I'm going to express my idea about three things. They are using money, earning money and saving money. . . .
　First, I'm going to think about using money. In my life as a university student, there are a lot of scenes I have to use more money myself than before . . .
　Second, I'm going to think about earning money. Not until I became a university student, I came to earn money. . . .
　Third, I'm going to think about saving money. Why do I save money? Of course, I want to buy clothes and eat out with my friends but there is more important reason . . .　（日本人学習者上級）

Sequencing のメタ談話標識を過剰に使用する傾向は、日本人学習者だけでなく、ハンガリーの大学生の英作文のコーパスの研究でも報告されています。[11]　長い文章で話の順番を示す Sequencing があると、議論の展開を理解しやすいのですが、短い文章で過剰に使用すると不自然で機械的な文章になる可能性があります。

６

まとめ

　今まで、人称代名詞や接続詞などの個別の文法項目について英語学習者がどのように使用しているかという研究はありましたが、メタ談話標識について分析することによって、論説文における英語学習者の体系的な特徴を捉えることができます。

　この記事では、全てのメタ談話標識の範疇について詳細に分析していませんが、Self-mention の1人称代名詞や Engagement marker の2人称代名詞や疑問文の過剰使用から、垣間見えたのは、学習者とくに初級の学習者ほど、話し言葉と書き言葉を区別せずに「話すように書く」ということです。[12]　また、議論の順番を表す Frame marker の Sequencing の過剰使用は、学習者が多くの例文に触れることなく、論理的展開について表面的な理解にとどまったまま、授業で習ったことを安易に使用している可能性を示唆しています。また、これらの結果が日本人学習者に特有の特徴かどうかは、他の国の英語学習者と比較しなければ、わかりません。

　メタ談話は、節の境界を超えた、文脈に依存した現象なので、本来、コンピュータで分析するのは難しいのですが、Hyland のリストを元に、アノテーションを活用することで、計量化して、分析できることを述べてきました。プログラミングの技術がないと、大量のアノテーションの付与ができないので、『日本人1200人の英語スピーキングコーパス』のように、メタ談話標識のアノテーションが付与された学習者コーパスが公開されるとことを希望します。

　次回の記事では、NICE のデータを利用した、一般の学習者のための Web コーパスツールを紹介しながら、一部のメタ談話標識についてさらに詳しく見ていきます。

〈参照文献〉

朝尾幸次郎（2008）「中間言語は学習者コーパスにどのように現れるか」中村純作・堀田秀吾（編）『コーパスと英語教育の接点』松柏社。91-104.

和泉絵美・内元清貴・井佐原均（編著）（2004）『日本人1200人の英語スピーキングコーパス』アルク。

杉浦正利（2011）「言語習得研究のための学習者コーパス」藤村逸子・滝沢直宏（編）『言語研究の技法』ひつじ書房。123-140.

Biber, D., S. Johnasson, G. Leech, S. Conrad and E. Finegan (1999). Longman Grammar of Spoken and Written English. London: Longman.

Hyland, K. (2000). Disciplinary Discourses: Social Interactions in Academic Writing. Harlow: Longman.

Hyland, K. (2005). Metadiscourse: Exploring Interaction in Writing. London: Continuum.

Kobayashi, Y. (2009). “Profiling metadiscourse markers in native and non-native english”. Lexicon 39: 1-7.

Kuo, Chin-Hua (1999). “The use of personal pronouns: Role relationships in scientific journal articles”. English for Specific Purposes 18(2): 121-138.

Tankó, G. (2004). “The use adverbial connectors in Hungarian university students' argumentative essays”. In J. Sinclair (Ed.), How to Use Forpora in Language Teaching. Amsterdam: John Benjamins. 157-181.

Vande Kopple, W. J. (1985). “Some exploratory discourse on metadiscourse”. College Composition and Communication 36: 82-93.

Virtanen, T. (1998). “Direct questions in argumentative student writing.” In S. Granger (Ed.), Learner English on Computer. London: Longman. 94-106.

〈著者紹介〉

三木　望（みき　のぞみ）

　駒澤大学総合教育研究部外国語第一部門准教授。最近の論文に “Key colligation analysis of 10 types of Asian learner English and two types of native English”, Learner Corpus Studies in Asia and the World 2: 395-407 がある。専門は、コーパス言語学、英語教育。主に学習者のライティングや英語の主語、因果関係（causality）に興味・関心がある。

（2016.11.21 修正）

〈注〉

[1] 大井恭子・上村妙子・佐野キム・マリー（2011）『Writing Power ライティング・パワー［改訂版］』研究社。

[2] Hyland（2005）及び Vade Kopple（1985）を参照。

[3] Kobayashi（2009）は、日本人の中学生、高校生、大学の学年別にメタ談話標識を分析しています。

[4] NICE 3.2にはエッセイを書いた学習者の TOEIC スコアが記載されていないファイルもあるので、ファイル数の不足しているレベルを補うために、一部のファイルは TOEFL-ITP のスコアを TOEIC スコアに換算して使用しています。学習者上級コーパスの総語数は5,657語、中級コーパスの総語数は6,024語、初級コーパスの総語数は5,894語です。英語母語話者コーパスの総語数は18,655語です。

[5] XML は、Extensible Markup Language（拡張可能なマークアップ言語）の略です。

[6] Biber et al.（1999）を参照。

[7] exclusive we については、Kuo（1999）を参照。

[8] 疑問文については、Virtanen（1998）を参照。

[9] 疑問文のタイトルを除いています。

[10] Frame marker の Shift topic は、いずれのサブコーパスでも頻度が2以下だったので、図6から省かれています。

[11] Tankó（2004）を参照。

[12] 朝尾（2008）を参照。