korukoru

考えたこと,学んだこと,研究メモ etc. を不定期に綴ります。

語彙の多様性指標に関して:水本 (2014, June 25)に添えて

ツイッターのタイムラインで,水本篤先生が語彙の多様性指標Lexical Diversity Measures)に触れられていた。
語彙の多様性は,語彙の洗練性と併せて語彙の豊かさを測定・評価するための観点・指標で,私の研究テーマの一つである。





そこで,僭越ながら補足の情報提供ができればと思い,思い切って久し振りにブログ執筆に着手した。

■出発点としてのKoizumi (2012)

まず,最初に言及されている小泉利恵先生の論文に関して。


Koizumi, R. (2012). Relationships between text length and lexical diversity measures: Can we use short texts of less than 100 tokens? Vocabulary Learning and Instruction, 01(1), 60–69. doi:10.7820/vli.v01.1.koizumi
水本先生が仰る通り,近年の語彙の多様性指標に関して,特に算出方法・ソフトウェアの使い方も含めよくまとめられている。
また,無料のオープン・ジャーナルに掲載されているため,誰でも容易に入手できるというのも非常に有難い点である。
さて,このKoizumi (2012)を出発点に,私から補足したい情報としては以下の3点である。

■Koizumi (2012)の研究の射程

Koizumi (2012)の研究の目的は,語彙の多様性指標の信頼性*1を,テキスト長の観点から検証することである。
つまり,テキストの長さの影響を受けて4種類の語彙の多様性指標の数値が不安定にならず,一貫しているか(=信頼性の高い指標であるか)否かを調査の対象としている。
そのため,語彙の多様性指標その物の概観・紹介という側面は射程外ではないかと思われる。また,分析対象の語彙の多様性指標も4種類と限られている。

そこで,

  • 「語彙の多様性指標には,どんな種類があるのだろう?」
  • 「語彙の多様性指標は,どのような経緯で生まれたのだろう?」
  • 「語彙の多様性指標は,どんな分野で,どのように使われてきたのだろう?」
等の疑問を持っている方,或いは語彙の多様性指標についてまず勉強してみたい方には,以下の書籍 or 紀要論文をお勧めしたい。

Malvern, D. D., Richards, B. J., Chipere, N., & Duran, P. (2004). Lexical diversity and language development: Quantification and assessment. Hampshire, UK: Palgrave Macmillan.
Lexical Diversity and Language Development: Quantification and Assessment

小島ますみ (2012). 「英語学習者のアウトプットにおける語彙の多様性研究の現在と今後の課題」『岐阜市立女子短期大学研究紀要』62, 29–37.
参考URL: CiNii 論文 - 英語学習者のアウトプットにおける語彙の多様性研究の現在と今後の課題 & 『岐阜市立女子短期大学研究紀要』第62輯(2012年) 目次

Malvern et al. (2004)は,一冊丸ごと語彙の多様性指標に関する書籍である。
勿論,導入として丸々一冊は荷が重いので,

  • 語彙の多様性指標の概要語彙の多様性指標を用いた先行研究に関する第1章
  • 2004年以前の語彙の多様性指標の概観と変遷に関する第2章
を読むと良いと思われる。

小島 (2012)は,紀要全体を注文する,或いは上記の紀要を蔵書として有している大学図書館等を利用するなどしないと入手ができないという困難はあるが,2012年時点までの語彙の多様性指標を概観する上では非常に有用だと考えられる。
また,Malvern et al. (2004)と異なり日本語で執筆されているため,まだ英語の専門書は敷居が高い読者や入門の入門を欲している方にもお勧めできる。

■Koizumi (2012)の発展版の存在

Koizumi (2012)の研究を更にextend*2したものが,System掲載の以下の共著論文だと思われる。

Koizumi, R., & In'nami, Y. (2012). Effects of text length on lexical diversity measures: Using short texts with less than 200 tokens. System, 40, 554–564. doi:10.1016/j.system.2012.10.012
語彙の多様性の各指標に関する説明だけでなく,先行研究,検証方法,解釈・考察なども更に詳しく書かれているので,Koizumi (2012)の後に併せて読むことをお勧めしたい。

■語彙の多様性指標の算出

Malvern et al. (2004)で書かれている通り,語彙の多様性指標には様々なものが存在しており,様々な分野で用いられてきた。
管見の限りでは,SLAの分野だけでもおそらく70年以上の歴史を持っていると思われる。
Koizumi (2012), Koizumi & In'nami (2012), Malvern et al. (2004), 小島 (2012)でも数多くの指標に言及/分析している。

そうした数多くの語彙の多様性指標の算出には,RのkoRpus package (michalke, 2014)が対応している。

"R packge for text analysis"という名前の通り,このパッケージは非常に多機能で,語彙の多様性指標の算出以外のことも可能である。
また,語彙の多様性指標の算出についても,上記の論文・書籍でカバーしているもの以外,例えば杉浦正利先生が言及されているMATTRも算出することが可能である。

但し,語彙の多様性指標に限らないことだが,指標算出前のdata processingには細心の注意を払う必要がある。
「語」の定義や,アラビア数字・固有名詞・略語・複合語等の取り扱いなどなど,語の多様性指標算出の前に考慮すべき・一貫させるべきことは少なくない。
何故なら,語の多様性指標はテキスト内の語数のみで算出される指標なので,分析者の語の定義・カウントに如実に影響を受けるためである。
このようなdata processingを考慮することなく,専用のソフトウェアやRを用いて指標の算出だけを行っても誤った解釈に繋がってしまう可能性が高いため,要注意である。


以上3点,水本先生のツイートとKoizumi (2012)に関連した,語彙の多様性指標に関する補足である。
拙ブログ記事の内容が,水本先生のツイートや小泉先生の論文と併せて,これから語彙の多様性指標について勉強・研究する方のお役に少しでも立てれば嬉しく思う。
それでは,本日はこの辺りで。どうもお疲れ様でした。


p.s.
この2, 3ヶ月,

本当に沢山の貴重な経験ができましたので,この夏には振り返ることができたらと思っています。

*1:「信頼性」という用語の定義は,本記事では取り扱わないこととしたい。

*2:updateと言うべきだろうか?