言語資源

言語資源(げんごしげん、: Language resource)とは、自然言語を研究するさいに用いられる資源のこと。 辞書コーパスシソーラスインフォーマントなどがこれにあたる。 電子化された言語資源は自然言語処理技術の研究に不可欠であるが、作成に非常に手間がかかるため、いまだにその数は少なく、一般にとても高価である。

近年WWWが普及したこともあり、これらの資源をインターネット上から自動的に獲得しようとする試みも数多くなされてはいるが、一般的なネットワーク上の文章にはノイズが多すぎて価値ある情報を収集するのは難しいとされる。

また、言語資源には著作権の問題が重くのしかかっている。それはたとえ資源を作っていても、それを公開するのは権利上の許可を得なければならないからである。 ウィキペディアはこの問題に対する解決策の一つとなるべく運営されている。

言語資源に関するサイト

  • 松本研究室 - 自然言語データに関する情報(日本語の言語資源一覧)
  • 言語イニシアティブ調査(JEITA 電子情報技術産業協会) - ウェイバックマシン(2010年9月14日アーカイブ分)
基礎用語
テキスト分析
  • コロケーション抽出(英語版)
  • コンセプト・マイニング(英語版)
  • 共参照解析(英語版)
  • 深い言語処理(英語版)
  • 遠読(英語版)
  • 情報抽出
  • 固有表現抽出
  • オントロジー学習(英語版)
  • 構文解析
  • 品詞タグ付け(英語版)
  • 意味役割付与(英語版)
  • 意味的類似性(英語版)
  • 感情分析
  • 用語抽出(英語版)
  • テキストマイニング
  • テキスト含意(英語版)
  • Truecasing(英語版)
  • 語義の曖昧性解消
  • 語義推定(英語版)
テキストセグメンテーション(英語版)
自動要約
  • 複数文書要約(英語版)
  • センテンス抽出(英語版)
  • テキスト平易化(英語版)
機械翻訳
分布意味論(英語版)モデル
言語資源、
データセット・コーパス
種類・基準
データ
  • BabelNet(英語版)
  • Bank of English(英語版)
  • DBペディア
  • フレームネット(英語版)
  • Google Ngram Viewer(英語版)
  • ThoughtTreasure(英語版)
  • UBY(英語版)
  • WordNet
自動認識・
データ取得(英語版)
トピックモデル(英語版)
  • 文書分類
  • 潜在的ディリクレ配分法(英語版)
  • パチンコ配分モデル(英語版)
レビュー支援
ツール(英語版)
自然言語ユーザー
インターフェース(英語版)
他のソフトウェア
  • NLTK(英語版)
  • spaCy
カテゴリ カテゴリ