言語資源

言語資源（げんごしげん、英: Language resource）とは、自然言語を研究するさいに用いられる資源のこと。辞書やコーパス、シソーラス、インフォーマントなどがこれにあたる。電子化された言語資源は自然言語処理技術の研究に不可欠であるが、作成に非常に手間がかかるため、いまだにその数は少なく、一般にとても高価である。

近年WWWが普及したこともあり、これらの資源をインターネット上から自動的に獲得しようとする試みも数多くなされてはいるが、一般的なネットワーク上の文章にはノイズが多すぎて価値ある情報を収集するのは難しいとされる。

また、言語資源には著作権の問題が重くのしかかっている。それはたとえ資源を作っていても、それを公開するのは権利上の許可を得なければならないからである。ウィキペディアはこの問題に対する解決策の一つとなるべく運営されている。

言語資源に関するサイト

松本研究室 - 自然言語データに関する情報（日本語の言語資源一覧）
言語イニシアティブ調査（JEITA 電子情報技術産業協会） - ウェイバックマシン（2010年9月14日アーカイブ分）

自然言語処理

基礎用語

AI完全
Bag-of-words（英語版）
n-gram
- bi-gram（英語版）
- tri-gram（英語版）
計算言語学
自然言語理解
ストップワード（英語版）
テキスト処理（英語版）

テキスト分析

コロケーション抽出（英語版）
コンセプト・マイニング（英語版）
共参照解析（英語版）
深い言語処理（英語版）
遠読（英語版）
情報抽出
固有表現抽出
オントロジー学習（英語版）
構文解析
品詞タグ付け（英語版）
意味役割付与（英語版）
意味的類似性（英語版）
感情分析
用語抽出（英語版）
テキストマイニング
テキスト含意（英語版）
Truecasing（英語版）
語義の曖昧性解消
語義推定（英語版）

テキストセグメンテーション（英語版）	複合語用語処理（英語版）見出し語化（英語版）字句解析テキストチャンキングステミング（英語版）文区切り（英語版）単語区切り（英語版）

自動要約

複数文書要約（英語版）
センテンス抽出（英語版）
テキスト平易化（英語版）

機械翻訳

翻訳支援ツール
用例ベース（英語版）
ルールベース（英語版）
統計的（英語版）
転送ベース（英語版）
ニューラル

分布意味論（英語版）モデル

BERT
単語文書行列（英語版）
明示的セマンティック分析（英語版）
fastText（英語版）
Glove（英語版）
潜在意味解析
単語の埋め込み
Word2vec

言語資源、
データセット・コーパス

種類・基準	コーパス言語学 Lexical resource（英語版） LLOD（英語版）機械可読辞書（英語版）対訳コーパス（英語版） PropBank（英語版）意味ネットワーク SKOS（英語版）音声コーパス（英語版）コーパスシソーラスツリーバンク Universal Dependecies（英語版）
データ	BabelNet（英語版） Bank of English（英語版） DBペディアフレームネット（英語版） Google Ngram Viewer（英語版） ThoughtTreasure（英語版） UBY（英語版） WordNet