単語を同定する処理。日本語の場合は分かち書きされていない言語なので、どの文字からどの文字までが単語なのかを知る必要がある。また、その単語がどのような単語(品詞や読みなど)も知る必要がある。以上まとめると、形態素解析はいくつかの処理に分解できる。
日本語の場合は以上を一つの処理(ツール)で行うためまとめて形態素解析と呼んでいる。英語の場合は単語分割と品詞付与は別の処理と見なす。よって、形態素解析を英語で説明するときは morphological analysis でも間違いではないが、分かりやすさという意味では tokenization + part-of-speech tagging と呼ぶことをおすすめします。
形態素解析は、文字通り言えば「形態素」に分解することだが、自然言語処理の「形態素」は日本語学とは異なる意味で使っているので注意(詳しくは長くなるので省略)。先人が語義を誤ってこうなったのかあえてこう呼んでいるのかは不明。
仮名漢字変換は形態素解析と関係の深い技術。
以下では、単語分割を行う単語分割器(トークナイザ)も含めて紹介する。