内容へ移動
自然言語処理の餅屋
https://www.jnlp.org/
ユーザ用ツール
ユーザー登録
ログイン
サイト用ツール
検索
ツール
ソースの表示
以前のリビジョン
バックリンク
最近の変更
メディアマネージャー
サイトマップ
ユーザー登録
ログイン
>
最近の変更
メディアマネージャー
サイトマップ
現在位置:
自然言語処理の餅屋
»
形態素解析
»
SentencePiece
サイドバー
(
広告募集
)
形態素解析:sentencepiece
目次
SentencePiece
SentencePieceとは
記事
SentencePiece
SentencePieceとは
分かち書き
ツール(tokenizer)。
言語依存処理がなく、いわゆる辞書も必要ない。教師なし学習で分割単位(subword)を学習。
逆に言えば人間の感覚ではおかしな単語分割がされることもある。また学習テキストが変われば分割結果が変わる。
テキストの圧縮率をベースに最適化し、辞書規模を圧縮。
2017-04-07 |
Sentencepiece : ニューラル言語処理向けトークナイザ
– 作成者(工藤さん)による解説記事
記事
2023-04-13 |
Sentencepiece の分割を MeCab っぽくする
2021-08-23 |
LSTM (RNN)による文章生成で必要なSentencePieceのインストール
2021-06-08 |
SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む
2020-12-09 |
【自然言語処理:SentencePiece 0.1.9】概要
2020-05-14 |
Wikipediaから日本語コーパスを利用してSentencePieceでトークナイズ(分かち書き)
-
分かち書き
(感想・要望・情報提供)
· 最終更新: 2023/06/10 15:22 by
admin
ページ用ツール
ソースの表示
以前のリビジョン
バックリンク
文書の先頭へ
(広告募集)