SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog

SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog

背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき,文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません. この前処理が思ったよりもやっかいなのです. 事前学習済みのモデルをTransformers公式から提供されているものから選んでしまえば,ここはあまり問題になりません.Transformers付属のtokenizerを使って一発で分かち書きできるからです. 実際,東北大からTransformersを通じて日本語BERT事前学習済みモデルが公開されて久しいので,日本語BERTモデルを使うのはだい…

2 mentions: @iBotamon
Keywords: sentencepiece
Date: 2021/06/07 16:35

Referring Tweets

@iBotamon SentencePiece で batch_encode_plus() 出来るようにしました.tokenizers がいつの間にこんなに便利になっていたとは… t.co/Yh2WQ4dsyx

Related Entries

Read more 音声合成/認識を用いたText Data Augmentationの可能性① | 株式会社AI Shift
0 users, 2 mentions 2020/06/26 09:51
Read more GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
0 users, 5 mentions 2020/10/19 03:52
Read more 機械学習でデータ量を9倍にして分析し直した結果・・・【感情分析】 | ジコログ
1 users, 3 mentions 2020/11/04 13:56
Read more 自然言語処理系の国際会議を雑に説明してみる(修正あり) - Qiita
0 users, 3 mentions 2021/05/01 06:18
Read more 滝沢カレンの理解不能な文章を言語解析してみた。 - Qiita
195 users, 8 mentions 2021/06/08 12:18

ML-Newsについて

ML-Newsは機械学習に関するニュースサイトです。機械学習に関する論文ブログライブラリコンペティション発表資料勉強会などの最新の情報にアクセスできます。

機械学習を応用した自然言語処理、画像認識、情報検索などの分野の情報や機械学習で必要になるデータ基盤やMLOpsの話題もカバーしています。
安定したサイト運営のためにGitHub sponsorを募集しています。

お知らせ