BERTの埋め込み空間の可視化を最速で

BERTの埋め込み空間の可視化を最速で

Python # transformers tech BERTのtoken embeddings(入力部分にある単語id->単語埋め込みに変換する層)の埋め込み空間の可視化をやったので、手順をまとめた。 文脈化単語埋め込みの方(BERTの出力ベクトル)の可視化も似たような手順でできると思う。 今回は東北大の乾研の方が公開されている日本語BERT(cl-tohoku/bert-base-japanese-whole-word-masking)を利用した。 使用する技術は主に以下。 huggingface/transformers: 事前学習済みモデルの利用 holoviews: 可視化まとめツール t-SNE: 次元削減 poetry: パッケージマネージャ 環境構築 poetryでいい感じにやった。 以下のpyproject.tomlをコピペしてpoetry installすればよさそう。 [ tool.poetry ] name = "hoge" version = "0.1.0" description = "" authors = [ "hogef

5 mentions: @hpp_ricecake@hpp_ricecake@podhmo
Date: 2021/06/02 18:17

Referring Tweets

@hpp_ricecake 手順をまとめた記事を書いた、よかったら読んでね t.co/SAfjFVGGqt t.co/UVuh8lwOOS
@hpp_ricecake @yo_ehara 3000 / 10000 トークンの時の構造を上の画像の中央少し右に発見できる...ような気もするので、埋め込みの概観には良さそうですね 可視化はt-SNEでやっています。コードはこちらの記事(t.co/SAfjFVGGqt)で紹介しているものと同じで、使うモデルだけbert-base-uncasedに変えています。
@podhmo t.co/GyxBmY9P3y へー、と眺めてた

Related Entries

Read more A New ML Application, in Formal Regressions - SemiWiki
0 users, 2 mentions 2021/02/13 06:52
Read more Universal Encoder使ってみた!(自然言語処理)【図解速習DeepLearning】#014 - 福岡の社会人データサイエンティストの部屋
3 users, 2 mentions 2021/02/13 13:23
Read more 言語処理のための機械学習入門 (自然言語処理シリーズ) | カーリル
0 users, 1 mentions 2021/03/29 02:21
Read more 自然言語処理入門 Vol.2 係り受け解析/構文解析 | リーディング・エッジ社 研究開発部ブログ
2 users, 3 mentions 2021/05/10 09:00
Read more FastLabel - 機械学習に欠かせない高品質な教師データを低コストで作成
0 users, 2 mentions 2021/05/20 03:18

ML-Newsについて

ML-Newsは機械学習に関するニュースサイトです。機械学習に関する論文ブログライブラリコンペティション発表資料勉強会などの最新の情報にアクセスできます。

機械学習を応用した自然言語処理、画像認識、情報検索などの分野の情報や機械学習で必要になるデータ基盤やMLOpsの話題もカバーしています。
安定したサイト運営のためにGitHub sponsorを募集しています。

お知らせ