spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ …

4 mentions: @dakuton
Keywords: spacy
Date: 2021/04/09 01:00

Referring Tweets

@dakuton さくっと使える記事を書きました / spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG t.co/WCJUgTvzYF

Related Entries

Read more Deep Learning's Most Important Ideas - A Brief Historical Review
3 users, 1 mentions 2020/08/02 23:21
Read more 新人データサイエンティストの野見くんが部内の月間MVPをとるまでに乗り越えたこと - Qiita
5 users, 0 mentions 2020/12/19 09:51
Read more BigQuery 特集: データ操作(DML) | Google Cloud Blog
3 users, 1 mentions 2020/12/21 03:51
Read more オープンソース SLAM の分類
6 users, 1 mentions 2021/01/14 14:21
Read more 空間データの回帰分析 (地理的加重回帰モデル) - Qiita
3 users, 5 mentions 2021/02/19 11:21