spark 機械学習でnull valueの扱い - CTOの日記

p > p > p > p p こんにちは トレーニングデータにnull値が含まれれると 以下のようなエラーでnull値がありますよと、処理が落ちます。 Caused by: org.apache.spark.SparkException: Encountered null while assembling a row with handleInvalid = "keep". Considerremoving nulls from dataset or using handleInvalid = "keep" or "skip". at org.apache.spark.ml.feature.VectorAssembler$.$anonfun$assemble$1(VectorAssembler.scala:288) ですが spark >= 2.4 から HasHandleInvalidが指定できるようになったので assembler.setHandleInvalid("skip").transform(df).show 選べるオプションは handleInv

1 mentions: @Ishitonton
Date:

Referring Tweets

@Ishitonton
@Ishitonton spark2.4以降から、HasHandleInvalidが設定できるので、トレーニングデータにnullがあったら以下で除外できるのか。 assembler.setHandleInvalid("skip").transform(df) t.co/YpYM5bzJge

Related Entries

Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」 - connpass
Read more Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」 - connpass
3 users, 72 mentions 2020/07/15 14:21
2020/8/6開催オンラインセミナー:組織全体でのデータ活用で成果を生み出す ~データサイエンティストと現場のアナリストをつなぐ データ解析基盤「TIBCO Connected Intelligen...
Read more 2020/8/6開催オンラインセミナー:組織全体でのデータ活用で成果を生み出す ~データサイエンティストと現場のアナリストをつなぐ データ解析基盤「TIBCO Connected Intelligen...
0 users, 2 mentions 2020/08/04 12:58
Conversational AI with Transformer Models - Databricks
Read more Conversational AI with Transformer Models - Databricks
0 users, 1 mentions 2021/05/07 09:21
Bonfire Data Analyst #4 - connpass
Read more Bonfire Data Analyst #4 - connpass
0 users, 11 mentions 2021/05/10 10:49
インスタンスセグメンテーション(Instance Segmentation) | CVMLエキスパートガイド
Read more インスタンスセグメンテーション(Instance Segmentation) | CVMLエキスパートガイド
0 users, 1 mentions 2022/04/03 13:37

ML-Newsについて

機械学習の技術に関する情報は流速も早いし、分野も多様でキャッチアップが大変です。Twitterで機械学習用のリストを作っても、普段は機械学習以外の話題が多く流れており、効率的に情報収集するのは困難です。

ML-NewsはSNSを情報源とした機械学習に特化したニュースサイトです。機械学習に関する論文ブログライブラリコンペティション発表資料勉強会などの最新の情報を効率的に収集できます。

機械学習を応用した自然言語処理、画像認識、情報検索などの分野の情報や機械学習で必要になるデータ基盤やMLOpsの話題もカバーしています。
安定したサイト運営のためにGitHub sponsorを募集しています。

お知らせ

  • 2021/12/31: デザインを刷新しました
  • 2021/04/08: 日本語Kaggleのカテゴリを新設しました