【サマーインターン体験記】機械学習エンジニア@構造化データ処理
ENGINEER SUMMER 2021 INTERNSHIPの参加者、
隅田さんがインターン体験記を書いてくださいました!
***
◆自己紹介
工学院大学情報学部システム数理学科所属の学部3年生です。東京生まれですが、中高は沖縄に住んでいました。最近の趣味は洋裁です。
◆インターンに参加しようと思ったきっかけ・決め手
私は学部1年生の頃から、データサイエンティストや機械学習エンジニアといった職業に就きたいと考えていました。そして学部3年生になって、学部卒業後の進路について悩んでいました。大きな選択肢としては、大学院へ進学するか、あるいは就職するのかという2つです。さらに、大学院進学の場合は内部進学か外部進学か、就職を考える場合は自分に適性があるのか、採用されるだけの能力が現時点であるのか、自分には何が足りないのか、そもそもデータサイエンティストや機械学習エンジニアは企業でどのような業務をしているのだろうか、などと大小さまざまな不安や疑問が付きまとっていました。
これらの不安や疑問は自分の中で悶々と考えていても答えが出るものではなく、自分から情報を手に入れる必要がありました。そして就職にまつわる不安や疑問を解消するためには、データサイエンティストや機械学習エンジニアとして長期のインターンに参加するのが手っ取り早いと考えました。結局のところ実際に働いてみないと何もわからないと思ったのです。そんなとき、たまたまAtCoder Jobsでエクサウィザーズのエンジニアインターンの募集を見つけました。私の将来への不安や疑問を解消できるうえに、コロナの影響でなかなか気軽に外で遊べない夏休みの1か月を、フルリモートで、さらに報酬付きで働けるのですから、応募しない理由はありませんでした。
◆5週間で取り組んだこと
インターンでは進行中の構造化データ処理案件において、EDA検討、モデル実装に使用するライブラリの調査、及びモデル可視化手法の検討を行いました。初めの4週間は自然言語を含む各種データに対してEDAを行い、レポートを作成しました。そして、最後の1週間ではそれを踏まえてモデル実装に使用するライブラリの調査と選定、試作モデルの実装を行い、そのモデルの可視化手法を複数検討しました。
具体的には、某化粧品メーカーの商品開発を支援するモデル構築について検討しました。化粧品は多種の原料を配合して生産され、その良し悪しは主観に依ります。そのため商品開発の際にはヒューリスティックに細かい配合の調整を何度も繰り返し実験し、試作品の使い心地を評価することを繰り返すことになります。そこで原料の配合から化粧品の使い心地を予測することができれば、開発を効率よく進めることができ、より良い商品を開発できるのではないかというのが展望としてありました。
EDA検討では、この原料の配合に関するデータと化粧品の出来の良し悪しを評価するさまざまな試験結果に関するデータと、化粧品に対するお客様からのレビューデータについて調べました。すべての原料の配合率を足しても100%にならない試作品のデータ、使い心地が「Aよりはよい。しかし、少しべたつく」などと書かれているデータが存在しており、普段取り組んでいるデータコンペにはない実データの汚さを体感しました。さらに、このデータの出所である報告書を熟読しました。この作業はかなり地味でしたが、データだけを見ていてもわからない発見があるもので勉強になりました。
試作モデルの構築では、ガウス過程を用いた不確実性を含めた予測を実装しました。この手法の実装に使うライブラリは複数考えられ、それぞれのライブラリの特徴を調べて選定しました。さらに、そのライブラリを実際に手元にあるデータに対して用いたときの挙動やパラメータについての情報を整理しました。
最後のモデル可視化手法の検討では、このガウス過程による予測値と不確実性を如何に表現するかという点に関して検討しました。人間は基本的に3次元までしか知覚できません。しかし、今回のモデルでは、配合率という割合を検討する点で、複数の原料の組み合わせを調整しながら、その予測値と不確実性を見る必要があります。これは、ライブラリにもともと備わっている描画パッケージでは実現できるものではないため、自分で実装しました。
◆印象に残っていること
印象に残っている方はメンターの佐藤さんと、オンラインランチでお話した佐々木さんです。
メンターの佐藤さんとは毎朝の進捗報告で話す機会がありました。私はかなり業務の自由度が大きかったため、さまざまなアプローチでEDAに取り組むことができました。そのおかげで、普通はやらないようなアプローチも試すことができました。そのような少し挑戦的な試みに対しても面白いと言っていただけたことが印象的でした。また、進捗報告に対する鋭いフィードバックをいただきとても勉強になりました。その他にもビジネスサイドとのミーティングやタスク管理、ワークライフバランスなど、技術的スキル以外でも見習いたいと思うことがたくさんあった、印象的な方でした。
佐々木さんは1度しか話してはいませんが、とても印象に残っています。週報での「オンラインランチで話してみたい人は?」という設問に対して、自分の考えている将来の理想像の一つを率直に書いてみたらドンピシャな方がいたのです。実際に話してみて想像通りの面白い方で、この方のように生きてみたいと思いました。
◆気づき・学び
インターンに参加しようと思ったきっかけである、就職に対する不安や疑問が解決したという点でとても有意義な5週間でした。5週間のインターンシップで機械学習エンジニアとして働くことについての理解が深まり、自分の将来像に対するイメージが明確になったと感じています。また、自分に足りないものは基本的な機械学習モデルの理論的背景の理解だと感じました。機械学習エンジニアという職は日々新しい手法が開発され、それを理解し、実装する必要があると思います。新しい手法はほとんどの場合、既存手法の延長にあり、基礎となっている手法に対する理解が新しい手法の素早い理解に繋がると思います。実際、インターンで用いたガウス過程という手法も私は初見で、慌てて勉強しましたが統計学などの基礎的な知識がとても役に立ちました。このことから、学生で時間に余裕がある今やるべきことは、新しいことを理解するための基礎を固めることだと感じました。
***
「AI×社会課題」に挑む仲間として加わってくださる方を募集しています!
詳細はこちらから