【サマーインターン体験記】機械学習エンジニア@画像処理
ENGINEER SUMMER 2021 INTERNSHIPの参加者、
安部さんがインターン体験記を書いてくださいました!
***
◆自己紹介
大阪大学医学部3年の安部政俊です。InClass のコンペで圧倒的な実力を示して優勝していたMasterの先輩に憧れて、kaggleに興味を持ちました。
◆インターンに参加しようと思ったきっかけ・決め手
部活の先輩が夏季休暇を用いて企業インターンに参加した体験談や、Twitterでkagglarの方がインターンの話をされていたのを見聞きして、自分もどこかのインターンに参加したいと考えるようになりました。縁があってお話をした先生から「機械学習をやりたいならエクサウィザーズが良さそう」と教えていただいたのが、今回のインターンに参加したきっかけです。
◆5週間で取り組んだこと
前立腺生検画像から癌のグリソンスコアの等級分類を行う、kaggleの過去コンペの追試を行いました。このコンペで課題となっていた施設間のドメインシフトやWSIの扱いなどのうち、最も重要であったnoisy labelの対処に取り組みました。noisy labelに有効とされている種々の対策を比較したところ、1位解法で挙げられていたnoisyなものを除去してしまうのが最も精度向上につながることを確認しました。また、このdata cleaningには重複画像を適切に対処することが重要であることもわかりました。
◆印象に残っていること
メンターの藤井さんに言われた「自分のやりたいことと組織としてやりたいことをすり合わせることが、今後重要になってくる」という言葉が印象的でした。藤井さんが毎日論文などを読んでTwitterにアウトプットをなさっている姿も刺激になりました。
また、AIエンジニアリングフェローの遠藤さんが1on1でおっしゃっていた「医療AI開発にはドメイン知識の点で医療者との協力が必要なので、開発側からも積極的にコミュニケーションを取るべきだし、医療者側からもあれこれ教えてほしい」という言葉は、これから両方の立場を経験する可能性のある自分にとって、とても響きました。
◆気づき・学び
データの説明を丁寧に読む → 類似コンペの解法を探る → 課題の分野についての最新のドメイン知識を追う → 適切なCVを切る → baselineを組む… という一連のアプローチの中で、「データの説明を丁寧に読む=何が課題か理解すること」が最も重要かつ時間をかけなければならない部分であることを実感しました。この次にある課題の対策として初手何をすべきかについては、自分の経験がまだまだ足りないと感じました。
***
「AI×社会課題」に挑む仲間として加わってくださる方を募集しています!
詳細はこちらから