はじめに
「営業先のリストを作成してほしい」「商品を一覧できるようリスト化してほしい」そのような頼み事を受けたことのある方がこのページを見ていると思います。
この要望を実現する方法としてまずクローリング、スクレイピングが候補に上がると思います。実際にトライされた方も多いと思います。
htmlの構造パターンが少ないサイトの場合、シンプルなスクレイピングコードでクリア出来ますがパターン数が1000、10000等はどうでしょう?
手動でコードを作成する時間はもちろん、膨大ななパターンに対して日々メンテナンスも必要になります。
その問題を解決するための手法として弊社では自然言語処理の研究に多くの時間をかけてきました。シンプルな手法の形態素、係受け解析からエンティティ、固有表現抽出。さらにtransformerを使用した分類、生成のアプローチ等を行なっています。
特に、少ないリソースで目的を達成するためにLLMに転移学習させた専用のモデルを作り、多くの問題を解くことに成功しています。
転移学習とは?
転移学習の基本とは?
転移学習は、あるタスクで学習した知識や経験を別のタスクに応用する手法です。通常、大量のデータや計算リソースが必要な機械学習モデルの学習を効率的に行うために使用されます。
転移学習のメリットとは?
転移学習のメリットは、以下の通りです。
– 少ない教師データで高い精度の予測が可能
– 事前学習済みモデルの知識を活用することで学習時間や計算リソースを削減
– 新たなドメインへの適用が容易
応用例とは?
テキスト分類を行えるだけでなく画像認識、自然言語処理、音声認識などさまざまな分野に応用できます。例えば、ある画像認識モデルに独自のデータを学習させることで、特定の画像データに対する高精度な予測が可能となります。
学習用リスト作成手法
データセットの収集と前処理
教師データを作るために、まずターゲットドメインに関連するデータセットを収集し、適切な前処理を行う必要があります。データセットの収集には、WebスクレイピングやAPIを利用するなどの方法があります。※こちらの工程も弊社のWebデータ収集サービスよりサポート可能です。
事前学習済みモデルの選択と取り込み
転移学習では、事前に大規模なデータセットで学習済みのモデルを利用します。適切な事前学習済みモデルを選択し、取り込むことで、モデルの学習効果を高めることができます。
教師データ作成時のポイント
ターゲットドメインと類似した事前学習済みモデルの選択
転移学習では、ターゲットドメインと類似した事前学習済みモデルを選択することが重要です。類似したドメインの知識を活用することで、リスト作成の精度を向上させることができます。
データセットのバランスと多様性の確保
リスト作成に使用するデータセットは、バランスの取れたものであることが重要です。また、多様なデータを含むことで、モデルの汎化性能を向上させることができます。
ファインチューニングの適切な設定とパラメータの調整
今回のアプローチの肝となるファインチューニングでは、適切な設定とパラメータの調整が必要です。学習率やネットワークの層の追加などを適切に行うことで、分類精度を向上させることができます。
今回、技術の細部までは触れませんでしたがbutinukiでは機械学習を用いたソリューションの提案、実装、運用まで行っています。不明点などサポートも可能ですのでお気軽にお問合せください。