ワークスタイル変革の実現

butinukiはデータ取得(RPA)、分析技術(AI)を扱うプロ集団として情報の本質を見つめる解析力と
必要なデータを集める力を武器に、お客様のビジネスに貢献します。

業種、規模により異なる生存戦略の上で
「どのようなデータを揃え」 「どう活かし」 「どう繁盛させるか」を
お客様と共に考えることを大切にしています。

注意点

業務を効率化するためのAI・RPAですが、必ずしも成功に結び付くとは限りません。
AI・RPAはそれ自体が目的ではなく、業務を効率化する手段にすぎず
導入して何をしたいか明確であり、正しい仮説を立てなければ
期待する結果につながりません。

私達はセールスマンではありません。
どんな企業がAI・RPAを使ったら楽になるか、売上げを上げられるか、コストカット出来るか
成果にコミットすることに誇りを持つエンジニア、マーケターの集団です。

業務課題を明確にし、その課題をどのように解決するかが重要で
私達はまず問題点と目標を明確に知ることを徹底しています。

自動化、分析を行う前に業務フローとして最適であるか
現場へのヒアリングや業務プロセスの状態を認識することから始め
地に足の着いたAI・RPA技術の提案と実装を行なっています。

プロダクト

AI技術を駆使した
アンチボットソリューション
Concern Image


インフォメーション

Brightdata社(イスラエル)の事例としてご紹介頂きました。

Profile image
Butinuki is a data collection agency that specializes in supporting Japanese companies with public web data collection and analysis using artificial intelligence (AI) and robotic process automation (RPA) technologies. We propose data analysis solutions designed to gather insights that help businesses enhance their creative work styles – inherently fostering more productive work flows, while keeping employees fully engaged within their own responsibilities. Through the process of analyzing and interpreting internal metrics as well as relevant public web data, Butinuki helps identify areas of operations within our client companies that can be enhanced in order to optimize employee performance, and from there we can build systems to enhance future operations. Our solutions are mainly used by clients who have not considered large-scale AI tools but want to partially use RPA and AI technologies. We like to describe our product as basically “a smart AI for your company that can answer everything.”...


Transformerを用いたテキストクラスタリング、抽出。リスト作成を効率化

Transformerを用いたテキストクラスタリング、抽出。リスト作成を効率化

はじめに

「営業先のリストを作成してほしい」「商品を一覧できるようリスト化してほしい」そのような頼み事を受けたことのある方がこのページを見ていると思います。
この要望を実現する方法としてまずクローリング、スクレイピングが候補に上がると思います。実際にトライされた方も多いと思います。

htmlの構造パターンが少ないサイトの場合、シンプルなスクレイピングコードでクリア出来ますがパターン数が1000、10000等はどうでしょう?

手動でコードを作成する時間はもちろん、膨大ななパターンに対して日々メンテナンスも必要になります。

その問題を解決するための手法として弊社では自然言語処理の研究に多くの時間をかけてきました。シンプルな手法の形態素、係受け解析からエンティティ、固有表現抽出。さらにtransformerを使用した分類、生成のアプローチ等を行なっています。

特に、少ないリソースで目的を達成するためにLLMに転移学習させた専用のモデルを作り、多くの問題を解くことに成功しています。

転移学習とは?

転移学習の基本とは?

転移学習は、あるタスクで学習した知識や経験を別のタスクに応用する手法です。通常、大量のデータや計算リソースが必要な機械学習モデルの学習を効率的に行うために使用されます。

転移学習のメリットとは?

転移学習のメリットは、以下の通りです。
– 少ない教師データで高い精度の予測が可能
– 事前学習済みモデルの知識を活用することで学習時間や計算リソースを削減
– 新たなドメインへの適用が容易

応用例とは?

テキスト分類を行えるだけでなく画像認識、自然言語処理、音声認識などさまざまな分野に応用できます。例えば、ある画像認識モデルに独自のデータを学習させることで、特定の画像データに対する高精度な予測が可能となります。

学習用リスト作成手法

データセットの収集と前処理

教師データを作るために、まずターゲットドメインに関連するデータセットを収集し、適切な前処理を行う必要があります。データセットの収集には、WebスクレイピングやAPIを利用するなどの方法があります。※こちらの工程も弊社のWebデータ収集サービスよりサポート可能です。

事前学習済みモデルの選択と取り込み

転移学習では、事前に大規模なデータセットで学習済みのモデルを利用します。適切な事前学習済みモデルを選択し、取り込むことで、モデルの学習効果を高めることができます。

教師データ作成時のポイント

ターゲットドメインと類似した事前学習済みモデルの選択

転移学習では、ターゲットドメインと類似した事前学習済みモデルを選択することが重要です。類似したドメインの知識を活用することで、リスト作成の精度を向上させることができます。

データセットのバランスと多様性の確保

リスト作成に使用するデータセットは、バランスの取れたものであることが重要です。また、多様なデータを含むことで、モデルの汎化性能を向上させることができます。

ファインチューニングの適切な設定とパラメータの調整

今回のアプローチの肝となるファインチューニングでは、適切な設定とパラメータの調整が必要です。学習率やネットワークの層の追加などを適切に行うことで、分類精度を向上させることができます。

今回、技術の細部までは触れませんでしたがbutinukiでは機械学習を用いたソリューションの提案、実装、運用まで行っています。不明点などサポートも可能ですのでお気軽にお問合せください。