アダルトアフィリエイト記事クローリング運用マニュアル¶
1. 概要¶
seo_crawler.py は、指定したキーワードの検索結果上位記事を自動的に収集し、ローカルLLMで分析するツールです。
2. 事前準備(Windows環境)¶
必ず実行すること¶
コマンドプロンプトやPowerShellで日本語を正しく扱うために、実行前に必ず以下のコマンドを入力してください。
注意: これを行わないと、日本語キーワードが文字化けして検索結果が0件になります。
3. 基本的な使い方(DuckDuckGo検索)¶
設定不要で、すぐに無料で使えます。
- 記事数指定:
--top 5(デフォルトは10) - 分析スキップ:
--skip-analysis(記事収集のみで高速化)
4. 応用的な使い方(Google検索)¶
より精度の高い検索結果が必要な場合に使用します。
必要なもの¶
- Google Cloud Platform (GCP) アカウント
- APIキー
- 検索エンジンID (CSE ID)
設定手順(初回のみ)¶
- APIキーの取得: GCP 認証情報画面
- CSE IDの取得: Programmable Search Engine
実行コマンド(cmd.exe用)¶
rem 環境変数の設定(=の前後にスペースを入れない)
set GOOGLE_API_KEY=あなたのAPIキー
set GOOGLE_CSE_ID=あなたの検索エンジンID
rem 実行
python seo_crawler.py "マッチングアプリ 比較" --engine google
ヒント: 毎回入力するのが面倒な場合は、
.envファイルを作成するか、バッチファイルに保存することをおすすめします。
5. トラブルシューティング¶
Q. 「Bad Request (400)」が出る¶
- APIキーの設定に誤りがあります。
- コマンドプロンプトで
%などの特殊文字が含まれていないか確認してください。
Q. 「Forbidden (403)」が出る¶
- APIが無効: GCPコンソールで「Custom Search API」を有効にしてください。
- 権限不足: APIキーに制限がかかっていませんか?
- 検索範囲: PSE設定で「ウェブ全体を検索」が制限されている可能性があります。
Q. 日本語キーワードで検索結果が0件¶
chcp 65001を実行しましたか?- コマンドプロンプトのフォントが日本語対応(MSゴシックなど)になっているか確認してください。