データ概況
最終更新: 2026年5月23日 11:24 (JST)
- 総レコード数73,524累計
- 過去 90 日958直近 3 ヶ月の新規
- カバー都道府県31 / 47少なくとも 1 件存在
- 一次ソース数66自治体・通報・報道
収録期間: 2009年4月8日 〜 2026年5月26日。 政府発表アーカイブは /policy に 14 件、 対策記事は /articles に 106 件、 研究レポートは /research に 28 件あります。
出典別内訳
出典は性質ごとに 5 種類に分類しています。各カテゴリの取得手段・更新頻度・件数は以下の通り。具体的なソース URL とライセンスは データ出典・ライセンスにまとめています。
自治体 CSV / KML / JSON 公開
自治体公式の CSV / KML / JSON 公開データ。1 日 2 回同期。
更新頻度: 1 日 2 回 (refresh-sightings cron)
公衆衛生通報 (Sharp9110 / 環境省)
登山者・通行人からの目撃通報を環境省が集約する公式システム。1 分間隔で同期。
更新頻度: 1 分間隔 (毎分 GitHub Actions cron)
自治体 ArcGIS / Google マイマップ
自治体公式の ArcGIS Online 公開フィードと Google マイマップ KML。1 日 2 回同期。
更新頻度: 1 日 2 回 (refresh-sightings cron)
自治体 Web ページ (AI 抽出)
自治体公式 Web ページ・PDF を AI でスクレイピング。年度跨ぎや住所表記ゆれを正規化。1 日 2 回同期。
更新頻度: 1 日 2 回 (refresh-sightings cron)
ニュース報道
Google News RSS から取得した報道。AI で「クマ関連かつ具体的な出没事象か」を判定し、住所・日付を抽出。5 分間隔で同期。
更新頻度: 5 分間隔 (毎時 12 回 GitHub Actions cron)
都道府県別カバレッジ
レコード数が多い都道府県は、自治体側の公開努力 (オープンデータ整備や Sharp9110 通報数) が手厚いことを意味します。 逆に少ない県は、「実際にクマが少ない」場合と「報告ルートが薄い」場合の両方があるため、 単純な比較は避けてください。
データが厚い都道府県 (累計上位 10)
処理方法論
1. 重複除去
同じ事象が複数ソースから入ってくるため、2 段階で dedup しています:
- URL 一致 — ニュース報道では同じ記事 URL を 2 回処理しない (Gemini 呼び出しコスト削減)
- fingerprint 一致 — 「同じ日付・近接する位置 (5km 以内)・同じ市町村」のレコードは 1 件として扱う
2. ジオコーディング
住所文字列 (例: 「○○市△△町字□□」) を緯度経度に変換しています:
- 自治体公開データ: 元データに座標があればそれを使用、無い場合は住所から geolonia/japanese-addresses を使ってジオコード
- ニュース報道: Gemini で記事本文から「市町村名 + 字名」を抽出し、字レベルが取れた場合はその座標、それ以外は市町村重心
- Sharp9110: 元データに座標が付与されているのでそのまま使用
3. AI による分類・抽出
ニュース報道と自治体 HTML スクレイピングでは Gemini (gemini-2.5-flash) を以下の用途で使用しています:
- クマ関連判定 — 「熊」「クマ」を含むが実際はキャラクター・店舗・人名のケースを除外
- 具体性判定 — 「クマ出没注意」のような一般的な注意喚起ではなく、具体的な目撃事象を含む記事のみ採用
- 構造化抽出 — 日付・都道府県・市町村・字名・状況コメントを JSON で抽出
AI 出力は重複除去・フィールド検証を通った上でデータベースに入りますが、稀に誤抽出が残ります。 該当レコードを見つけた場合は 情報提供フォームからご連絡ください。
4. 警戒レベルの算出
5km メッシュ単位で「直近 90 日の件数 × 季節係数 × 時間帯係数」のシンプルなスコアを使っています。 機械学習モデルではなく、解釈可能性を優先した重み付け合算です。スコアの構成要素はメッシュ詳細ポップアップで明示しています。
既知の制約
- 報告バイアス — 山林深部の出没は通報されにくく、住宅地・道路近くの出没が過大に見える傾向があります
- Sharp9110 のカバレッジ差 — 都道府県によって普及度が違い、北海道・東北は厚いが九州・四国は薄め
- ニュース報道の即時性と漏れ — 大事件は数時間で反映されますが、小規模な目撃は地方紙が出さない限り取り込めません
- 遠い過去データの欠落 — 2022 年以前のデータは自治体公開状況に依存し、欠落地域があります
- 住所の精度 — 字レベルまで取れない記事は市町村重心に丸めるため、地図上の位置と実際の事象位置が数 km ずれることがあります
引用について
メディア・研究・自治体資料での引用を歓迎します。可能であれば以下の形式でクレジットをお願いします:
KumaWatch (獣医工学ラボ) — kuma-watch.jp (2026年5月26日 時点のデータ)
生データ提供 (CSV/JSON エクスポート) や研究機関向けの集計提供についても対応可能です。お気軽に contact@research-coordinate.co.jp までご連絡ください。商用利用については個別相談です。
