データ概況

最終更新: 2026年5月23日 11:24 (JST)

  • 総レコード数
    73,524
    累計
  • 過去 90 日
    958
    直近 3 ヶ月の新規
  • カバー都道府県
    31 / 47
    少なくとも 1 件存在
  • 一次ソース数
    66
    自治体・通報・報道

収録期間: 2009年4月8日 2026年5月26日。 政府発表アーカイブは /policy14 件、 対策記事は /articles 106 件、 研究レポートは /research 28 件あります。

出典別内訳

出典は性質ごとに 5 種類に分類しています。各カテゴリの取得手段・更新頻度・件数は以下の通り。具体的なソース URL とライセンスは データ出典・ライセンスにまとめています。

自治体 CSV / KML / JSON 公開

41,611

自治体公式の CSV / KML / JSON 公開データ。1 日 2 回同期。

更新頻度: 1 日 2 回 (refresh-sightings cron)

公衆衛生通報 (Sharp9110 / 環境省)

20,890

登山者・通行人からの目撃通報を環境省が集約する公式システム。1 分間隔で同期。

更新頻度: 1 分間隔 (毎分 GitHub Actions cron)

自治体 ArcGIS / Google マイマップ

9,807

自治体公式の ArcGIS Online 公開フィードと Google マイマップ KML。1 日 2 回同期。

更新頻度: 1 日 2 回 (refresh-sightings cron)

自治体 Web ページ (AI 抽出)

1,134

自治体公式 Web ページ・PDF を AI でスクレイピング。年度跨ぎや住所表記ゆれを正規化。1 日 2 回同期。

更新頻度: 1 日 2 回 (refresh-sightings cron)

ニュース報道

82

Google News RSS から取得した報道。AI で「クマ関連かつ具体的な出没事象か」を判定し、住所・日付を抽出。5 分間隔で同期。

更新頻度: 5 分間隔 (毎時 12 回 GitHub Actions cron)

都道府県別カバレッジ

レコード数が多い都道府県は、自治体側の公開努力 (オープンデータ整備や Sharp9110 通報数) が手厚いことを意味します。 逆に少ない県は、「実際にクマが少ない」場合と「報告ルートが薄い」場合の両方があるため、 単純な比較は避けてください。

データが厚い都道府県 (累計上位 10)

  1. 1.秋田県累計 18,960 / 90 日 39
  2. 2.京都府累計 10,225 / 90 日 0
  3. 3.青森県累計 7,467 / 90 日 15
  4. 4.北海道累計 6,421 / 90 日 39
  5. 5.富山県累計 4,394 / 90 日 55
  6. 6.山形県累計 4,361 / 90 日 12
  7. 7.新潟県累計 3,695 / 90 日 187
  8. 8.宮城県累計 3,535 / 90 日 32
  9. 9.岐阜県累計 3,210 / 90 日 0
  10. 10.福島県累計 2,055 / 90 日 47

データが薄い都道府県 (累計下位 5、件数 1 以上)

  1. 福井県累計 1
  2. 茨城県累計 1
  3. 兵庫県累計 2
  4. 徳島県累計 15
  5. 大阪府累計 25

過去 90 日の新規ゼロ: 京都府・岐阜県・大阪府・茨城県

処理方法論

1. 重複除去

同じ事象が複数ソースから入ってくるため、2 段階で dedup しています:

  • URL 一致 — ニュース報道では同じ記事 URL を 2 回処理しない (Gemini 呼び出しコスト削減)
  • fingerprint 一致 — 「同じ日付・近接する位置 (5km 以内)・同じ市町村」のレコードは 1 件として扱う

2. ジオコーディング

住所文字列 (例: 「○○市△△町字□□」) を緯度経度に変換しています:

  • 自治体公開データ: 元データに座標があればそれを使用、無い場合は住所から geolonia/japanese-addresses を使ってジオコード
  • ニュース報道: Gemini で記事本文から「市町村名 + 字名」を抽出し、字レベルが取れた場合はその座標、それ以外は市町村重心
  • Sharp9110: 元データに座標が付与されているのでそのまま使用

3. AI による分類・抽出

ニュース報道と自治体 HTML スクレイピングでは Gemini (gemini-2.5-flash) を以下の用途で使用しています:

  • クマ関連判定 — 「熊」「クマ」を含むが実際はキャラクター・店舗・人名のケースを除外
  • 具体性判定 — 「クマ出没注意」のような一般的な注意喚起ではなく、具体的な目撃事象を含む記事のみ採用
  • 構造化抽出 — 日付・都道府県・市町村・字名・状況コメントを JSON で抽出

AI 出力は重複除去・フィールド検証を通った上でデータベースに入りますが、稀に誤抽出が残ります。 該当レコードを見つけた場合は 情報提供フォームからご連絡ください。

4. 警戒レベルの算出

5km メッシュ単位で「直近 90 日の件数 × 季節係数 × 時間帯係数」のシンプルなスコアを使っています。 機械学習モデルではなく、解釈可能性を優先した重み付け合算です。スコアの構成要素はメッシュ詳細ポップアップで明示しています。

既知の制約

  • 報告バイアス — 山林深部の出没は通報されにくく、住宅地・道路近くの出没が過大に見える傾向があります
  • Sharp9110 のカバレッジ差 — 都道府県によって普及度が違い、北海道・東北は厚いが九州・四国は薄め
  • ニュース報道の即時性と漏れ — 大事件は数時間で反映されますが、小規模な目撃は地方紙が出さない限り取り込めません
  • 遠い過去データの欠落 — 2022 年以前のデータは自治体公開状況に依存し、欠落地域があります
  • 住所の精度 — 字レベルまで取れない記事は市町村重心に丸めるため、地図上の位置と実際の事象位置が数 km ずれることがあります

引用について

メディア・研究・自治体資料での引用を歓迎します。可能であれば以下の形式でクレジットをお願いします:

KumaWatch (獣医工学ラボ) — kuma-watch.jp (2026年5月26日 時点のデータ)

生データ提供 (CSV/JSON エクスポート) や研究機関向けの集計提供についても対応可能です。お気軽に contact@research-coordinate.co.jp までご連絡ください。商用利用については個別相談です。

データ出典・ライセンス / 免責事項・利用規約 / サイトについて