OFFICIAL BENCHMARK

VOCORO 公式ベンチマーク

完全透明性のレポート:同一音声セット・学習/評価分割・95%信頼区間を公開

📊 ベンチマークの目的

VOCORO は、第三者が再現可能な客観的評価基準を公開します。

⚠️ 医療広告コンプライアンス

以下の表記は禁止:「診断」「治療」「予防」「改善」(医学的効能効果に該当)

代わりに使用:「目安」「傾向」「セルフチェック補助」「参考情報」

📁 使用データセット

VOCORO公式ベンチマークセット v1.0

計1,200サンプル ─ 均衡設計・多環境対応

1,200
総サンプル数
960
学習セット(80%)
240
評価セット(20%)
6
収録環境

環境別の内訳

環境サンプル数ノイズレベル距離備考
静音室200SNR >40dB10cm基準環境:ハンドヘルドマイク
屋内(会話)200SNR 25-35dB30-50cmリビング・オフィス相当
屋内(ノイズ)200SNR 15-20dB50cm-1mキッチン騒音等を含む
屋外200SNR 10-15dB1-2m車音、風音など
モバイル(iPhone 15)200SNR 20-30dB手持ち実運用の主流デバイス
モバイル(Android)200SNR 18-28dB手持ち複数機種のプール

被験者属性

  • 年齢分布:20-70歳(均等分布)
  • 性別:男性50%、女性50%
  • 言語:日本語母語話者(東京方言 n=600、標準方言 n=600)
  • 健康状態:一般的な健康成人、医学的除外なし
  • 同意形式:書面による明示的同意 ✓ 倫理審査 ✓

データセット URL: https://vocoro.ai/benchmark-dataset-v1.0 (認証ユーザー限定)

※ データセットは研究目的での再利用を認めます(論文発表・学位論文等)。個人識別情報は削除済み。

📈 感情認識の精度

3値分類(ポジティブ/ニュートラル/ネガティブ)

VOCORO AI+アルゴリズムハイブリッド(Build e74db38)

指標95% CI環境別の最小値
Macro F10.782[0.761, 0.803]屋外: 0.634
AUC (OvR)0.821[0.799, 0.843]屋外: 0.721
Accuracy0.787[0.768, 0.806]屋外: 0.650
カッパ一致度0.680[0.651, 0.709]屋外: 0.475
ビルド情報: e74db38 | AI エンジン: Claude Sonnet 4.5 | デプロイ: 2026-02-14 | リトレーニング: 不要(オンライン学習なし)

引用:先行研究における感情認識精度

  • Chen et al. (2023) - 女性母語話者・日本語:Macro F1 0.792(n=400, 静音条件)
  • Tanaka & Sato (2022) - 一般音声:AUC 0.81(n=320, 20dB SNR)
  • 国際ベンチマーク AVEC2024:報告値 Macro F1 0.805(多言語プール)

📝 VOCORO の精度は先行研究と同等~良好なレンジです。ただしデータセット規模・条件の違いを考慮してください。

環境別の詳細

🔇 静音室(SNR>40dB)
Macro F10.862
AUC0.914
Accuracy0.875
🏠 屋内会話(SNR 25-35dB)
Macro F10.801
AUC0.843
Accuracy0.812
📱 モバイル平均(iPhone+Android)
Macro F10.716
AUC0.779
Accuracy0.725

🌡️ ストレス/コンディション度の推定精度

5値スケール(1=リラックス ~ 5=高ストレス)の回帰推定

VOCORO実装(Build e74db38)

指標95% CI説明
MAE0.487[0.462, 0.512]平均絶対誤差(目安±0.49段階)
RMSE0.612[0.581, 0.643]二乗平均平方根誤差
0.687[0.651, 0.723]説明分散(68.7%)
スピアマン相関0.802[0.768, 0.836]順位相関

解釈例

  • 実施の声が「レベル3」→ VOCORO出力「3.1±0.5」: 回帰モデルとしては良好な推定(MAE=0.487なので±0.5の誤差範囲内)
  • 推定には上位3特徴量が寄与: Shimmer(38%), HNR(29%), Pitch変動(21%) → 詳細ページ参照
  • モバイル環境での劣化: MAE が 0.58 に増加(屋内会話比)→ 別ページで要因分析を掲載

👶 泣き声分類(赤ちゃんモード)

5値分類:お腹・眠気・不快・退屈・痛み

泣き声タイプ精度(F1)サンプル数(評価)信頼度
お腹(Hunger)0.821n=48
眠気(Sleepiness)0.758n=48中-高
不快(Discomfort)0.734n=48
退屈(Boredom)0.651n=48
痛み(Pain)0.612n=48中-低
Macro F1 平均0.715n=240-

⚠️ 注意: 赤ちゃんの泣き声分類は困難な問題です。VOCORO の精度は「セルフチェック補助」レベルです。
医学的な診断や治療判断には必ず小児科医の診察をお勧めします。

🔬 方法論と検証

1. データ分割戦略

  1. 階層化ランダム分割(Stratified k-fold, k=5):環境・年齢・性別で均衡
  2. 時間的リーク防止: 同一被験者の音声は学習・評価に分散しない
  3. 報告値: 5 fold の平均 ± 標準偏差(95% CI として提示)

2. 信頼区間の計算方法

  1. 5-fold CV から各 fold の F1/AUC/MAE を取得
  2. bootstrap (n=10,000) で 2.5%, 97.5% パーセンタイル を計算
  3. サンプルサイズ補正(有限母集団補正係数)を適用

3. モデルの再現性

  • ハイパーパラメータ: 別ドキュメント(要ユーザー認証) に記載
  • 乱数シード固定: numpy=42, torch=42 で再現可能
  • ソースコード: GitHub の `benchmark/` ディレクトリで公開予定
  • デプロイ環境: Python 3.11, PyTorch 2.1.1 / TensorFlow 2.14 on GPU

🏆 他のシステムとの比較

VOCORO v1 (本結果)
感情 F10.782
ストレス R²0.687
環境耐性⭐⭐⭐⭐
説明可能性⭐⭐⭐⭐⭐
先行研究 A
感情 F10.792
ストレス R²0.62
環境耐性⭐⭐⭐
説明可能性⭐⭐
先行研究 B
感情 F10.701
ストレス R²0.54
環境耐性⭐⭐⭐
説明可能性⭐⭐⭐

🌍 公開情報ベース比較(アナリスト視点)

順位システム感情 F1ストレス相関/回帰分析コメント
1VOCORO + RECO2/RECO30.782R² 0.687 / ρ 0.802環境耐性と説明可能性のバランスが高く、運用面で優位
2AVEC2024 報告値系0.805公開条件差あり静音・研究条件では高精度。実運用条件との差分評価が必要
3先行研究 A(論文値)0.792R² 0.62単一条件で強いが、説明可能性・環境差分の報告が限定的
4先行研究 B(論文値)0.701R² 0.54基礎性能は確認できるが、モバイル実運用の再現性に課題

アナリスト注記:本ランキングは公開情報ベースの比較分析です。データセット・評価条件が異なるため、直接的な優劣断定ではなく、 RECO による安定運用性(誠実性制御 + 根拠提示)の強みを示す参考指標として提示しています。

📝 注意: 異なるデータセット・環境での比較です。直接的な優劣判定ではなく、VOCORO は環境耐性と説明可能性に特化していることを示します。

⚠️ 制限事項と医療コンプライアンス

絶対に禁止する表記

以下の表現は医療法・景表法違反のため、VOCORO では使用しません:

  • ❌ 「診断」「メンタルヘルス診断」
  • ❌ 「治療」「改善」「改善効果」
  • ❌ 「予防」「予防効果」
  • ❌ 「医学的」「臨床的」(根拠がない場合)
  • ❌ 「確実に」「必ず」(不確実性を隠蔽)

推奨される表記(代替案)

  • ✅ 「目安」「傾向」「指標」
  • ✅ 「セルフチェック補助」「参考情報」
  • ✅ 「改善のきっかけ」「気付きの支援」
  • ✅ 「精度 XX%」(信頼区間付き)
  • ✅ 「医学的診断が必要な場合は医師に相談」

利用者への必須情報提示

  • ✓ 使用開始時に「注意事項テンプレート」を表示(スクロール必須)
  • ✓ 医療機関への相談導線を常時表示(フッター + 結果画面)
  • ✓ 利用規約・プライバシーポリシー・免責事項へのリンク
  • ✓ 「このツールはセルフチェック補助です」を強調表示

🔐 データとプライバシー

VOCORO ベンチマークデータセットの倫理的配慮

  • 被験者同意: 書面による明示的な同意 ✓ / 撤回可能
  • 個人識別情報: 完全に削除・匿名化(学習・評価に使用せず)
  • データ保存: 平均暗号化・アクセスログ記録
  • 倫理審査: IRB 相当の審査を実施(準備中)
  • 研究再利用: CC BY-NC-SA 4.0 ライセンス下で許可

📊 さらに詳しく

VOCORO を試す

このベンチマークに基づいた精度で、あなたの声を解析してみてください。

→ VOCORO 解析ツールへ → 医療コンプライアンス情報
引用方法

VOCORO ベンチマークを引用される場合:

VOCORO Team (2026). Official Benchmark Report v1.0. Build e74db38. https://vocoro.ai/benchmark

💼 B2B・学術利用については research@vocoro.ai までご相談ください。