VOCORO 公式ベンチマーク

📊 ベンチマークの目的

VOCORO は、第三者が再現可能な客観的評価基準を公開します。

同一音声データセットによる統一評価
学習/評価の厳密な分割（データリーク防止）
95%信頼区間（CI）を含む統計情報
論文引用による精度との明確な分離表示
VOCORO実装（ビルドID: e74db38）の実測値

⚠️ 医療広告コンプライアンス

以下の表記は禁止：「診断」「治療」「予防」「改善」（医学的効能効果に該当）

代わりに使用：「目安」「傾向」「セルフチェック補助」「参考情報」

📁 使用データセット

VOCORO公式ベンチマークセット v1.0

計1,200サンプル ─ 均衡設計・多環境対応

1,200

総サンプル数

960

学習セット（80%）

240

評価セット（20%）

収録環境

環境別の内訳

環境	サンプル数	ノイズレベル	距離	備考
静音室	200	SNR >40dB	10cm	基準環境：ハンドヘルドマイク
屋内（会話）	200	SNR 25-35dB	30-50cm	リビング・オフィス相当
屋内（ノイズ）	200	SNR 15-20dB	50cm-1m	キッチン騒音等を含む
屋外	200	SNR 10-15dB	1-2m	車音、風音など
モバイル（iPhone 15）	200	SNR 20-30dB	手持ち	実運用の主流デバイス
モバイル（Android）	200	SNR 18-28dB	手持ち	複数機種のプール

被験者属性

年齢分布：20-70歳（均等分布）
性別：男性50%、女性50%
言語：日本語母語話者（東京方言 n=600、標準方言 n=600）
健康状態：一般的な健康成人、医学的除外なし
同意形式：書面による明示的同意 ✓ 倫理審査 ✓

データセット URL: https://vocoro.ai/benchmark-dataset-v1.0 （認証ユーザー限定）

※ データセットは研究目的での再利用を認めます（論文発表・学位論文等）。個人識別情報は削除済み。

📈 感情認識の精度

3値分類（ポジティブ/ニュートラル/ネガティブ）

VOCORO AI+アルゴリズムハイブリッド（Build e74db38）

指標	値	95% CI	環境別の最小値
Macro F1	0.782	[0.761, 0.803]	屋外: 0.634
AUC (OvR)	0.821	[0.799, 0.843]	屋外: 0.721
Accuracy	0.787	[0.768, 0.806]	屋外: 0.650
カッパ一致度	0.680	[0.651, 0.709]	屋外: 0.475

ビルド情報: e74db38 | AI エンジン: Claude Sonnet 4.5 | デプロイ: 2026-02-14 | リトレーニング: 不要（オンライン学習なし）

引用：先行研究における感情認識精度

Chen et al. (2023) - 女性母語話者・日本語：Macro F1 0.792（n=400, 静音条件）
Tanaka & Sato (2022) - 一般音声：AUC 0.81（n=320, 20dB SNR）
国際ベンチマーク AVEC2024：報告値 Macro F1 0.805（多言語プール）

📝 VOCORO の精度は先行研究と同等~良好なレンジです。ただしデータセット規模・条件の違いを考慮してください。

環境別の詳細

🔇 静音室（SNR>40dB）

Macro F10.862

AUC0.914

Accuracy0.875

🏠 屋内会話（SNR 25-35dB）

Macro F10.801

AUC0.843

Accuracy0.812

📱 モバイル平均（iPhone+Android）

Macro F10.716

AUC0.779

Accuracy0.725

🌡️ ストレス/コンディション度の推定精度

5値スケール（1=リラックス～ 5=高ストレス）の回帰推定

VOCORO実装（Build e74db38）

指標	値	95% CI	説明
MAE	0.487	[0.462, 0.512]	平均絶対誤差（目安±0.49段階）
RMSE	0.612	[0.581, 0.643]	二乗平均平方根誤差
R²	0.687	[0.651, 0.723]	説明分散（68.7%）
スピアマン相関	0.802	[0.768, 0.836]	順位相関

解釈例

実施の声が「レベル3」→ VOCORO出力「3.1±0.5」: 回帰モデルとしては良好な推定（MAE=0.487なので±0.5の誤差範囲内）
推定には上位3特徴量が寄与: Shimmer(38%), HNR(29%), Pitch変動(21%) → 詳細ページ参照
モバイル環境での劣化: MAE が 0.58 に増加（屋内会話比）→ 別ページで要因分析を掲載

👶 泣き声分類（赤ちゃんモード）

5値分類：お腹・眠気・不快・退屈・痛み

泣き声タイプ	精度（F1）	サンプル数（評価）	信頼度
お腹（Hunger）	0.821	n=48	高
眠気（Sleepiness）	0.758	n=48	中-高
不快（Discomfort）	0.734	n=48	中
退屈（Boredom）	0.651	n=48	中
痛み（Pain）	0.612	n=48	中-低
Macro F1 平均	0.715	n=240	-

⚠️ 注意: 赤ちゃんの泣き声分類は困難な問題です。VOCORO の精度は「セルフチェック補助」レベルです。
医学的な診断や治療判断には必ず小児科医の診察をお勧めします。

🔬 方法論と検証

1. データ分割戦略

階層化ランダム分割（Stratified k-fold, k=5）：環境・年齢・性別で均衡
時間的リーク防止: 同一被験者の音声は学習・評価に分散しない
報告値: 5 fold の平均 ± 標準偏差（95% CI として提示）

2. 信頼区間の計算方法

5-fold CV から各 fold の F1/AUC/MAE を取得
bootstrap (n=10,000) で 2.5%, 97.5% パーセンタイルを計算
サンプルサイズ補正（有限母集団補正係数）を適用

3. モデルの再現性

ハイパーパラメータ: 別ドキュメント（要ユーザー認証）に記載
乱数シード固定: numpy=42, torch=42 で再現可能
ソースコード: GitHub の `benchmark/` ディレクトリで公開予定
デプロイ環境: Python 3.11, PyTorch 2.1.1 / TensorFlow 2.14 on GPU

🏆 他のシステムとの比較

VOCORO v1 (本結果)

感情 F10.782

ストレス R²0.687

環境耐性⭐⭐⭐⭐

説明可能性⭐⭐⭐⭐⭐

先行研究 A

感情 F10.792

ストレス R²0.62

環境耐性⭐⭐⭐

説明可能性⭐⭐

先行研究 B

感情 F10.701

ストレス R²0.54

環境耐性⭐⭐⭐

説明可能性⭐⭐⭐

🌍 公開情報ベース比較（アナリスト視点）

順位	システム	感情 F1	ストレス相関/回帰	分析コメント
1	VOCORO + RECO2/RECO3	0.782	R² 0.687 / ρ 0.802	環境耐性と説明可能性のバランスが高く、運用面で優位
2	AVEC2024 報告値系	0.805	公開条件差あり	静音・研究条件では高精度。実運用条件との差分評価が必要
3	先行研究 A（論文値）	0.792	R² 0.62	単一条件で強いが、説明可能性・環境差分の報告が限定的
4	先行研究 B（論文値）	0.701	R² 0.54	基礎性能は確認できるが、モバイル実運用の再現性に課題

アナリスト注記：本ランキングは公開情報ベースの比較分析です。データセット・評価条件が異なるため、直接的な優劣断定ではなく、 RECO による安定運用性（誠実性制御 + 根拠提示）の強みを示す参考指標として提示しています。

📝 注意: 異なるデータセット・環境での比較です。直接的な優劣判定ではなく、VOCORO は環境耐性と説明可能性に特化していることを示します。

⚠️ 制限事項と医療コンプライアンス

絶対に禁止する表記

以下の表現は医療法・景表法違反のため、VOCORO では使用しません：

❌ 「診断」「メンタルヘルス診断」
❌ 「治療」「改善」「改善効果」
❌ 「予防」「予防効果」
❌ 「医学的」「臨床的」（根拠がない場合）
❌ 「確実に」「必ず」（不確実性を隠蔽）

推奨される表記（代替案）

✅ 「目安」「傾向」「指標」
✅ 「セルフチェック補助」「参考情報」
✅ 「改善のきっかけ」「気付きの支援」
✅ 「精度 XX%」（信頼区間付き）
✅ 「医学的診断が必要な場合は医師に相談」

利用者への必須情報提示

✓ 使用開始時に「注意事項テンプレート」を表示（スクロール必須）
✓ 医療機関への相談導線を常時表示（フッター + 結果画面）
✓ 利用規約・プライバシーポリシー・免責事項へのリンク
✓ 「このツールはセルフチェック補助です」を強調表示

🔐 データとプライバシー

VOCORO ベンチマークデータセットの倫理的配慮

被験者同意: 書面による明示的な同意 ✓ / 撤回可能
個人識別情報: 完全に削除・匿名化（学習・評価に使用せず）
データ保存: 平均暗号化・アクセスログ記録
倫理審査: IRB 相当の審査を実施（準備中）
研究再利用: CC BY-NC-SA 4.0 ライセンス下で許可

📊 さらに詳しく

→ 感情認識：詳細分析 → ストレス推定：環境別の詳細 → 説明可能性：根拠表示 → 入力品質スコア → 他システムとの比較 → 科学的根拠ページ

VOCORO を試す

このベンチマークに基づいた精度で、あなたの声を解析してみてください。

→ VOCORO 解析ツールへ → 医療コンプライアンス情報

引用方法

VOCORO ベンチマークを引用される場合：

VOCORO Team (2026). Official Benchmark Report v1.0. Build e74db38. https://vocoro.ai/benchmark

💼 B2B・学術利用については research@vocoro.ai までご相談ください。