CV Evaluation Metrics: 20 Essential Q&A

Question 1

1 Why care about metrics? ⚡ easy

Answer

Answer: They define success criteria, compare models, and expose tradeoffs (precision vs recall)—wrong metric optimizes the wrong behavior.

Question 2

2 When is accuracy misleading? 📊 medium

Answer

Answer: Imbalanced classes—99% negatives makes naive accuracy useless; need per-class and balanced metrics.

Question 3

3 Define precision and recall. 📊 medium

Answer

Answer: Precision = TP/(TP+FP); Recall = TP/(TP+FN)—tension controlled by decision threshold.

Question 4

4 F1? ⚡ easy

Answer

Answer: Harmonic mean of precision and recall—penalizes ignoring either; common single-number summary for binary/multiclass macro-F1.

Question 5

5 Confusion matrix? 📊 medium

Answer

Answer: Counts predictions vs truth for all classes—shows confusion pairs and supports per-class recall.

Question 6

6 ROC / AUC? 🔥 hard

Answer

Answer: TPR vs FPR curve as threshold sweeps; AUC summarizes ranking quality—invariant to prior when comparing rankers.

Question 7

7 What is IoU? 📊 medium

Answer

Answer: Intersection over union of predicted vs ground-truth boxes/masks—range [0,1]; standard match criterion in detection.

Question 8

8 What is mAP in detection? 🔥 hard

Answer

Answer: Mean AP across classes—AP is area under precision–recall curve after IoU-thresholded matches; COCO averages multiple IoU thresholds.

Question 9

9 AP vs mAP? 📊 medium

Answer

Answer: AP per class; mAP averages classes—report AP50 vs AP75 to show coarse vs tight localization skill.

Question 10

10 NMS effect on metrics? 📊 medium

Answer

Answer: Suppresses overlapping boxes before evaluation—metric implementation must match competition rules (soft-NMS differs).

Question 11

11 Segmentation IoU? 📊 medium

Answer

Answer: Per-class IoU on pixels; mean IoU (mIoU) across classes—ignore void label per dataset protocol.

Question 12

12 Dice coefficient? 📊 medium

Answer

Answer: 2|A∩B|/(|A|+|B|)—related to F1 on masks; common in medical segmentation with class imbalance.

Question 13

13 Threshold tuning? 🔥 hard

Answer

Answer: Pick operating point on validation to meet product constraint (min recall)—don’t tune on test set.

Question 14

14 Micro vs macro averaging? 🔥 hard

Answer

Answer: Micro pools all examples; macro averages per-class stats—macro highlights rare class performance.

Question 15

15 OKS in pose? 🔥 hard

Answer

Answer: Object keypoint similarity scales error by joint size—COCO pose AP builds on OKS thresholds.

Question 16

16 Calibration? 📊 medium

Answer

Answer: Predicted probabilities match empirical frequencies—ECE, reliability diagrams; miscalibration hurts downstream decisions.

Question 17

17 Sampling bias? 📊 medium

Answer

Answer: Geographic, demographic, or capture bias inflates benchmark scores—report subgroup metrics.

Question 18

18 Benchmark leakage? ⚡ easy

Answer

Answer: Test images in pretraining data or duplicate near-neighbors—contaminates leaderboard comparisons.

Question 19

19 Human baseline? ⚡ easy

Answer

Answer: Annotator agreement sets ceiling—if model beats humans, check task ambiguity or evaluation bugs.

Question 20

20 What to report? 📊 medium

Answer

Answer: Primary metric + confidence intervals or multiple seeds, compute budget, and failure cases—not leaderboard cherry-picking.

Related Computer Vision Links