งาน BEST2016
สรุปเทคนิคที่ใช้ จากทีมที่เข้ารอบชิง
1 min readMar 15, 2017
1) จุฬา วิศวะคอม
- ใช้ CNN หลายตัวมาก
- AlexNet ดึง features เพื่อทำ bounding box regression สำหรับ detect คน
- VGG19 ดึง features ทำ regression คล้ายๆ กันสำหรับ text localization
- CNN+LSTM สำหรับ digit string recognition โดยไม่ต้อง segment ก่อน
- ใช้ตัวเลข bib ใน request เป็น dictionary ในการแก้ตัวเลขในป้ายบางส่วน เช่น ตัด/เพิ่มเลข 1 หน้า/หลัง
- ส่ง ICDAR 2017
2) ลาดกระบัง IT
- หาหน้าก่อนด้วย OpenCV’s Haar-like detector +detect ตาเพื่อ check ว่าหน้าจริง +อาจใช้ขนาดหน้าข้างเคียงในการ cross-check
- จากขนาดหน้า -> ประมาณขนาดความกว้างไหล่คน -> ได้ขนาดประมาณของความกว้างตัวอักษร
- ใช้ Tessaract ในการ recognize
- ทำ binarization ด้วย threshold หลายค่า แต่ละค่าก็ส่งไป recognize
- Scan บริเวณคนตามขนาดอักษร และส่งไป recognize เรื่อยๆ
3) ลาดกระบัง วิทย์คอม
- หาคนก่อนด้วย CNN
- R-CNN ทำ region proposal เพื่อหาตัวเลข +heuristic merge
- CNN ทำ digit recognition
4) เชียงใหม่ วิศวะคอม
- Detect หน้า+ตัวคน
- Graph-based saliency detection (Caltech) เพื่อหาบริเวณที่น่าสนใจบริเวณลำตัว
- ทำ binarization หาบริเวณที่น่าสนใจเพิ่ม
- Digit recognition ใช้ HOG+SVM (10 class+reject) แล้วค่อย merge ตัวเลขเป็นป้าย
- ใช้งาน CMU Chiang Mai Marathon (ตอนนั้นใช้ k-NN ยังไม่ใช่ SVM)
- มีการใช้หมายเลข bib มน request ในการ check ด้วย แต่ไม่ได้เอามาแก้