งาน BEST2016

สรุปเทคนิคที่ใช้ จากทีมที่เข้ารอบชิง

Sanparith Marukatat
1 min readMar 15, 2017

1) จุฬา วิศวะคอม

  • ใช้ CNN หลายตัวมาก
  • AlexNet ดึง features เพื่อทำ bounding box regression สำหรับ detect คน
  • VGG19 ดึง features ทำ regression คล้ายๆ กันสำหรับ text localization
  • CNN+LSTM สำหรับ digit string recognition โดยไม่ต้อง segment ก่อน
  • ใช้ตัวเลข bib ใน request เป็น dictionary ในการแก้ตัวเลขในป้ายบางส่วน เช่น ตัด/เพิ่มเลข 1 หน้า/หลัง
  • ส่ง ICDAR 2017

2) ลาดกระบัง IT

  • หาหน้าก่อนด้วย OpenCV’s Haar-like detector +detect ตาเพื่อ check ว่าหน้าจริง +อาจใช้ขนาดหน้าข้างเคียงในการ cross-check
  • จากขนาดหน้า -> ประมาณขนาดความกว้างไหล่คน -> ได้ขนาดประมาณของความกว้างตัวอักษร
  • ใช้ Tessaract ในการ recognize
  • ทำ binarization ด้วย threshold หลายค่า แต่ละค่าก็ส่งไป recognize
  • Scan บริเวณคนตามขนาดอักษร และส่งไป recognize เรื่อยๆ

3) ลาดกระบัง วิทย์คอม

  • หาคนก่อนด้วย CNN
  • R-CNN ทำ region proposal เพื่อหาตัวเลข +heuristic merge
  • CNN ทำ digit recognition

4) เชียงใหม่ วิศวะคอม

  • Detect หน้า+ตัวคน
  • Graph-based saliency detection (Caltech) เพื่อหาบริเวณที่น่าสนใจบริเวณลำตัว
  • ทำ binarization หาบริเวณที่น่าสนใจเพิ่ม
  • Digit recognition ใช้ HOG+SVM (10 class+reject) แล้วค่อย merge ตัวเลขเป็นป้าย
  • ใช้งาน CMU Chiang Mai Marathon (ตอนนั้นใช้ k-NN ยังไม่ใช่ SVM)
  • มีการใช้หมายเลข bib มน request ในการ check ด้วย แต่ไม่ได้เอามาแก้

--

--

No responses yet