งาน BEST2016

สรุปเทคนิคที่ใช้ จากทีมที่เข้ารอบชิง

Sanparith Marukatat

1 min readMar 15, 2017

--

1) จุฬา วิศวะคอม

ใช้ CNN หลายตัวมาก
AlexNet ดึง features เพื่อทำ bounding box regression สำหรับ detect คน
VGG19 ดึง features ทำ regression คล้ายๆ กันสำหรับ text localization
CNN+LSTM สำหรับ digit string recognition โดยไม่ต้อง segment ก่อน
ใช้ตัวเลข bib ใน request เป็น dictionary ในการแก้ตัวเลขในป้ายบางส่วน เช่น ตัด/เพิ่มเลข 1 หน้า/หลัง
ส่ง ICDAR 2017

2) ลาดกระบัง IT

หาหน้าก่อนด้วย OpenCV’s Haar-like detector +detect ตาเพื่อ check ว่าหน้าจริง +อาจใช้ขนาดหน้าข้างเคียงในการ cross-check
จากขนาดหน้า -> ประมาณขนาดความกว้างไหล่คน -> ได้ขนาดประมาณของความกว้างตัวอักษร
ใช้ Tessaract ในการ recognize
ทำ binarization ด้วย threshold หลายค่า แต่ละค่าก็ส่งไป recognize
Scan บริเวณคนตามขนาดอักษร และส่งไป recognize เรื่อยๆ

3) ลาดกระบัง วิทย์คอม

หาคนก่อนด้วย CNN
R-CNN ทำ region proposal เพื่อหาตัวเลข +heuristic merge
CNN ทำ digit recognition

4) เชียงใหม่ วิศวะคอม

Detect หน้า+ตัวคน
Graph-based saliency detection (Caltech) เพื่อหาบริเวณที่น่าสนใจบริเวณลำตัว
ทำ binarization หาบริเวณที่น่าสนใจเพิ่ม
Digit recognition ใช้ HOG+SVM (10 class+reject) แล้วค่อย merge ตัวเลขเป็นป้าย
ใช้งาน CMU Chiang Mai Marathon (ตอนนั้นใช้ k-NN ยังไม่ใช่ SVM)
มีการใช้หมายเลข bib มน request ในการ check ด้วย แต่ไม่ได้เอามาแก้

Artificial Intelligence

Written by Sanparith Marukatat

No responses yet

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams