Post

๐Ÿงฉ RTMDet, SOTA of Real-Time, One-Stage Object Detectors: ์‹ค์‹œ๊ฐ„, One-Stage Object Detector์˜ ์ •์ˆ˜

๐Ÿงฉ RTMDet, SOTA of Real-Time, One-Stage Object Detectors: ์‹ค์‹œ๊ฐ„, One-Stage Object Detector์˜ ์ •์ˆ˜

๐Ÿงฉ (ํ•œ๊ตญ์–ด) RTMDet : YOLO Family์˜ ์ƒˆ๋กœ์šด ๊ฐ•์ž!

  • ์ œ๋ชฉ: TMDet: An Empirical Study of Designing Real-Time Object Detectors
  • ํ”„๋กœ์ ํŠธ/๋ฐ๋ชจ: Github
  • ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ: Real-Time Detection, One-Stage, Large-Kernel DWConv, Dynamic Label Assignment, Deployment
  • ์š”์•ฝ: RTMDet๋Š” ์‹ค์‹œ๊ฐ„(Real-Time) ์„ฑ๋Šฅ์„ ๋ชฉํ‘œ๋กœ, ๋ฐฑ๋ณธโ€“๋„ฅ ์šฉ๋Ÿ‰ ๊ท ํ˜•, ๋Œ€ํ˜• ์ปค๋„ Depthwise Conv ๋ธ”๋ก, ๋™์  ๋ผ๋ฒจ ํ• ๋‹น+์†Œํ”„ํŠธ ๋ผ๋ฒจ ๋“ฑ ์„ค๊ณ„ ์„ ํƒ์ง€๋“ค์˜ ์‹ค์ฆ ๋น„๊ต๋ฅผ ํ†ตํ•ด ์†๋„โ€“์ •ํ™•๋„โ€“๋ฐฐํฌ ์šฉ์ด์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ 1-Stage Object Detector

๐Ÿš€ RTMDet ํ•ต์‹ฌ ์š”์•ฝ

ํ•œ ์ค„ ์š”์•ฝ: RTMDet = ์ „์—ญ ์ปจํ…์ŠคํŠธ๋ฅผ ์ž˜ ๋ณด๊ณ , ํ•™์Šต์€ ๋˜‘๋˜‘ํ•˜๊ฒŒ, ํ™•์žฅ์€ ์‰ฝ๊ฒŒ, ์„ฑ๋Šฅ์€ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ!

1) ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ ๐Ÿง 

  • ๋„“์€ ์‹œ์•ผ: ํฐ ์ปค๋„(๋Œ€ํ˜• ํ•„ํ„ฐ)๋กœ ํ•œ ๋ฒˆ์— ์ „์—ญ ๋ฌธ๋งฅ์„ ํฌ์ฐฉ.
  • ์Šค๋งˆํŠธํ•œ ์„ค๊ณ„: ๊นŠ์ดโ†“ยทํญโ†‘๋กœ ์—ฐ์‚ฐ ๋‚ญ๋น„ ์—†์ด ์†๋„ยท์ •ํ™•๋„ ๊ท ํ˜• ํ™•๋ณด(์žฌํŒŒ๋ผ๋ฏธํ„ฐํ™” ๋ถˆํ•„์š”).

2) ๋” ๋˜‘๋˜‘ํ•ด์ง„ ํ•™์Šต๋ฒ• ๐ŸŽฏ

  • ์œ ์—ฐํ•œ ์ •๋‹ต์ง€(Soft Label): โ€œ100% ๊ณ ์–‘์ดโ€ ๋Œ€์‹  ํ™•๋ฅ ์  ํƒ€๊นƒ์œผ๋กœ ๋งค์นญ โ†’ ๋ผ๋ฒจ ๋…ธ์ด์ฆˆโ†“, ์ •ํ™•๋„โ†‘.
  • ์ตœ์  ๋ ˆ์‹œํ”ผ: ์ฆ๊ฐ•ยท์ตœ์ ํ™”ยท์Šค์ผ€์ค„ ์กฐํ•ฉ์„ ๋‹ค๋“ฌ์–ด ์ˆ˜๋ ด ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ ๋™์‹œ ํ–ฅ์ƒ.

3) ๋›ฐ์–ด๋‚œ ํ™•์žฅ์„ฑ ๐Ÿ› ๏ธ

  • ์ธ์Šคํ„ด์Šค ๋ถ„ํ• : ์ปค๋„+๋งˆ์Šคํฌ ํ—ค๋“œ๋งŒ ์ถ”๊ฐ€ํ•ด ์ •๋ฐ€ํ•œ ๋ฌผ์ฒด ์œค๊ณฝ๊นŒ์ง€ ์˜ˆ์ธก(Segmentation).
  • ํšŒ์ „ ๊ฒ€์ถœ: ๋ฐ•์Šค ํšŒ๊ท€ ์ฐจ์› ํ™•์žฅ(4โ†’5)๊ณผ ํšŒ์ „ ๋””์ฝ”๋”๋กœ ๊ธฐ์šธ์–ด์ง„ ๋ฌผ์ฒด๋„ ์ •ํ™•ํžˆ ํƒ์ง€.

4) ์••๋„์  โ€˜๊ฐ€์„ฑ๋น„โ€™ ์„ฑ๋Šฅ โšก

  • ๋‹ค์–‘ํ•œ ์‚ฌ์ด์ฆˆ: Tiny~XL๊นŒ์ง€ ์š”๊ตฌ ์„ฑ๋Šฅยท๋ฆฌ์†Œ์Šค์— ๋งž๊ฒŒ ์„ ํƒ.
  • ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ: ์†Œํ˜• ๋ชจ๋ธ์€ ์ดˆ๋‹น 1000์žฅ+ ์ฒ˜๋ฆฌ๋„ ๊ฐ€๋Šฅ, ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋†’์€ AP ๋‹ฌ์„ฑ.

๐Ÿ” ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค!!

  • ํšจ์œจ์  ๊ฐ์ฒด ํƒ์ง€ ์•„ํ‚คํ…์ฒ˜
    • ์‹ค์‹œ๊ฐ„ ์‘์šฉ์—์„œ๋Š” ์•ต์ปค ๊ธฐ๋ฐ˜ยท์•ต์ปค ํ”„๋ฆฌ์˜ 1-stage๊ฐ€ ์ฃผ๋ฅ˜(๋Œ€ํ‘œ์ ์œผ๋กœ YOLO), 2-stage๋Š” ์†๋„๋•œ์‹œ ์ƒ๋Œ€์ ์œผ๋กœ ๋น„์„ ํ˜ธ.
    • ๋” ๋น ๋ฅธ ๊ฐ์ง€๋ฅผ ์œ„ํ•œ ํ…Œํฌ๋‹‰๋“ค์ด ๋“ฑ์žฅ!!: efficient backbone & model scaling strategies / multi-scale feature/ NAS / re-parameterization
      • efficient backbone & model scaling strategies
        • ๊ฒฝ๋Ÿ‰ ๋ฐฑ๋ณธ(์˜ˆ: MobileNet, ShuffleNet)๊ณผ ์Šค์ผ€์ผ๋ง(๊นŠ์ด/ํญ/์ž…๋ ฅํ•ด์ƒ๋„ ์กฐ์ ˆ; ์˜ˆ: EfficientNet์˜ compound scaling)๋กœ ์—ฐ์‚ฐ๋Ÿ‰์„ ์˜ˆ์‚ฐ์— ๋งž์ถฐ ํŠœ๋‹ํ•ด ์†๋„โ€“์ •ํ™•๋„ ๊ท ํ˜•์„ ๋งž์ถฅ๋‹ˆ๋‹ค.
      • multi-scale feature
        • FPN/PAN ๋“ฑ ํ”ผ์ฒ˜ ํ”ผ๋ผ๋ฏธ๋“œ๋กœ ์ž‘์€/ํฐ ๋ฌผ์ฒด๋ฅผ ๋ชจ๋‘ ์ž˜ ๋ณด๋„๋ก ์—ฌ๋Ÿฌ ํ•ด์ƒ๋„์˜ ํŠน์ง•์„ ์œตํ•ฉํ•ฉ๋‹ˆ๋‹ค(์œ„โ€“์•„๋ž˜ ์ „ํŒŒ + ์ธก๋ฉด ์—ฐ๊ฒฐ).
      • NAS (Neural Architecture Search)
        • ํ•˜๋“œ์›จ์–ด/์ง€์—ฐ์‹œ๊ฐ„ ์ œ์•ฝ์„ ๋„ฃ๊ณ  ์ž๋™์œผ๋กœ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํƒ์ƒ‰(์ง„ํ™”/๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜)ํ•ด, ํŠน์ • ๊ธฐ๊ธฐ์—์„œ ์ตœ์ ์˜ ๊ตฌ์กฐ(์†๋„โ€“์ •ํ™•๋„)๋ฅผ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค.
      • re-parameterization(๋ฐฐํฌ ํ›„ ๊ตฌ์กฐ ๋‹จ์ˆœํ™”)
        • ํ•™์Šต ์‹œ ๋‹ค์ค‘ ๋ถ„๊ธฐ(Conv/Skip/BN)๋กœ ํ‘œํ˜„๋ ฅ์„ ๋†’์ด๊ณ , ๋ฐฐํฌ ์ „ ๋‹จ์ผ Conv๋กœ ํ•ฉ์น˜๊ธฐ(BN folding ํฌํ•จ) ํ•ด ์ถ”๋ก ์„ ๋น ๋ฅด๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค(์˜ˆ: RepVGG/ACNet ์Šคํƒ€์ผ).
    • ๋ณธ ๋…ผ๋ฌธ ๊ด€์ : backbone&neck ์šฉ๋Ÿ‰์„ ํ˜ธํ™˜๋˜๊ฒŒ ์„ค๊ณ„ํ•˜๊ณ , ๋Œ€ํ˜• ์ปค๋„ DWConv(large-kernel depth-wise convolutions)๋ฅผ ๊ธฐ๋ณธ ๋ธ”๋ก์— ๋„์ž…ํ•œ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜ ์ œ์•ˆ.
  • ๋ผ๋ฒจ ํ• ๋‹น(ํ•™์Šต ์†์‹ค ํฌํ•จ)
    • ์ดˆ๊ธฐ: IoU ๋งค์นญ์œผ๋กœ โ€œ์ด ์˜ˆ์ธก์„ ์ •๋‹ต์œผ๋กœ ๋ณผ์ง€โ€ ๊ฒฐ์ •, ๋‹ค๋งŒ ์ž‘์€ ๋ฌผ์ฒด/๊ฒน์นจ/๊ฐ€์žฅ์ž๋ฆฌ์—์„œ ๋งค์นญ ์ด์Šˆ ๋ฐœ์ƒ
    • ์ดํ›„: ์ข‹์€ ํ›„๋ณด๋ฅผ ๋˜‘๋˜‘ํ•˜๊ฒŒ ๊ณจ๋ผ ํ•™์Šตํ•˜๊ณ , ์ดˆ๋ฐ˜ ๋ถˆ์•ˆ์ •์„ ์ค„์—ฌ ๋นจ๋ฆฌยท๋†’์ด ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ์‹ ์—ฐ๊ตฌ
      • ์ค‘์‹ฌ ๊ธฐ๋ฐ˜ ๋งค์นญ(center-based)
        • ์•„์ด๋””์–ด: ์ •๋‹ต ๋ฐ•์Šค์˜ ํ•œ๊ฐ€์šด๋ฐ์— ๊ฐ€๊นŒ์šด ์˜ˆ์ธก์ผ์ˆ˜๋ก ์ง„์งœ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค!
        • ๊ทธ๋ž˜์„œ GT ๋ฐ•์Šค ์ค‘์•™ ๊ทผ์ฒ˜(์ž‘์€ ์‚ฌ๊ฐํ˜•/์› ์˜์—ญ)์— ์žˆ๋Š” ์˜ˆ์ธก๋งŒ ํ›„๋ณด๋กœ ๋ฝ‘๊ณ ,
          ๊ทธ์ค‘์—์„œ IoUยท๋ถ„๋ฅ˜ ์ ์ˆ˜๊ฐ€ ๋†’์€ ๊ฒƒ๋“ค์„ ์–‘์„ฑ(positive)์œผ๋กœ ์ง€์ •ํ•ด ํ•™์Šต์‹œ์ผœ์š”.
        • ํšจ๊ณผ: ๊ฐ€์žฅ์ž๋ฆฌ๋‚˜ ๊ฒน์นœ ๋ฌผ์ฒด ๋•Œ๋ฌธ์— ์ƒ๊ธฐ๋Š” ํ˜ผ๋ž€์„ ์ค„์—ฌ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค.
      • ์ ์‘ํ˜•/๋™์  ๊ธฐ์ค€(ATSSยทSimOTA ๋“ฑ)
        • ํ•œ ๋ฒˆ์— ์ •ํ•œ ๊ณ ์ • ์ž„๊ณ„๊ฐ’ ๋Œ€์‹ , ์ด๋ฏธ์ง€ยท๊ฐ์ฒด๋งˆ๋‹ค ์ƒํ™ฉ์„ ๋ณด๋ฉฐ
          Top-k ํ›„๋ณด(๊ฐ€๊นŒ์›€ยทIoUยท์ ์ˆ˜ ๊ธฐ์ค€)๋ฅผ ๊ณ ๋ฅด๊ณ  ๊ทธ ์•ˆ์—์„œ ์–‘์„ฑ์„ ์ •ํ•ฉ๋‹ˆ๋‹ค.
        • ํšจ๊ณผ: ๋ฐ์ดํ„ฐ๋งˆ๋‹ค ๋‹ค๋ฅธ ๋‚œ์ด๋„/ํฌ๊ธฐ/๋ฐ€์ง‘๋„์— ์œ ์—ฐํ•˜๊ฒŒ ๋Œ€์‘ โ†’ ์ •ํ™•๋„โ†‘ ์ˆ˜๋ ด์†๋„โ†‘.
      • ๋ณด์กฐ ํ—ค๋“œ(auxiliary head)๋กœ โ€˜ํ•™์Šต ์•ˆ์ •ํ™”โ€™
        • ํ•™์Šตํ•  ๋•Œ๋งŒ ์“ฐ๋Š” ์ถ”๊ฐ€ ์˜ˆ์ธก ๊ฐ€์ง€(๋ณด์กฐ ํ—ค๋“œ)๋ฅผ ๋‹ฌ์•„ ์‹ ํ˜ธ๋ฅผ ๋” ์„ธ๊ฒŒยท์•ˆ์ •์ ์œผ๋กœ ์คŒ
        • ์ดˆ๋ฐ˜์— ๋ฉ”์ธ ํ—ค๋“œ๊ฐ€ ํ”๋“ค๋ฆด ๋•Œ ๋ณด์กฐ ํ—ค๋“œ๊ฐ€ ๊ธธ์žก์ด ์—ญํ• ์„ ํ•จ
        • ์ถ”๋ก (๋ฐฐํฌ) ๋‹จ๊ณ„์—์„œ๋Š” ์ œ๊ฑฐํ•˜๋ฏ€๋กœ ์†๋„ ์†ํ•ด ์—†์Œ
    • ์ตœ๊ทผ์—๋Š” ๋™์  ๋ผ๋ฒจ ํ• ๋‹น(DLA)๋กœ, ๋งค ๋ฐฐ์น˜ ์ƒํ™ฉ์— ๋งž์ถฐ ์œ ์—ฐํ•˜๊ฒŒ ์–‘์„ฑ/์Œ์„ฑ์„ ์ •ํ•ด ์ˆ˜๋ ด๊ณผ ์ •ํ™•๋„ ํ–ฅ์ƒ
    • ์ด ๋…ผ๋ฌธ์˜ ํฌ์ธํŠธ: ๋งค์นญ ๋น„์šฉ์„ ๊ณ„์‚ฐํ•  ๋•Œ ํ•˜๋“œ ๋ผ๋ฒจ๏ผˆT/F) ๋Œ€์‹  ์†Œํ”„ํŠธ ๋ผ๋ฒจ(๊ฐ€๋Šฅ์„ฑ)์„ ์จ์„œ
      โ†’ ์ข‹์€/๋‚˜์œ ๋งค์นญ ๊ตฌ๋ถ„์ด ๋” ๋šœ๋ ท, ํ•™์Šต ๋” ์•ˆ์ •, ์ˆ˜๋ ด ๋” ๋น ๋ฆ„.
  • ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  like SAM
    • ํŒจ๋Ÿฌ๋‹ค์ž„: ๋งˆ์Šคํฌ ๋ถ„๋ฅ˜, Top-Down, Bottom-Up.
    • ์ตœ๊ทผ: ์›์Šคํ…Œ์ด์ง€๋กœ ๋ฐ•์Šค ์žˆ์Œ/์—†์Œ ๋ชจ๋‘ ์‹œ๋„.
    • ํ•ต์‹ฌ ํ๋ฆ„: ๋‹ค์ด๋‚ด๋ฏน ์ปค๋„๋กœ ์ปค๋„์„ ์ƒ์„ฑํ•ด ๋งˆ์Šคํฌ ํŠน์ง•์— ํ•ฉ์„ฑ.
    • ๋ณธ ๋…ผ๋ฌธ ํ™•์žฅ: RTMDet์— ์ปค๋„ ์˜ˆ์ธก ํ—ค๋“œ + ๋งˆ์Šคํฌ ํŠน์ง• ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ด ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ์ง€์›.
  • ํšŒ์ „ ๊ฐ์ฒด ๊ฒ€์ถœ
    • ์œ„์น˜ยท๋ฒ”์ฃผ์— ๋ฐฉํ–ฅ(๊ฐ๋„)๊นŒ์ง€ ์˜ˆ์ธก.
    • ๊ธฐ์กด: ํšŒ์ „์œผ๋กœ ์ƒ๊ธฐ๋Š” ํŠน์ง• ๋ฏธ์Šค์–ผ๋ผ์ธ๋จผํŠธ ์™„ํ™”๋ฅผ ์œ„ํ•œ ํŠน์ง•์ถ”์ถœ ๋„คํŠธ์›Œํฌ, ๊ฐ€์šฐ์‹œ์•ˆ/๋ณผ๋ก์ง‘ํ•ฉ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ•์Šค ํ‘œํ˜„ ์—ฐ๊ตฌ.
    • ๋ณธ ๋…ผ๋ฌธ ์ ‘๊ทผ: ์ตœ์†Œ ์ˆ˜์ •(๊ฐ๋„ ๋ธŒ๋žœ์น˜ ์ถ”๊ฐ€, GIoUโ†’Rotated IoU Loss ๊ต์ฒด)์œผ๋กœ ์ผ๋ฐ˜ ๊ฒ€์ถœ๊ธฐ๋ฅผ ํ™•์žฅ.
    • ๊ฒฐ๋ก : ๊ณ ์ •๋ฐ€ ์ผ๋ฐ˜ ๊ฒ€์ถœ๊ธฐ์˜ ์•„ํ‚คํ…์ฒ˜/์ง€์‹์ด ๊ณ ์ •๋ฐ€ ํšŒ์ „ ๊ฒ€์ถœ๋กœ ์ด์–ด์ง์„ ๋ณด์ž„.

๊ตฌ์กฐ๋ถ€ํ„ฐ๋Š” ์–ด๋ ค์›Œ์„œ,, ๊ทธ๋ƒฅ GPT๊ฐ€ ์จ์ค€๋‚ด์šฉ์ž„! ๋‚˜์ค‘์— ์—ฌ์œ ๋ ๋–„ ๊นŠ๊ฒŒ ์•Œ์••๋ณด์ž~

๐Ÿงฑ RTMDet- Real-Time Models for object Detection ๊ตฌ์กฐ(Architecture)

  • Backbone:
    • ๋Œ€ํ˜• ์ปค๋„ ๊ธฐ๋ฐ˜ Depthwise Conv ๋ธ”๋ก์„ ์ฑ„ํƒํ•ด ํ‘œํ˜„๋ ฅโ†‘ / ์—ฐ์‚ฐโ†“๋ฅผ ์–‘๋ฆฝ.
    • ๋‹จ๊ณ„๋ณ„ ์ฑ„๋„ยทํ•ด์ƒ๋„ ์Šค์ผ€์ค„์„ ์‹ค์‹œ๊ฐ„ ์ œ์•ฝ์— ๋งž๊ฒŒ ์ •๋ ฌ.
  • Neck(FPN/PAN ๊ณ„์—ด):
    • ๋ฐฑ๋ณธโ€“๋„ฅ ์šฉ๋Ÿ‰ ๊ท ํ˜•(compatible capacities)์„ ์ค‘์‹œํ•ด ์ •๋ณด ๋ณ‘๋ชฉ ์ตœ์†Œํ™”.
    • ๋ฉ€ํ‹ฐ์Šค์ผ€์ผ ํŠน์ง• ์œตํ•ฉ์„ ๋‹จ์ˆœยท์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€.
  • Head(Anchor-free ๊ณ„์—ด):
    • ๋ถ„๋ฅ˜ยทํšŒ๊ท€ ๋ถ„์ง€์— ๋™์  ๋ผ๋ฒจ ํ• ๋‹น์„ ์ ์šฉ, ํ•™์Šต ๋‚œ์ด๋„์— ๋”ฐ๋ผ ์œ ์—ฐํ•œ ๋งค์นญ์„ ์ˆ˜ํ–‰.
    • ๊ฒฝ๋Ÿ‰ ์„ค๊ณ„๋กœ ๊ณ FPS ์œ ์ง€, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ ๋ผ์ธ์—…(Tiny~XL) ์ œ๊ณต.

๐Ÿ”ง ํ•™์Šต๋ฒ•(Training Recipe)

  • ๋™์  ๋ผ๋ฒจ ํ• ๋‹น + ์†Œํ”„ํŠธ ํƒ€๊นƒ:
    • ๋งค์นญ ์ฝ”์ŠคํŠธ์— ๊ธฐ๋ฐ˜ํ•œ ๋™์  ํฌ์ง€ํ‹ฐ๋ธŒ ์„ ์ •, ์†Œํ”„ํŠธ ๋ผ๋ฒจ๋กœ ๊ฒฝ๊ณ„ ์ƒ˜ํ”Œ์˜ ํ•™์Šต ์•ˆ์ •ํ™”.
  • ์ฆ๊ฐ•ยท์ตœ์ ํ™” ๋ ˆ์‹œํ”ผ ์ •์ œ:
    • Mosaic/RandomAffine/MixUp ๋“ฑ ์ฆ๊ฐ• ๊ฐ•๋„๋ฅผ ์‹ค์‹œ๊ฐ„ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋งž๊ฒŒ ์กฐ์ ˆ.
    • ํ•™์Šต ์Šค์ผ€์ค„, EMA, ์ •๊ทœํ™”ยทํ™œ์„ฑ ํ•จ์ˆ˜ ์„ ํƒ์„ ์‹คํ—˜์ ์œผ๋กœ ํŠœ๋‹.
  • ๋ฐฐํฌ ์นœํ™”:
    • ONNX/TensorRT, FP16/INT8 ๊ฒฝ๋กœ๋ฅผ ๊ณ ๋ คํ•œ ์—ฐ์‚ฐ ๊ทธ๋ž˜ํ”„ ๋‹จ์ˆœํ™”์™€ NMS ์„ค์ • ์ผ๊ด€ํ™”.

๐Ÿงช Ablation Study

1) ๋Œ€ํ˜• ์ปค๋„ DWConv์˜ ํšจ๊ณผ

  • ๋Œ€ํ˜• ์ˆ˜์šฉ์˜์—ญ์œผ๋กœ ํ‘œํ˜„๋ ฅ ํ™•๋ณด, DWConv๋กœ ์—ฐ์‚ฐ๋Ÿ‰ ์–ต์ œ โ†’ ์‹ค์‹œ๊ฐ„ ์˜์—ญ์—์„œ ์ •ํ™•๋„ ์ƒํ•œ์„  ์ƒ์Šน. 2) ๋ฐฑ๋ณธโ€“๋„ฅ ์šฉ๋Ÿ‰ ๊ท ํ˜•
  • ๋ถˆ๊ท ํ˜• ์‹œ ํŠน์ • ํ•ด์ƒ๋„/์ฑ„๋„ ๊ตฌ๊ฐ„์—์„œ ๋ณ‘๋ชฉ ๋ฐœ์ƒ โ†’ ๊ท ํ˜• ์ตœ์ ํ™”๊ฐ€ APยท์•ˆ์ •์„ฑ์— ์ง๊ฒฐ. 3) ๋™์  ๋ผ๋ฒจ + ์†Œํ”„ํŠธ ๋ผ๋ฒจ
  • ๊ณ ๋‚œ๋„ยท์†Œ๋ฌผ์ฒด ์ผ€์ด์Šค์—์„œ ์ˆ˜๋ ด ์•ˆ์ •์„ฑ๊ณผ ์ •๋ฐ€๋„ ํ–ฅ์ƒ, ํ•™์Šต ์ดˆ๋ฐ˜ ์ง„๋™ ๊ฐ์†Œ. 4) ํ›ˆ๋ จ ๋ ˆ์‹œํ”ผ ์˜ํ–ฅ
  • ๊ณผ๋„ํ•œ ์ฆ๊ฐ•์€ ์‹ค์‹œ๊ฐ„ ํ—ค๋“œ์˜ ์ˆ˜๋ ด ์ €ํ•ด ๊ฐ€๋Šฅ โ†’ ์ ์ • ๊ฐ•๋„์—์„œ ์†๋„โ€“์ •ํ™•๋„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ตœ์ ํ™”. 5) ๋ผ์ธ์—… ํ™•์žฅ์„ฑ
  • Tiny~XL ๊ทœ๋ชจ ์ „๋ฐ˜์—์„œ ์ผ๊ด€๋œ ์ด๋“ โ†’ ์—ฃ์ง€~์„œ๋ฒ„ ์ „ ๋ฒ”์œ„ ์ ์šฉ์„ฑ ํ™•์ธ.

โœ… ๊ฒฐ๋ก 

  • RTMDet๋Š” ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ์„ ์œ„ํ•œ ๊ตฌ์กฐยท๋ผ๋ฒจ๋งยท๋ ˆ์‹œํ”ผ๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ์ •๋ฆฌํ•ด,
    ๋Œ€ํ˜• ์ปค๋„ DWConv + ์šฉ๋Ÿ‰ ๊ท ํ˜• + ์•ˆ์ •์  ํ•™์Šต๋ฒ•์œผ๋กœ ์†๋„โ€“์ •ํ™•๋„โ€“๋ฐฐํฌ์„ฑ์˜ ๊ท ํ˜•์„ ๋Œ์–ด์˜ฌ๋ฆผ.
  • MMDetection/MMYOLO ์ƒํƒœ๊ณ„์™€์˜ ๋†’์€ ํ˜ธํ™˜์„ฑ์œผ๋กœ ์‹ค๋ฌดยท์—ฐ๊ตฌ ๋ชจ๋‘์— ์ฆ‰์‹œ ์ ์šฉํ•˜๊ธฐ ์šฉ์ดํ•˜๋ฉฐ,
    ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐยทํƒœ์Šคํฌ(์ธ์Šคํ„ด์Šค ๋ถ„ํ• /ํšŒ์ „ ๊ฒ€์ถœ)๋กœ ํ™•์žฅ์„ฑ ๋˜ํ•œ ์šฐ์ˆ˜ํ•จ.

This post is licensed under CC BY 4.0 by the author.