EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ

Სარჩევი:

EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ
EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ

ვიდეო: EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ

ვიდეო: EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ
ვიდეო: TopicLens: Efficient Multi-Level Visual Topic Exploration of Large-Scale Document Collections 2024, ნოემბერი
Anonim

როგორც კომპიუტერული ხედვის ერთ-ერთი მთავარი პროგრამა, ობიექტის გამოვლენა სულ უფრო მნიშვნელოვანი ხდება იმ სცენარებში, რომლებიც საჭიროებს მაღალ სიზუსტეს, მაგრამ აქვთ შეზღუდული გამოთვლითი რესურსები, როგორიცაა რობოტები და მძღოლთა გარეშე მანქანები. სამწუხაროდ, თანამედროვე სიზუსტის მრავალი დეტექტორი არ აკმაყოფილებს ამ შეზღუდვებს. რაც მთავარია, რეალურ სამყაროში ობიექტების გამოვლენის პროგრამები მუშაობს სხვადასხვა პლატფორმაზე, რომლებიც ხშირად საჭიროებს სხვადასხვა რესურსებს.

მასშტაბური და ეფექტური ობიექტის გამოვლენა
მასშტაბური და ეფექტური ობიექტის გამოვლენა

ამრიგად, ბუნებრივი კითხვაა, თუ როგორ უნდა შეიმუშაონ ზუსტი და ეფექტური ობიექტის დეტექტორები, რომლებიც ასევე შეიძლება მოერგოს რესურსების შეზღუდვის ფართო სპექტრს?

EfficDet: მასშტაბური და ეფექტური ობიექტის გამოვლენა, მიღებული CVPR 2020– ზე, წარმოგიდგენთ მასშტაბური და ეფექტური ობიექტის დეტექტორების ახალ ოჯახს. ეფუძნება წინა სამუშაოებს ნერვული ქსელების მასშტაბირებაზე (EfficNet) და მოიცავს ახალ ორმხრივ ფუნქციონალურ ქსელს (BiFPN) და მასშტაბის ახალ წესებს, EfficDet აღწევს თანამედროვე სიზუსტეს, 9 ჯერ უფრო მცირე და იყენებს მნიშვნელოვნად ნაკლებ გამოთვლას, ვიდრე ცნობილი თანამედროვე დეტექტორები. შემდეგ ფიგურაში მოცემულია მოდელების ზოგადი ქსელის არქიტექტურა.

სურათი
სურათი

მოდელის არქიტექტურის ოპტიმიზაცია

EfficDet- ის იდეა წარმოიშვა მცდელობებში, იპოვონ გამოსავალი გამოთვლითი ეფექტურობის გასაუმჯობესებლად წინა თანამედროვე დონის გამოვლენის მოდელების სისტემატური შესწავლით. ზოგადად, ობიექტის დეტექტორებს აქვთ სამი ძირითადი კომპონენტი: ხერხემალი, რომელიც მოცემული სურათიდან გამოყოფს მახასიათებლებს; ობიექტების ქსელი, რომელიც ხერხემლის ფუნქციებს იღებს მრავალი დონის ხერხემალიდან, და გამოაქვს კომბინირებული ფუნქციების ჩამონათვალი, რომლებიც გამოსახულების დამახასიათებელ მახასიათებლებს წარმოადგენს; და საბოლოო კლასის / უჯრის ქსელი, რომელიც იყენებს კომბინირებულ ფუნქციებს თითოეული ობიექტის კლასისა და ადგილმდებარეობის პროგნოზირებისთვის.

ამ კომპონენტების დიზაინის ვარიანტების განხილვის შემდეგ, ჩვენ დავადგინეთ რამდენიმე ძირითადი ოპტიმიზაცია, შესრულების და ეფექტურობის გასაუმჯობესებლად. წინა დეტექტორები ძირითადად იყენებენ ResNets- ს, ResNeXt- ს ან AmoebaNet- ს, როგორც ხერხემალს, რომლებიც ან ნაკლებად მძლავრია ან უფრო დაბალი ეფექტურობა აქვთ, ვიდრე EfficNets. EfficNet ხერხემალის პირველადი განხორციელებით, ბევრად მეტი ეფექტურობის მიღწევაა შესაძლებელი. მაგალითად, RetinaNet– ის საბაზისო ხაზით დაწყებული, რომელიც იყენებს ResNet-50 ხერხემალს, ჩვენი აბლაციური კვლევა აჩვენებს, რომ უბრალოდ ResNet-50– ის EfficientNet-B3– ით ჩანაცვლება შეიძლება გააუმჯობესოს სიზუსტე 3% –ით, ხოლო გამოთვლა 20% –ით. კიდევ ერთი ოპტიმიზაცია არის ფუნქციური ქსელების ეფექტურობის გაუმჯობესება. მიუხედავად იმისა, რომ წინა დეტექტორების უმეტესობა უბრალოდ იყენებს Downlink Pyramid Network (FPN) - ს, ჩვენ ვხვდებით, რომ ქვემოთ მოქცეული FPN არსებითად შემოიფარგლება ინფორმაციის ცალმხრივი ნაკადით. ალტერნატიული FPN, როგორიცაა PANet, დაამატეთ დამატებით დინებაში დამატებითი გამოთვლის ფასად.

Neural Architecture Search (NAS) - ის გამოყენების ბოლოდროინდელმა მცდელობებმა უფრო რთული NAS-FPN არქიტექტურა აღმოაჩინეს. ამასთან, მიუხედავად იმისა, რომ ქსელის ეს სტრუქტურა ეფექტურია, ის ასევე არარეგულარულია და ოპტიმიზირებულია კონკრეტული ამოცანისთვის, რაც ართულებს სხვა დავალებებისადმი ადაპტაციას. ამ პრობლემების გადასაჭრელად, ჩვენ ვთავაზობთ ორმხრივი ფუნქციების ახალ ქსელს BiFPN, რომელიც ახორციელებს FPN / PANet / NAS-FPN– დან მრავალშრიანი ფუნქციების კომბინირების იდეას, რაც საშუალებას იძლევა ინფორმაციის გადაცემა როგორც ზემოდან, ასევე ქვემოდან ქვევიდან ზემოდან. რეგულარული და ეფექტური კავშირების გამოყენება.

სურათი
სურათი

ეფექტურობის შემდგომი გასაუმჯობესებლად, ჩვენ გთავაზობთ ახალ ნორმალიზებულ სინთეზის ახალ ტექნიკას. ტრადიციული მიდგომები, როგორც წესი, განიხილავს FPN– ს ყველა შენატანს ერთნაირად, თუნდაც სხვადასხვა რეზოლუციებით.ამასთან, ჩვენ ვაკვირდებით, რომ სხვადასხვა რეზოლუციის შეყვანის მახასიათებლები ხშირად არათანაბრად უწყობს ხელს გამომავალ ფუნქციებს. ამრიგად, თითოეულ შეყვანის ფუნქციას დამატებით წონას ვმატებთ და ქსელს ვასწავლით თითოეული მათგანის მნიშვნელობას. ჩვენ ასევე შევცვლით ყველა რეგულარულ კრუნჩხვას ნაკლებად ძვირადღირებული, ღრმად განცალკევებული კრუნჩხვით. ამ ოპტიმიზაციის შედეგად, ჩვენი BiFPN კიდევ უფრო აუმჯობესებს სიზუსტეს 4% -ით, ხოლო კომპიუტერული ხარჯები 50% -ით ამცირებს.

მესამე ოპტიმიზაცია გულისხმობს საუკეთესო კომპრომისის მიღწევას სიზუსტესა და ეფექტურობას შორის სხვადასხვა რესურსის შეზღუდვის პირობებში. ჩვენმა წინა ნამუშევარებმა აჩვენა, რომ ქსელის სიღრმის, სიგანის და რეზოლუციის თანაზომიერებით მნიშვნელოვნად გაუმჯობესდება სურათის ამოცნობის შესრულება. ამ იდეით შთაგონებული, ჩვენ ვთავაზობთ ობიექტის დეტექტორების მასშტაბური კომპოზიტის ახალ მეთოდს, რომელიც ერთობლივად ზრდის რეზოლუციას / სიღრმეს / სიგანეს. თითოეული ქსელის კომპონენტი, მაგ. ხერხემალი, ობიექტი და ბლოკი / კლასის პროგნოზირებადი ქსელი, ექნება ერთი რთული მასშტაბური ფაქტორი, რომელიც აკონტროლებს მასშტაბის ყველა განზომილებას ევრისტიკური წესების გამოყენებით. ეს მიდგომა საშუალებას გვაძლევს მარტივად განვსაზღვროთ, თუ როგორ უნდა მოხდეს მოდელის მასშტაბირება მოცემული სამიზნე რესურსის შეზღუდვის მასშტაბის ფაქტორის გაანგარიშებით.

ახალი ხერხემლისა და BiFPN- ის კომბინირებით, ჩვენ ჯერ შევქმენით მცირე EfficDet-D0 საწყისი და შემდეგ ვიყენებთ კომპოზიციურ მასშტაბებს, რათა მივიღოთ EfficientDet-D1 D7- მდე. თითოეულ სერიულ მოდელს აქვს უფრო მაღალი საანგარიშო ღირებულება, რომელიც მოიცავს რესურსების შეზღუდვის ფართო სპექტრს 3 მილიარდი FLOP– დან 300 მილიარდ FLOPS– მდე და უზრუნველყოფს უფრო მაღალ სიზუსტეს.

შესრულების მოდელი

EfficDet– ის შეფასება COCO– ს მონაცემთა ბაზაზე, ფართოდ გამოყენებული საცნობარო მონაცემთა ბაზა ობიექტის გამოვლენისთვის. EfficientDet-D7 აღწევს საშუალო საშუალო სიზუსტეს (mAP) 52.2, რაც 1.5 პუნქტით მეტია, ვიდრე წინა თანამედროვე მოდელი, 4-ჯერ ნაკლები პარამეტრების და 9.4-ჯერ ნაკლები გამოთვლების გამოყენებით

სურათი
სურათი

ჩვენ ასევე შევადარეთ პარამეტრის ზომა და CPU / GPU შეყოვნება EfficDet და წინა მოდელებს შორის. სიზუსტის მსგავსი შეზღუდვების მქონე, EfficientDet მოდელები მუშაობენ 2-4 ჯერ უფრო სწრაფად GPU- ზე და 5-11 ჯერ უფრო სწრაფად პროცესორზე, ვიდრე სხვა დეტექტორები. მიუხედავად იმისა, რომ EfficDet მოდელები, ძირითადად, მიზნად ისახავს ობიექტის გამოვლენას, ჩვენ ასევე ვამოწმებთ მათ ეფექტურობას სხვა ამოცანებში, როგორიცაა სემანტიკური სეგმენტაცია. სეგმენტაციური დავალებების შესასრულებლად, ჩვენ ოდნავ ვცვლით EfficDet-D4 შეცვლის გამოვლენის თავის და თავის დაკარგვას და დაკარგვას, ხოლო შენარჩუნებულია იგივე მასშტაბური ხერხემალი და BiFPN. ჩვენ ამ მოდელს შევადარებთ სეგმენტაციის წინა თანამედროვე მოდელებს Pascal VOC 2012-ისთვის, რომელიც ფართოდ გამოიყენება სეგმენტაციის ტესტირების მონაცემთა ნაკრებისთვის.

სურათი
სურათი

მათი განსაკუთრებული შესრულების გათვალისწინებით, EfficDet სავარაუდოდ ახალი საფუძველი იქნება მომავალი ობიექტის გამოვლენის კვლევისთვის და პოტენციურად ობიექტის აღმოჩენის ძალიან ზუსტი მოდელები გამოსადეგი იქნება მრავალ რეალურ პროგრამაში. ასე რომ, Github.com– ზე გაიხსნა კოდის ყველა პუნქტი და წინასწარ მომზადებული მოდელი.

გირჩევთ: