EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ

2025 ავტორი: Ian Gardner | [email protected]. ბოლოს შეცვლილი: 2025-01-24 11:03

როგორც კომპიუტერული ხედვის ერთ-ერთი მთავარი პროგრამა, ობიექტის გამოვლენა სულ უფრო მნიშვნელოვანი ხდება იმ სცენარებში, რომლებიც საჭიროებს მაღალ სიზუსტეს, მაგრამ აქვთ შეზღუდული გამოთვლითი რესურსები, როგორიცაა რობოტები და მძღოლთა გარეშე მანქანები. სამწუხაროდ, თანამედროვე სიზუსტის მრავალი დეტექტორი არ აკმაყოფილებს ამ შეზღუდვებს. რაც მთავარია, რეალურ სამყაროში ობიექტების გამოვლენის პროგრამები მუშაობს სხვადასხვა პლატფორმაზე, რომლებიც ხშირად საჭიროებს სხვადასხვა რესურსებს.

ამრიგად, ბუნებრივი კითხვაა, თუ როგორ უნდა შეიმუშაონ ზუსტი და ეფექტური ობიექტის დეტექტორები, რომლებიც ასევე შეიძლება მოერგოს რესურსების შეზღუდვის ფართო სპექტრს?

EfficDet: მასშტაბური და ეფექტური ობიექტის გამოვლენა, მიღებული CVPR 2020– ზე, წარმოგიდგენთ მასშტაბური და ეფექტური ობიექტის დეტექტორების ახალ ოჯახს. ეფუძნება წინა სამუშაოებს ნერვული ქსელების მასშტაბირებაზე (EfficNet) და მოიცავს ახალ ორმხრივ ფუნქციონალურ ქსელს (BiFPN) და მასშტაბის ახალ წესებს, EfficDet აღწევს თანამედროვე სიზუსტეს, 9 ჯერ უფრო მცირე და იყენებს მნიშვნელოვნად ნაკლებ გამოთვლას, ვიდრე ცნობილი თანამედროვე დეტექტორები. შემდეგ ფიგურაში მოცემულია მოდელების ზოგადი ქსელის არქიტექტურა.

მოდელის არქიტექტურის ოპტიმიზაცია

EfficDet- ის იდეა წარმოიშვა მცდელობებში, იპოვონ გამოსავალი გამოთვლითი ეფექტურობის გასაუმჯობესებლად წინა თანამედროვე დონის გამოვლენის მოდელების სისტემატური შესწავლით. ზოგადად, ობიექტის დეტექტორებს აქვთ სამი ძირითადი კომპონენტი: ხერხემალი, რომელიც მოცემული სურათიდან გამოყოფს მახასიათებლებს; ობიექტების ქსელი, რომელიც ხერხემლის ფუნქციებს იღებს მრავალი დონის ხერხემალიდან, და გამოაქვს კომბინირებული ფუნქციების ჩამონათვალი, რომლებიც გამოსახულების დამახასიათებელ მახასიათებლებს წარმოადგენს; და საბოლოო კლასის / უჯრის ქსელი, რომელიც იყენებს კომბინირებულ ფუნქციებს თითოეული ობიექტის კლასისა და ადგილმდებარეობის პროგნოზირებისთვის.

ამ კომპონენტების დიზაინის ვარიანტების განხილვის შემდეგ, ჩვენ დავადგინეთ რამდენიმე ძირითადი ოპტიმიზაცია, შესრულების და ეფექტურობის გასაუმჯობესებლად. წინა დეტექტორები ძირითადად იყენებენ ResNets- ს, ResNeXt- ს ან AmoebaNet- ს, როგორც ხერხემალს, რომლებიც ან ნაკლებად მძლავრია ან უფრო დაბალი ეფექტურობა აქვთ, ვიდრე EfficNets. EfficNet ხერხემალის პირველადი განხორციელებით, ბევრად მეტი ეფექტურობის მიღწევაა შესაძლებელი. მაგალითად, RetinaNet– ის საბაზისო ხაზით დაწყებული, რომელიც იყენებს ResNet-50 ხერხემალს, ჩვენი აბლაციური კვლევა აჩვენებს, რომ უბრალოდ ResNet-50– ის EfficientNet-B3– ით ჩანაცვლება შეიძლება გააუმჯობესოს სიზუსტე 3% –ით, ხოლო გამოთვლა 20% –ით. კიდევ ერთი ოპტიმიზაცია არის ფუნქციური ქსელების ეფექტურობის გაუმჯობესება. მიუხედავად იმისა, რომ წინა დეტექტორების უმეტესობა უბრალოდ იყენებს Downlink Pyramid Network (FPN) - ს, ჩვენ ვხვდებით, რომ ქვემოთ მოქცეული FPN არსებითად შემოიფარგლება ინფორმაციის ცალმხრივი ნაკადით. ალტერნატიული FPN, როგორიცაა PANet, დაამატეთ დამატებით დინებაში დამატებითი გამოთვლის ფასად.

Neural Architecture Search (NAS) - ის გამოყენების ბოლოდროინდელმა მცდელობებმა უფრო რთული NAS-FPN არქიტექტურა აღმოაჩინეს. ამასთან, მიუხედავად იმისა, რომ ქსელის ეს სტრუქტურა ეფექტურია, ის ასევე არარეგულარულია და ოპტიმიზირებულია კონკრეტული ამოცანისთვის, რაც ართულებს სხვა დავალებებისადმი ადაპტაციას. ამ პრობლემების გადასაჭრელად, ჩვენ ვთავაზობთ ორმხრივი ფუნქციების ახალ ქსელს BiFPN, რომელიც ახორციელებს FPN / PANet / NAS-FPN– დან მრავალშრიანი ფუნქციების კომბინირების იდეას, რაც საშუალებას იძლევა ინფორმაციის გადაცემა როგორც ზემოდან, ასევე ქვემოდან ქვევიდან ზემოდან. რეგულარული და ეფექტური კავშირების გამოყენება.

ეფექტურობის შემდგომი გასაუმჯობესებლად, ჩვენ გთავაზობთ ახალ ნორმალიზებულ სინთეზის ახალ ტექნიკას. ტრადიციული მიდგომები, როგორც წესი, განიხილავს FPN– ს ყველა შენატანს ერთნაირად, თუნდაც სხვადასხვა რეზოლუციებით.ამასთან, ჩვენ ვაკვირდებით, რომ სხვადასხვა რეზოლუციის შეყვანის მახასიათებლები ხშირად არათანაბრად უწყობს ხელს გამომავალ ფუნქციებს. ამრიგად, თითოეულ შეყვანის ფუნქციას დამატებით წონას ვმატებთ და ქსელს ვასწავლით თითოეული მათგანის მნიშვნელობას. ჩვენ ასევე შევცვლით ყველა რეგულარულ კრუნჩხვას ნაკლებად ძვირადღირებული, ღრმად განცალკევებული კრუნჩხვით. ამ ოპტიმიზაციის შედეგად, ჩვენი BiFPN კიდევ უფრო აუმჯობესებს სიზუსტეს 4% -ით, ხოლო კომპიუტერული ხარჯები 50% -ით ამცირებს.

მესამე ოპტიმიზაცია გულისხმობს საუკეთესო კომპრომისის მიღწევას სიზუსტესა და ეფექტურობას შორის სხვადასხვა რესურსის შეზღუდვის პირობებში. ჩვენმა წინა ნამუშევარებმა აჩვენა, რომ ქსელის სიღრმის, სიგანის და რეზოლუციის თანაზომიერებით მნიშვნელოვნად გაუმჯობესდება სურათის ამოცნობის შესრულება. ამ იდეით შთაგონებული, ჩვენ ვთავაზობთ ობიექტის დეტექტორების მასშტაბური კომპოზიტის ახალ მეთოდს, რომელიც ერთობლივად ზრდის რეზოლუციას / სიღრმეს / სიგანეს. თითოეული ქსელის კომპონენტი, მაგ. ხერხემალი, ობიექტი და ბლოკი / კლასის პროგნოზირებადი ქსელი, ექნება ერთი რთული მასშტაბური ფაქტორი, რომელიც აკონტროლებს მასშტაბის ყველა განზომილებას ევრისტიკური წესების გამოყენებით. ეს მიდგომა საშუალებას გვაძლევს მარტივად განვსაზღვროთ, თუ როგორ უნდა მოხდეს მოდელის მასშტაბირება მოცემული სამიზნე რესურსის შეზღუდვის მასშტაბის ფაქტორის გაანგარიშებით.

ახალი ხერხემლისა და BiFPN- ის კომბინირებით, ჩვენ ჯერ შევქმენით მცირე EfficDet-D0 საწყისი და შემდეგ ვიყენებთ კომპოზიციურ მასშტაბებს, რათა მივიღოთ EfficientDet-D1 D7- მდე. თითოეულ სერიულ მოდელს აქვს უფრო მაღალი საანგარიშო ღირებულება, რომელიც მოიცავს რესურსების შეზღუდვის ფართო სპექტრს 3 მილიარდი FLOP– დან 300 მილიარდ FLOPS– მდე და უზრუნველყოფს უფრო მაღალ სიზუსტეს.

შესრულების მოდელი

EfficDet– ის შეფასება COCO– ს მონაცემთა ბაზაზე, ფართოდ გამოყენებული საცნობარო მონაცემთა ბაზა ობიექტის გამოვლენისთვის. EfficientDet-D7 აღწევს საშუალო საშუალო სიზუსტეს (mAP) 52.2, რაც 1.5 პუნქტით მეტია, ვიდრე წინა თანამედროვე მოდელი, 4-ჯერ ნაკლები პარამეტრების და 9.4-ჯერ ნაკლები გამოთვლების გამოყენებით

ჩვენ ასევე შევადარეთ პარამეტრის ზომა და CPU / GPU შეყოვნება EfficDet და წინა მოდელებს შორის. სიზუსტის მსგავსი შეზღუდვების მქონე, EfficientDet მოდელები მუშაობენ 2-4 ჯერ უფრო სწრაფად GPU- ზე და 5-11 ჯერ უფრო სწრაფად პროცესორზე, ვიდრე სხვა დეტექტორები. მიუხედავად იმისა, რომ EfficDet მოდელები, ძირითადად, მიზნად ისახავს ობიექტის გამოვლენას, ჩვენ ასევე ვამოწმებთ მათ ეფექტურობას სხვა ამოცანებში, როგორიცაა სემანტიკური სეგმენტაცია. სეგმენტაციური დავალებების შესასრულებლად, ჩვენ ოდნავ ვცვლით EfficDet-D4 შეცვლის გამოვლენის თავის და თავის დაკარგვას და დაკარგვას, ხოლო შენარჩუნებულია იგივე მასშტაბური ხერხემალი და BiFPN. ჩვენ ამ მოდელს შევადარებთ სეგმენტაციის წინა თანამედროვე მოდელებს Pascal VOC 2012-ისთვის, რომელიც ფართოდ გამოიყენება სეგმენტაციის ტესტირების მონაცემთა ნაკრებისთვის.

მათი განსაკუთრებული შესრულების გათვალისწინებით, EfficDet სავარაუდოდ ახალი საფუძველი იქნება მომავალი ობიექტის გამოვლენის კვლევისთვის და პოტენციურად ობიექტის აღმოჩენის ძალიან ზუსტი მოდელები გამოსადეგი იქნება მრავალ რეალურ პროგრამაში. ასე რომ, Github.com– ზე გაიხსნა კოდის ყველა პუნქტი და წინასწარ მომზადებული მოდელი.

გირჩევთ:

როგორ გადავა კამერა ობიექტის გარშემო

3D რედაქტორებში ობიექტის შექმნისას მნიშვნელოვანია განიხილონ მოდელი ყველა მხრიდან, რათა დადგინდეს, თუ როგორ გამოიყურება იგი სხვადასხვა კუთხით. კამერის ობიექტის გარშემო მოტრიალებით, დროულად ნახავთ ხარვეზებს და გამოასწორებთ მათ. ინსტრუქციები Ნაბიჯი 1 კამერა MilkShape 3D- ით ობიექტის გარშემო მობრუნებისთვის, თავდაპირველად უნდა მიუთითოთ ობიექტისკენ

როგორ შევქმნათ ეფექტური გაყიდვადი რეკლამა Avito- ზე

ამ ვებ – გვერდზე მაღალი კონკურენციის პირობებში, ყურადღებით უნდა დაფიქრდეთ რეკლამის თითოეულ ელემენტზე. რა უნდა იქნას გათვალისწინებული, რომ თქვენი რეკლამა შეინიშნოს მსგავს რეკლამებში? უნიკალური და სასარგებლო ნივთის ქონაც კი, ძალიან მარტივია მისი გაყიდვა, თუ შექმნით რეკლამას, რომელიც არც თუ ისე დაინტერესებული მყიდველის ყურადღებას მიიპყრობს

EfficDet: მასშტაბური და ეფექტური ობიექტის აღმოჩენისკენ

Სარჩევი:

მოდელის არქიტექტურის ოპტიმიზაცია

შესრულების მოდელი

გირჩევთ:

როგორ გადავა კამერა ობიექტის გარშემო

როგორ შევქმნათ ეფექტური გაყიდვადი რეკლამა Avito- ზე

როგორ განბლოკოთ Htc სენსაცია

როგორ მოძრავი მობილური ტელეფონის ბატარეა

როგორ შეიძინოთ აღჭურვილობა ინტერნეტით

როგორ ისესხეთ თანხა MTS– ზე უპრობლემოდ

როგორ დავაინსტალიროთ Google სერვისები Huawei– ზე

10 ინჩიანი ტაბლეტები: მიმოხილვა და შედარება

დაკარგვის ფორმატი: რა არის ეს?

D-BOX 3D: რა არის ეს კინოთეატრებში

TOP 5 ბიუჯეტის ჭკვიანი საათები 2020 წელს

Samsung Galaxy Tab S3: ტაბლეტის მიმოხილვა

როგორ გადავიტანოთ სურათები კომპიუტერიდან ტელეფონზე

როგორ გამოვყოთ მუსიკა თამაშებიდან

როგორ ავირჩიოთ სანავიგაციო პროგრამა

როგორ მუშაობს ახალი Apple Stylus

რა არის მსოფლიოში ყველაზე პოპულარული გაჯეტი