جلسه دفاع از پایاننامه: آقای مهدی سوادی حسینی، گروه مهندسی کامپیوتر
خلاصه خبر: ارائه یک معماری جدید یادگیری ژرف برای شناسایی رفتار انسان در ویدئو
چکیده: شناسایی رفتار انسان در ویدئو با توجه به کاربردهای بسیاری که در زمینههای مختلف از جمله امنیت، سلامت، مدیریت هوشمند شهر و ساختمان و ... دارد، طی چند سال اخیر توجه زیادی را به خود جلب کرده است. از سوی دیگر، رویکردهای یادگیری ژرف مانند CNN ها و RNN ها در زمینههای مختلف توانستهاند نتایج بسیار خوبی را کسب کنند. با این وجود، علیرقم وجود تغییرات زمانی قابل توجه در محتوای ویدئو، تاکنون شبکههای عصبی بازگشتی در شناسایی رفتار انسان ضعیفتر از روشهای مبتنی بر شبکههای پیچشی عمل کردهاند. در این پژوهش با معرفی یک رویکرد سلسله مراتبی زمانی در دو سطح محلی و سراسری، با استفاده از شبکههای پیچشی متورم دو جریانی که از شبکههای عصبی پیچشی دوبعدی معروف برای دستهبندی تصاویر ایجاد شدهاند و همچنین استفاده از پشتهای از لایههای GRU توانستهایم رویکردی جدید برای شناسایی رفتار انسان در ویدئو ارائه دهیم. در این رویکرد ابتدا ویژگیهای فضایی-زمانی را برای هر دو جریان فضایی و زمانی به صورت محلی با استفاده از I3D های فضایی و زمانی استخراج میکنیم که این کار باعث تبدیل دنباله طولانی قابهای یک ویدئو به یک دنباله کوتاهتر و حاوی اطلاعات مفیدتر میشود. این دنباله کوتاهشده را به شبکهای از GRU ها میدهیم و در نهایت نیز نتایج دو جریان را تجمیع میکنیم. برای تجمیع نتایج یک لایه جدید با نام میانگین وزندهی شده را معرفی میکنیم که اهمیت هر جریان را در فرایند آموزش به صورت خودکار فرا میگیرد. ارزیابیها نشاندهنده نتایجی قابل قبول برای دو مجموعه داده HMDB51 و UCF101 هستند. روش پیشنهادی موجب 1.6 درصد بهبود در صحت دستهبندی نمونههای مجموعه داده پرچالش HMDB51 نسبت به نتایج گزارش شده بهترین روش موجود گردید. 27 آبان 1398 / تعداد نمایش : 1380
|