دانشکده مهندسی برق و کامپیوتر

جلسه دفاع از پایان‌نامه: آقای مهدی سوادی حسینی، گروه مهندسی کامپیوتر

خلاصه خبر: ارائه یک معماری جدید یادگیری ژرف برای شناسایی رفتار انسان در ویدئو

عنوان: ارائه یک معماری جدید یادگیری ژرف برای شناسایی رفتار انسان در ویدئو
ارائه‌کننده: مهدی سوادی حسینی
استاد راهنما: آقای دکتر فواد قادری
استاد ناظر داخلی اول: دکتر نصرالله مقدم چرکری
استاد ناظر خارجی اول: خانم دکتر هدیه ساجدی (دانشگاه: تهران)
استاد مشاور اول: دکتر بهزاد اکبری
مکان: دانشکده مهندسی برق و کامپیوتر – طبقه چهارم آسانسور- طبقه هفت غربی - سالن جلسات
تاریخ: 98/06/31
ساعت: 08:00

چکیده: شناسایی رفتار انسان در ویدئو با توجه به کاربردهای بسیاری که در زمینه‌های مختلف از جمله امنیت، سلامت، مدیریت هوشمند شهر و ساختمان و ... دارد، طی چند سال اخیر توجه زیادی را به خود جلب کرده است. از سوی دیگر، رویکردهای یادگیری ژرف مانند CNN ها و RNN ها در زمینه‌های مختلف توانسته‌اند نتایج بسیار خوبی را کسب کنند. با این وجود، علی‌رقم وجود تغییرات زمانی قابل توجه در محتوای ویدئو، تاکنون شبکه‌های عصبی بازگشتی در شناسایی رفتار انسان ضعیف‌تر از روش‌های مبتنی بر شبکه‌های پیچشی عمل کرده‌اند. در این پژوهش با معرفی یک رویکرد سلسله مراتبی زمانی در دو سطح محلی و سراسری، با استفاده از شبکه‌های پیچشی متورم دو جریانی که از شبکه‌های عصبی پیچشی دو‌بعدی معروف برای دسته‌بندی تصاویر ایجاد شده‌اند و همچنین استفاده از پشته‌ای از لایه‌های GRU توانسته‌ایم رویکردی جدید برای شناسایی رفتار انسان در ویدئو ارائه دهیم. در این رویکرد ابتدا ویژگی‌های فضایی-زمانی را برای هر دو جریان فضایی و زمانی به صورت محلی با استفاده از I3D های فضایی و زمانی استخراج می‌کنیم که این کار باعث تبدیل دنباله طولانی قاب‌های یک ویدئو به یک دنباله کوتاه‌تر و حاوی اطلاعات مفیدتر می‌شود. این دنباله کوتاه‌شده را به شبکه‌ای از GRU ها می‌دهیم و در نهایت نیز نتایج دو جریان را تجمیع می‌کنیم. برای تجمیع نتایج یک لایه جدید با نام میانگین وزن‌دهی شده را معرفی می‌کنیم که اهمیت هر جریان را در فرایند آموزش به صورت خودکار فرا می‌گیرد. ارزیابی‌ها نشان‌دهنده نتایجی قابل قبول برای دو مجموعه داده HMDB51 و UCF101 هستند. روش پیشنهادی موجب 1.6 درصد بهبود در صحت دسته‌بندی نمونه‌های مجموعه داده پرچالش HMDB51 نسبت به نتایج گزارش شده بهترین روش موجود گردید.
کلمات کلیدی: شناسایی رفتار، واحد بازگشتی گیت‌دار، شبکه‌های عصبی پیچشی متورم، معماری دو جریانی.

27 آبان 1398 / تعداد نمایش : 1380