پديد آورنده :
خالقي ممقاني، ميرمحمد
عنوان :
جايگذاري شيء مبتني بر گراف با استفاده از معناشناسي به كمك مدلهاي زباني براي تركيب تصاوير
مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
هوش مصنوعي و رباتيكز
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
صفحه شمار :
يازده، 98ص. : مصور، جدول، نمودار
توصيفگر ها :
جايگذاري اشياء , گرافهاي صحنه , مدلهاي زباني , شبكههاي عصبي گرافي , تركيب تصوير , مكانيزم توجه
تاريخ ورود اطلاعات :
1404/07/02
رشته تحصيلي :
مهندسي كامپيوتر
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1404/07/02
چكيده فارسي :
پژوهش حاضر به بررسي چالش پيچيده جاگذاري اشياء در تصاوير با رويكردي جديد مبتني بر يادگيري عميق ميپردازد كه از قابليتهاي پيشرفته درك صحنه و پردازش معنايي بهره ميگيرد. چارچوب پيشنهادي GraPLUS با تلفيق راهكارهاي يادگيري عميق و بازنمايي ساختاري صحنه، رويكردي نو براي تعيين موقعيتهاي متناسب با زمينه ارائه ميدهد. در اين پژوهش، از مدلهاي زباني از پيش آموزشديده براي تبديل اطلاعات صحنه به بازنماييهاي معنايي غني استفاده شده كه قادر به درك ظريف ويژگيهاي توصيفي و الگوهاي مكاني اشياء ميباشد، و اين امر فهم دقيق روابط پيچيده بين عناصر صحنه و الگوهاي جايگذاري را امكانپذير ميسازد. با بهرهگيري از معماريهاي عميق پيشرفته و سازوكارهاي توجه چندوجهي، اين چارچوب توانستهاست محدوديتهاي روشهاي پيشين را برطرف نمايد. نتايج آزمايشها نشان ميدهد كه GraPLUS با دستيابي به دقت جايگذاري 92/1 درصد و امتياز FID=28/83 در مجموعه داده OPA، عملكرد روشهاي موجود را 8/3 درصد بهبود بخشيده است. در مطالعات ارزيابي انساني با مشاركت 38 نفر و بررسي 964 نمونه، روش پيشنهادي در 51/8 درصد موارد بر ساير رويكردها برتري داشته است. نوآوريهاي اين پژوهش شامل طراحي معماري عميق براي پردازش ساختاري اطلاعات صحنه، بهرهگيري از مدلهاي از پيشآموزش ديده براي انتقال دانش بين دامنهها، توسعه سازوكارهاي توجه تخصصي براي جايگذاري اشياء و ايجاد چارچوب يكپارچه براي تركيب اطلاعات معنايي و هندسي ميباشد. ارزيابيهاي انجامشده، برتري GraPLUS را در جايگذاري دقيق اشياء با توانايي حفظ تناسبات هندسي و روابط معنايي در انواع مختلف صحنهها نشان ميدهد.
چكيده انگليسي :
This research addresses the complex challenge of object placement in images through an innovative deep learning-based approach that leverages advanced scene understanding and semantic processing capabilities. The proposed framework, GraPLUS, presents a unique method for context-aware positioning by intelligently integrating deep learning techniques with structural scene representation. Pretrained language models are utilized to transform scene information into rich semantic representations, enabling nuanced understanding of descriptive features and spatial patterns of objects. This facilitates precise interpretation of complex relationships among scene elements and placement patterns. By employing advanced deep architectures and multimodal attenThis research addresses the complex challenge of object placement in images through an innovative deep learning-based approach that leverages advanced scene understanding and semantiction mechanisms, the framework overcomes limitations of previous methods. Experimental results demonstrate that GraPLUS achieves a placement accuracy of 92.1% and an FID score of 28.83 on the OPA dataset, outperforming existing state-of-the-art methods by 8.3%. In human evaluation studies involving 38 participants and 964 samples, the proposed method outperformed other approaches in 51.8% of the cases. Key innovations of this research include the design of a deep architecture for structural scene information processing, the use of pretrained models for cross-domain knowledge transfer, the development of specialized attention mechanisms for object placement, and the creation of a unified framework for integrating semantic and geometric information. Extensive experiments highlight the superiority of GraPLUS in accurate object placement with a particular strength in preserving geometric consistency and semantic relationships across diverse scenes.
استاد راهنما :
مهران صفاياني
استاد مشاور :
عبدالرضا ميرزايي
استاد داور :
نادر كريمي , مازيار پالهنگ