شماره مدرك :
19144
شماره راهنما :
16596
پديد آورنده :
قمبري، علي
عنوان :

تشخيص هيجان از روي سيگنال گفتار براي كاربردهاي پزشكي و پژوهش در حوزه سلامت روان

مقطع تحصيلي :
كارشناسي ارشد
گرايش تحصيلي :
بيوالكتريك
محل تحصيل :
اصفهان : دانشگاه صنعتي اصفهان
سال دفاع :
1402
صفحه شمار :
چهارده، 116ص. : مصور، جدول، نمودار
توصيفگر ها :
استرس , سلامت روان , تشخيص هيجان , ساختار‌هاي ترنسفورمر , تنوع زباني
تاريخ ورود اطلاعات :
1402/10/10
كتابنامه :
كتابنامه
رشته تحصيلي :
مهندسي برق
دانشكده :
مهندسي برق و كامپيوتر
تاريخ ويرايش اطلاعات :
1402/10/16
كد ايرانداك :
2994601
چكيده فارسي :
رفتار انسان به منزله پنجره‌اي به سوي ذهن و شرايط رواني او مي باشد. يكي از نمودهاي رفتاري هر انسان كه تا حدي بازگو كننده حالات رواني و ذهني مي باشد، گفتار اوست. به طور خاص، گفتار انسان و چگونگي ادا كردن آن، اعم از ويژگي هاي صوتي و آوايي، لحن، شدت و يا سرعت آن، در كنار كلمات به كار رفته كه در مجموع براي بيان مقصود و رساندن پيام گوينده به كار گرفته مي‌شوند، بستري براي نمود هيجانات فرد نيز هستند. از اين منظر، پردازش و داده كاوي سيگنال گفتار مي‌تواند از ديد تحقيقات در حيطه بررسي سلامت روان و روانشناسي محاسباتي حايز اهميت باشد. از سوي ديگر در حوزه پزشكي و خدمات باليني، يكي از عوامل كليدي در تشخيص و درمان بيمار توسط پزشك معالج درك صحيحي از شرايط ذهني و هيجاني بيمار مي‌باشد. به عنوان مثال بسياري از اختلال هاي عملكردي نظير سندرم روده تحريك پذير، به شدت تحت تاثير عوامل روحي رواني از جمله استرس و اضطراب مي‌باشند. اين در حالي است كه معمولا بيماران هنگام بيان علايم جمساني خود از بازگو كردن هيجانات خود به پزشك (غير متخصص در حيطه روانشناسي و روانپزشكي) خودداري مي‌كنند. در سوي مقابل، پزشك معالج نيز تخصص و يا زمان كافي براي كشف هيجانات و زمينه هاي رواني از گفتار بيمار را ندارد. در اين ميان، روش‌هاي هوشمند براي تشخيص هيجان از روي گفتار ميتواند به عنوان يك راهنما و پشتيبان كمك تشخيصي ظاهر شود. در همين راستا در اين پايان نامه به مسئله تشخيص هيجان از گفتار (SER) با استفاده از روش‌هاي يادگيري عميق مي‌پردازيم . به طور مشخص در طي ارزيابي عملكرد روش‌ها و ساختار‌هاي متداول، ملاحضه شد كه استفاده از ساختار‌هاي مبتني بر مدل‌هاي ترنسفرمر كه پيش‌تر در پردازش متون بهره‌گيري شده‌اند در پردازش سيگنال گفتار و حل مسئله SER نيز مي‌توانند عملكرد خوبي داشته باشند. براي بهبود دقت و داشتن عموميت بيشتر مدل طراحي شده، از تركيب گفتار‌ها در زبان‌هاي مختلف استفاده شد. اين اقدام، به عنوان يك راه حل مناسب براي مواجهه با چالش‌هاي مربوط به تنوع زباني و محدوديت در گفتار‌ها مي‌تواند موثر باشد. در اين پژوهش علاوه بر هيجانات اوليه از هيجانات ثانويه نيز در راستاي ساخت مدلي كاربردي‌تر استفاده شد. همچنين در راستاي قدم برداشتن در بهره‌گيري بهتر و بيشتر اين روش‌ها در حوزه ارتباط بيمار و پزشك، بستري براي جمع‌آوري گويه بيماران و برچسب گذاري آن‌ها از نظر هيجانات در قالب يك وب سرويس طراحي گرديد.
چكيده انگليسي :
Human behavior can be seen as a window into their psychological states and mental conditions. One of the behavioral aspects of every individual that, to some extent, reflects their mental and cognitive states is their speech. Specifically, human speech and the way it is expressed—encompassing vocal and auditory features, tone, intensity, and speed—alongside the words employed to convey the speaker's message, serve as a platform for expressing emotions. From this perspective, speech signal processing and data mining can hold significance in the field of investigating mental health and computational psychology. Additionally, in the medical and clinical domain, one of the key factors in diagnosing and treating patients by attending physicians is obtaining a proper understanding of the patient's mental and emotional conditions. For instance, many functional disorders such as irritable bowel syndrome are heavily impacted by psychological factors including stress and anxiety. However, patients often restrain from sharing their emotions with physicians who lack expertise in psychology and psychiatry. On the other hand, treating physicians also lack the specialization or adequate time to uncover emotions and psychological contexts from the patient's speech. In this context, intelligent methods for emotion recognition from speech can serve as guiding and diagnostic aids. In this regard, this thesis addresses the issue of Speech Emotion Recognition (SER) using deep learning approaches. Notably, during the eva‎luation of methods and common structures, it was observed that the utilization of structures based on transformer models, previously applied in text processing, can perform well in processing speech signals and addressing the SER problem. To enhance accuracy and broaden the generality of the designed model, a combination of speeches in different languages was employed. This approach can be effective as a solution to tackle challenges associated with linguistic diversity and speech limitations. Moreover, in this research, apart from primary emotions, secondary emotions were also considered to construct a more practical model. Furthermore, in the direction of improving and further utilizing these methods in the patient-physician communication domain, a platform was developed for collecting patients' utterances and labeling them based on emotions, in the form of a web service.
استاد راهنما :
جلال ذهبي
استاد داور :
رسول امير فتاحي ورنوسفادراني , محمدرضا حيدرپور
لينک به اين مدرک :

بازگشت