توصيفگر ها :
استرس , سلامت روان , تشخيص هيجان , ساختارهاي ترنسفورمر , تنوع زباني
چكيده فارسي :
رفتار انسان به منزله پنجرهاي به سوي ذهن و شرايط رواني او مي باشد. يكي از نمودهاي رفتاري هر انسان كه تا حدي بازگو كننده حالات رواني و ذهني مي باشد، گفتار اوست. به طور خاص، گفتار انسان و چگونگي ادا كردن آن، اعم از ويژگي هاي صوتي و آوايي، لحن، شدت و يا سرعت آن، در كنار كلمات به كار رفته كه در مجموع براي بيان مقصود و رساندن پيام گوينده به كار گرفته ميشوند، بستري براي نمود هيجانات فرد نيز هستند. از اين منظر، پردازش و داده كاوي سيگنال گفتار ميتواند از ديد تحقيقات در حيطه بررسي سلامت روان و روانشناسي محاسباتي حايز اهميت باشد. از سوي ديگر در حوزه پزشكي و خدمات باليني، يكي از عوامل كليدي در تشخيص و درمان بيمار توسط پزشك معالج درك صحيحي از شرايط ذهني و هيجاني بيمار ميباشد. به عنوان مثال بسياري از اختلال هاي عملكردي نظير سندرم روده تحريك پذير، به شدت تحت تاثير عوامل روحي رواني از جمله استرس و اضطراب ميباشند. اين در حالي است كه معمولا بيماران هنگام بيان علايم جمساني خود از بازگو كردن هيجانات خود به پزشك (غير متخصص در حيطه روانشناسي و روانپزشكي) خودداري ميكنند. در سوي مقابل، پزشك معالج نيز تخصص و يا زمان كافي براي كشف هيجانات و زمينه هاي رواني از گفتار بيمار را ندارد. در اين ميان، روشهاي هوشمند براي تشخيص هيجان از روي گفتار ميتواند به عنوان يك راهنما و پشتيبان كمك تشخيصي ظاهر شود. در همين راستا در اين پايان نامه به مسئله تشخيص هيجان از گفتار (SER) با استفاده از روشهاي يادگيري عميق ميپردازيم . به طور مشخص در طي ارزيابي عملكرد روشها و ساختارهاي متداول، ملاحضه شد كه استفاده از ساختارهاي مبتني بر مدلهاي ترنسفرمر كه پيشتر در پردازش متون بهرهگيري شدهاند در پردازش سيگنال گفتار و حل مسئله SER نيز ميتوانند عملكرد خوبي داشته باشند. براي بهبود دقت و داشتن عموميت بيشتر مدل طراحي شده، از تركيب گفتارها در زبانهاي مختلف استفاده شد. اين اقدام، به عنوان يك راه حل مناسب براي مواجهه با چالشهاي مربوط به تنوع زباني و محدوديت در گفتارها ميتواند موثر باشد. در اين پژوهش علاوه بر هيجانات اوليه از هيجانات ثانويه نيز در راستاي ساخت مدلي كاربرديتر استفاده شد. همچنين در راستاي قدم برداشتن در بهرهگيري بهتر و بيشتر اين روشها در حوزه ارتباط بيمار و پزشك، بستري براي جمعآوري گويه بيماران و برچسب گذاري آنها از نظر هيجانات در قالب يك وب سرويس طراحي گرديد.
چكيده انگليسي :
Human behavior can be seen as a window into their psychological states and mental conditions. One of the behavioral aspects of every individual that, to some extent, reflects their mental and cognitive states is their speech. Specifically, human speech and the way it is expressed—encompassing vocal and auditory features, tone, intensity, and speed—alongside the words employed to convey the speaker's message, serve as a platform for expressing emotions. From this perspective, speech signal processing and data mining can hold significance in the field of investigating mental health and computational psychology. Additionally, in the medical and clinical domain, one of the key factors in diagnosing and treating patients by attending physicians is obtaining a proper understanding of the patient's mental and emotional conditions. For instance, many functional disorders such as irritable bowel syndrome are heavily impacted by psychological factors including stress and anxiety. However, patients often restrain from sharing their emotions with physicians who lack expertise in psychology and psychiatry. On the other hand, treating physicians also lack the specialization or adequate time to uncover emotions and psychological contexts from the patient's speech. In this context, intelligent methods for emotion recognition from speech can serve as guiding and diagnostic aids. In this regard, this thesis addresses the issue of Speech Emotion Recognition (SER) using deep learning approaches. Notably, during the evaluation of methods and common structures, it was observed that the utilization of structures based on transformer models, previously applied in text processing, can perform well in processing speech signals and addressing the SER problem. To enhance accuracy and broaden the generality of the designed model, a combination of speeches in different languages was employed. This approach can be effective as a solution to tackle challenges associated with linguistic diversity and speech limitations. Moreover, in this research, apart from primary emotions, secondary emotions were also considered to construct a more practical model. Furthermore, in the direction of improving and further utilizing these methods in the patient-physician communication domain, a platform was developed for collecting patients' utterances and labeling them based on emotions, in the form of a web service.