پديد آورنده :
جمالي، مبين
عنوان :
طراحي و پياده سازي سخت افزاري يك سيستم بازشناسي گفتار فارسي براي تشخيص اعداد
مقطع تحصيلي :
كارشناسي ارشد
محل تحصيل :
اصفهان: دانشگاه صنعتي اصفهان، دانشكده برق و كامپيوتر
صفحه شمار :
چهارده، 131ص.: مصور
استاد راهنما :
وحيد غفاري نيا، محمدعلي منتظري
استاد مشاور :
شهاب الدين رحمانيان
توصيفگر ها :
تشخيص كلمات مجزا , كوانتيزاسيون برداري
تاريخ ورود اطلاعات :
1395/02/06
دانشكده :
مهندسي برق و كامپيوتر
چكيده فارسي :
چكيده امروزه جايگاه ويژه اي كه واسطهاي كاربري صوتي و سيستتم هتاي بازشناستي گفتتار در علتوم نظتامي علتوم پزشتكي سيستتمهتاي اتومبيلها و آموزش پيدا كرده اند توجه طراحان را براي بهبود اين سيستمها به خود جلب كرده است دستيابي به عملكرد قابل قبول در اين سيستم ها از نظر دقت در تشخيص و سرعت چالش اصلي طراحان آنها ميباشد از مهمترين زمينههاي بازشناسي گفتار تشخيص كلمتات مجزا ميباشد در بين كلمات تعريف شده در پايگاه واژگان سيستمهاي تشخيص كلمات مجزا اعداد از اهميت باالتري برخوردار هستند يكي از مهمترين عوامل كاهش دقت در يك سيستم تشخيص اعداد وجود كلمات با واكته مشتابه در بتين ارقتام تعريتف شتده در پايگتاه واژگان سيستم ميباشد از آنجايي كه واكه يك كلمه بخش عمده سيگنال صوتي آن كلمه را شامل ميشود تشخيص كلمه تنها معطوف به تشخيص واكه آن شده و كمرنگ شدن همخوانهاي كلمه در روند تشخيص باعث بروز خطا ميشود در اين پاياننامه بته منظتور رفتع چالش فوق يك روش تشخيص مبتني بر استفاده از همخوان آغازين كلمه به عنوان يك تشخيص دهنده كمكي ارائه شده و يك سيستتم تشخيص ارقام مستقل از گوينده بر اساس آن طراحي شده است روش معرفي شده مبتني بر كوانتيزاسيون برداري ميباشد بته نحتوي كته عالوه بر ساخت يك كتابكد به ازاي هر يك از كلمات داخل پايگاه واژگان سيستم يك كتابكد كمكي نيز بر اساس همخوان آغازين آن ساخته ميشود و نتيجه تشخيص وابسته به هر دو كتابكد ميباشد يكي از معايب روش VQ حجم محاسبات باال و زمانبر بودن آن به ازاي بزرگ بودن اندازه كتابكدها و طول سيگنال صوتي است براي حل اين مشكل روشهاي متعتددي جهتت تستريع VQ ارائته شتده است از مهمترين نقاط ضعف روشهاي ارائه شده در نظر نگرفتن بار محاسباتي الزم جهت اجراي آنها ميباشد كه باعث بهينه نبودن اين روشها شده است در اين پايان نامه يك روش تسريع VQ مبتني بر بكارگيري مزاياي دو روش ارائه شده در اين زمينه معرفي شده استت روش پيشنهادي با حذف كلمهكدهاي غير ضروري در كوانتايز سيگنال صوتي طي دو مرحله قادر بته تستريع رونتد VQ متيباشتد مزيتت اصلي روش پيشنهادي پايين بودن حجم محاسبات در اجراي آن است از ديگر اهداف اين پايان نامه پيادهسازي سيستم تشخيص ارقام بتر روي FPGA ميباشد پيادهسازي سيستم فوق به صورت بالدرنگ بوده و به صورت مميز ثابت انجام شده است بته منظتور كتاهش منتابع سختافزاري در سيستم پيادهسازي شده از ساختار خطلولهاي استفاد شتده استت طراحتي ايتن سيستتم بتا استتفاده از نترمافتزار System Generator ساخت شركت Xilinx انجام شده و در انتها سيستم نهايي بر روي تراشه Zynq پيادهسازي شده است كلمات كليدي تشخيص كلمات مجزا همخوان كوانتيزاسيون برداري پيادهسازي سختافزاري
چكيده انگليسي :
132 Design and Hardware Implementation of a Persian Speech Recognition System for Spoken Digits Mobin Jamali Mobin jamali@ec iut ac ir Data of submitions Wednesday January 13 2016 Department of Electrical and Computer Engineering Isfahan University of Technology Isfahan IranDegree Master of ScinceSupervisor Dr Vahid Ghafarinia Dr Mohamad Ali MontazeriAbstract Nowadays Speech recognition systems SRS and voice user interfaces are an integrated partof many equipment and instruments with a diverse range of applications such as personal cellphones automobiles and military aircrafts Despite the rapid development of speech recognitionsystems there still exist challenges regarding the accuracy and speed of these systems Isolatedword recognition IWR is a major subclass of SRS in which the spoken words e g digits areclassified based on a vocabulary of known words In an isolated digit recognition system the digitswith similar vowels are most likely to be misclassified due to the essential contribution of thevowels in constructing the speech signal To cope with this problem a novel method is introducedin this project in which the beginning consonants of the spoken digits are taken into account as anauxiliary classifier for word recognition This concept was used to design and implement a speaker independent isolated word recognition system for recognizing the Persian digits Vectorquantization was selected as the classifier and two codebooks were constructed for each digit Thefirst codebook represents the entire speech signal while the other one only accounts for thebeginning consonant of each digit The final decision in the designed IWR system is made based onthe weighted results of the two classifiers To further enhance the performance of the designed IWRsystem a fast search algorithm was developed and used in the vector quantization The proposedsearch algorithm could remarkably reduce the computation cost with subtle effect on theclassification results The performance of the designed IWR system was experimentally verifiedand compared with other methods The results showed that the proposed two classifier approachcan improve the recognition accuracy especially when dealing with words of similar vowel Another part of this project was the hardware implementation of the designed IWR system toprovide a real time solution A pipeline approach was followed and all parts of the system wereoptimized and implemented on a Zynq FPGA The results of experiments on the designed FPGAcore successfully verified those obtained by the software implementation of the IWR system Keyword Isolated word Recognition consonant vector quantization hardwareimplementation
استاد راهنما :
وحيد غفاري نيا، محمدعلي منتظري
استاد مشاور :
شهاب الدين رحمانيان