تحلیل داده های صوتی با استفاده از یادگیری عمیق

در این آموزش ، ما به تحلیل صوت با استفاده از یادگیری عمیق خواهیم پرداخت. همچنین ، با مدیریت داده ها در حوزه صوت و کاربرد های پردازش صوت آشنا خواهیم شد. به علاوه ، برای درک بهتر تحلیل داده های صوتی از نمودار ها استفاده خواهیم کرد.

مقدمه ای بر تحلیل صوت

ما همیشه با صدا ها سروکار داریم، گاهی مستقیم یا شاید گاهی غیرمستقیم. مغز ما به طور مداوم کار می کند، بنابراین مغز در هر لحظه اطلاعات را پردازش و درک می کند. و درنهایت ، اطلاعات مربوط به محیط را به ما ارائه می دهد تا ما محیط اطراف را درک کنیم.

گاهی اوقات صدا هایی را در اطرافمان می شنویم و به نظرمان مفید و جالب هستند. ابزارهایی هستند که به دریافت این صدا ها کمک می کنند و همچنین می توانند در فرمت قابل خواندن توسط کامپیوتر نمایش داده می شوند.

برخی از این فرمت ها عبارتند از:

فرمت wav ( Waveform Audio File )
فرمت mp3 ( MPEG-1 Audio Layer 3 )
فرمت WMA ( Windows Media Audio )

در نهایت اگر کمی بیشتر این صدا ها را بررسی کنیم به این نتیجه می رسیم که صوت ، یک قالب موجی شکل از داده هاست، که می تواند به صورت زیر نمایش داده شود.

بیایید یادگیری انتقالی برای یادگیری عمیق با CNN را مجددا مرور کنیم

مدیریت داده ها در حوزه صوت

از آنجا که در حال حاضر، برخی فرمت های داده بدون ساختار وجود دارند، لذا برای آن داده های صوتی ، به چند مرحله پیش پردازش نیاز داریم که باید قبل از تجزیه و تحلیل صوتی ، انجام گیرد.

در مرحله اول، ما باید داده ها را در فرمت قابل فهم برای ماشین بارگذاری کنیم. برای این کار ، ما به سادگی بعد از هر بازه زمانی مشخص , از مقادیر نمونه می گیریم.

به عنوان مثال ، در یک فایل صوتی ۲ ثانیه ای ، مقادیر را در هر نیم ثانیه استخراج می کنیم. به این کار ، نمونه گیری از داده های صوتی و به میزان نمونه برداری از آن ها ، نرخ نمونه برداری ( Sampling Rate ) گفته می شود.

ما می توانیم آن را به روش دیگری نمایش دهیم. می توانیم داده ها را به یک حوزه دیگری به نام حوزه فرکانس تبدیل کنیم. وقتی یک داده صوتی را نمونه برداری می کنیم ، برای نمایش کل داده ها به نقاط داده بیشتری نیاز داریم. همچنین نرخ نمونه برداری باید تا حد امکان بالا باشد.

به این ترتیب ، اگر داده های صوتی را در حوزه فرکانس نشان دهیم، آنگاه فضای محاسباتی بسیار کمتری مورد نیاز است. برای درک شهودی ، به تصویر زیر نگاهی بیندازید

در اینجا ، ما باید یک سیگنال صوتی را به ۳ سیگنال خالص مختلف تفکیک کنیم ، که به راحتی می تواند به عنوان سه مقدار منحصر به فرد در یک حوزه فرکانس باشد.

همچنین راه های دیگری نیز وجود دارند که در آن ها می توانیم داده های صوتی و تحلیل صوتی آن را ارائه کنیم.

برای مثال، با استفاده از MFC ( فرکانس مل کپستروم ) ها. که چیزی نیستند جز روش های مختلف برای نمایش داده ها.

علاوه بر این ، ما باید ویژگی هایی را از این نمایش های صوتی استخراج کنیم. که این الگوریتم بر روی این ویژگی ها کار می کند و وظیفه ای را که برای آن طراحی شده است انجام می دهد. در اینجا یک نمایش بصری از دسته های ویژگی های صوتی قابل استخراج وجود دارد.

پس از استخراج ، باید آن را برای تجزیه و تحلیل بیشتر به مدل یادگیری ماشین بفرستیم.

کاربرد های پردازش صوت

فهرست بندی مجموعه ای از موزیک ها با توجه به ویژگی های صوتی آن ها.
پیشنهاد دادن موسیقی برای کانال های رادیویی
جستجوی شباهت فایل های صوتی ( مانند برنامه Shazam )
پردازش و سنتز گفتار – تولید صدای مصنوعی برای عوامل گفتگو

نتیجه گیری

در نتیجه ، ما تحلیل صوت و داده گردانی را در یک حوزه صوتی با کاربرد های پردازش صدا مورد مطالعه قرار داده‌ایم. همچنین ، ما از نمودار هایی برای کمک به شما در درک بهتر داده های صوتی استفاده کرده ایم