پردازش گفتار

یادگیری ماشین در پی آن است تا توانایی های برخواسته از هوشمندی انسان را تقلید کند و در صورت امکان مظاهر جدیدی از هوشمندی را ارائه کند. یکی از این توانایی ها قابلیت ایجاد ارتباط از طریق گفتار است. پردازش گفتار به استخراج اطلاعات از داده های صوتی می پردازد همچنان که نگاهی به تبدیل متن به گفتار دارد. متن گفته شده، احساس، جنسیت، سن، میزان خواب آلودگی یا هوشیاری و هویت از جمله اطلاعات قابل استخراج از داده های صوتی اند. با توجه به زمان زیادی که امروزه در شبکه های اجتماعی و فضای مجازی صرف می شود و همچنین وجود آرشیو های عظیم صوتی با کمک سیستم های پردازش گفتار، اطلاعات ارزشمندی از این داده های صوتی قابل استخراج است.

کاربرد ها

تبدیل متن به صوت

برای ایجاد ارتباط از طریق نوشتار و متن به استفاده از قوه بینایی و چشم نیاز است. در مواردی که اماکن استفاده از این قوه نیست می توان داده متنی را به صوت متناظر آن تبدیل کرد. خواندن اعلان ها و پیام های تلفن همراه هنگام رانندگی، کمک به نابینایان و ایجاد کتاب های صوتی از جمله این موارد هستند. در مجموع می توان توانایی تکلم را به ماشین ها اعطا کرد.

احراز هویت از طریق صوت

با گسترش روزافزون استفاده از وسایل دیجیتال لزوم حفظ امنیت و حریم خصوصی روز به روز بیشتر می شود. یکی از مواردی که می توان از آن برای احراز هویت استفاده کرد صدای افراد است. به عناون مثال می توان جهت بازکردن قفل گوشی یا برنامه ها از صوت کمک گرفت یا اینکه تشخیص داد از بین افراد از پیش شناخته شده چه کسی است که اکنون صحبت می کند.

سرویس های پردازش گفتار