هوش مصنوعی در حال تغییر دید ما از زبان و نحوه دسترسی به آن است و با پیشرفت آن در سالیان آتی، شاید شاهد تحول در زمینه ترجمه زنده و صحیح اغلب زبان‌های دنیا از جانب هوش مصنوعی باشیم.

به گزارش گروه وبگردی باشگاه خبرنگاران جوان، در عصر اینترنت، مردم به یکدیگر نزدیک و نزدیک‌تر می‌شوند. شما می‌توانید با دوست خود در هر کجای دنیا به صورت صوتی و تصویری تماس برقرار کنید یا بسیاری از کار‌های سنتی را که قبلا به ابزار و کاغذ و موارد دیگر نیاز داشت، تنها با موبایل هوشمند خود در کمترین زمان ممکن انجام دهید.

اما هرچه دنیا به هم نزدیکتر می‌شود، توجه ما بیشتر و بیشتر به سمت فضای مجازی معطوف می‌شود. ما ساعت‌ها در طول روز به گردش در برنامه‌هایی نظیر اینستاگرام می‌پردازیم و زمان کمتری را صرف تعامل مستقیم با یکدیگر می‌کنیم.

نقش هوش مصنوعی در دنیای امروز

هوش مصنوعی (AI) موضوعی است که جهان امروز ما را به شدت تحت تاثیر قرار داده است و مانند بسیاری از فناوری‌ها، مزایای فراوان و البته برخی معایب نیز دارد. این فناوری هم اکنون به سرعت در حال پیشرفت و توسعه است و حتی برخی را نسبت به سلطه بر انسان طی سال‌های آینده نگران کرده است.

سرشاخ شدن گوگل با مترجمان

شرکت گوگل در مارس ۲۰۲۱ از ویژگی "Live Captions" به معنای "زیرنویس یا عنوان زنده" خود در مرورگر‌های کروم (Chrome) رونمایی کرد. این ویژگی از فناوری یادگیری ماشینی استفاده می‌کند تا بلافاصله زیرنویس‌ها را روی هر کلیپ تصویری یا صوتی ایجاد کند و به افراد ناشنوا و کم شنوا دسترسی بیشتری به محتوای اینترنت بدهد.

در گذشته و امروز نیز از زیرنویس‌های از قبل تهیه شده برای قالب‌های ویدئویی استفاده می‌شود و یا اینکه یک تندنویس، تقریباً فوری و در لحظه مطالب را تایپ می‌کرد تا به عنوان زیرنویس پخش شود. با این حال، در جا‌هایی که زیرنویس معمول و رایج نیست، مانند برنامه‌هایی مانند اینستاگرام یا تیک‌تاک، یافتن زیرنویس‌ها تقریباً غیرممکن است.


بیشتر بخوانید: 

چهره ترسناک فناوری/ از هوش مصنوعی افسار گسیخته بترسید!


اکنون ویژگی "زیرنویس زنده" این موضوع را تغییر می‌دهد و هر کاربری با چند کلیک روی نمایشگر می‌تواند زیرنویس‌های آنی و دقیقی در اختیار داشته باشد که محتوا‌های صوتی و تصویری را در برمی‌گیرد.

ویژگی "زیرنویس زنده" شرکت گوگل نوعی "NLP" یا "پردازش زبان طبیعی" است. "NLP" نوعی هوش مصنوعی است که با استفاده از الگوریتم‌ها، برقراری تعامل میان مردم و ماشین‌ها را تسهیل می‌کند. "NLP" به ما کمک می‌کند تا زبان‌های انسانی را به زبان‌های ماشینی و برعکس ترجمه کنیم.

"آلن تورینگ" پدر هوش مصنوعی

برای درک تاریخچه "NLP" باید به سراغ یکی از باهوش‌ترین دانشمندان عصر مدرن به نام "آلن تورینگ" برویم. وی در سال ۱۹۵۰ مقاله " ماشین آلات رایانشی و هوش" را منتشر کرد که در مورد مفهوم رایانه‌های متفکر و دارای درک بحث می‌کرد.

وی در این مقاله ادعا کرد که هیچ استدلال قانع کننده‌ای علیه این ایده که ماشین‌ها می‌توانند مانند انسان فکر کنند، وجود ندارد و آزمون "بازی تقلید" (imitation game) را که اکنون به عنوان "آزمون تورینگ" شناخته می‌شود، ارائه کرد. "تورینگ" راهی برای سنجش اینکه آیا هوش مصنوعی می‌تواند به تنهایی فکر کند یا نه پیشنهاد کرد و گفت که اگر هوش مصنوعی بتواند انسانی را فریب دهد تا آن انسان باور کند که هوش مصنوعی احتمالا یک انسان است، می‌توان آن را هوشمند دانست.

"جوزف وایزنباوم" دانشمند آلمانی از سال ۱۹۶۴ تا ۱۹۶۶ یک الگوریتم "NLP" نوشت که معروف به "الیزا" (ELIZA) است. "الیزا" از تکنیک‌های تطبیق الگو برای ایجاد مکالمه استفاده کرده است. به عنوان مثال در یک مکالمه مربوط به مراجعه بیمار به پزشک، اگر بیمار به رایانه بگوید "سر من درد می‌کند"، این عبارت با عبارتی شبیه به "چرا سرت درد می‌کند؟ " پاسخ داده می‌شود. "الیزا" در حال حاضر به عنوان یکی از قدیمی‌ترین ربات‌های گفتگو و یکی از اولین الگوریتم‌هایی است که به نوعی در "آزمایش تورینگ" می‌تواند انسان را فریب دهد.

دهه ۱۹۸۰ نقطه عطف بزرگی در تولید "NLP" بود. در گذشته سیستم‌های "NLP" مانند "الیزا" با تکیه بر مجموعه‌ای پیچیده از قوانین، مکالمات را شکل می‌دادند و هوش مصنوعی نمی‌توانست برای خودش فکر کند. بلکه از پاسخ‌های از پیش آماده متناسب با موضوع گفتگو استفاده می‌کرد و وقتی یک انسان چیزی را به آن می‌گفت که پاسخی برای آن نداشت، با پاسخی نظیر "درباره این موضوع بیشتر به من بگویید" مواجه می‌شد.

"NLP" در اواخر دهه ۱۹۸۰ در عوض بر روی مدل‌های آماری متمرکز شد که به آن کمک می‌کرد مکالمات را بر اساس احتمال شکل دهد.

تشخیص گفتار مدرن "NLP" شامل چند اصل مشترک مانند تشخیص گفتار، تشخیص صدا، شناسایی زبان و خلاصه‌سازی است که می‌تواند بین سخنرانان تفاوت قائل شود.

سیستم "زیرنویس زنده" گوگل از سه مدل یادگیری عمیق برای تشکیل زیرنویس‌ها استفاده می‌کند: یک شبکه عصبی بازگشتی (RNN) برای تشخیص گفتار، یک RNN مبتنی بر متن برای تشخیص علائم نگارشی و یک شبکه عصبی حلقوی (CNN) برای طبقه‌بندی رویداد‌های صوتی. این سه مدل، سیگنال‌هایی را ارسال می‌کنند که با هم ترکیب می‌شوند و زیرنویس را تشکیل می‌دهند.

وقتی گفتار در قالب صوت یا تصویر تشخیص داده می‌شود، شبکه عصبی بازگشتی تشخیص خودکار گفتار (ASR RNN) فعال می‌شود و به دستگاه اجازه می‌دهد کلمات را به شکل متن درآورد. وقتی این گفتار متوقف می‌شود، به عنوان مثال وقتی موسیقی به جای آن پخش می‌شود، فعالیت تشخیص خودکار گفتار برای صرفه‌جویی در باتری موبایل با نمایش برچسب "موسیقی" در زیرنویس، متوقف می‌شود.

همانطور که متن گفتار به صورت زیرنویس تنظیم می‌شود، علائم نگارشی روی جمله کامل شکل می‌گیرد. علائم نگارشی به طور مداوم تنظیم می‌شوند تا زمانی که نتایج تشخیص خودکار گفتار با معنی جمله تداخل نداشته باشد.

در حال حاضر، ویژگی "زیرنویس زنده" تنها می‌تواند زیرنویس را برای متون و گفتار‌ها به زبان انگلیسی ایجاد کند، اما دائماً در حال بهبود است و در آینده نزدیک به زبان‌های دیگر نیز گسترش می‌یابد. هم اکنون نسخه‌های اولیه زیرنویس‌های اسپانیایی، آلمانی و پرتغالی در دسترس هستند.

"پروژه یوفونیا"

NLP‌های دسترسی محور فقط به ایجاد زیرنویس محدود نمی‌شوند. یکی دیگر از پروژه‌های گوگل، "پروژه یوفونیا" (Project Euphonia) است که با استفاده از NLP به افراد دارای اختلال گفتاری کمک می‌کند تا توسط نرم‌افزار تشخیص گفتار بهتر شنیده و درک شوند.

"پروژه یوفونیا" ۳۰۰ تا ۱۵۰۰ عبارت صوتی را از داوطلبان دارای اختلال گفتاری جمع‌آوری می‌کند. سپس می‌توان این نمونه‌های صوتی را به مدل‌های تشخیص گفتار داده و برای آموزش انواع نقص گفتار تغذیه کرد. علاوه بر این، این برنامه سیستم‌های صوتی ساده شده‌ای ایجاد می‌کند که می‌توانند با استفاده از ردیابی صورت یا صدا‌های ساده اعمال مختلفی مانند روشن کردن چراغ یا پخش یک آهنگ خاص را انجام دهند.

یکی از جدیدترین شبکه‌های عصبی بازگشتی تشخیص خودکار گفتار گوگل در تلاش است تا نحوه تعامل ما با دیگران را تغییر دهد و دامنه ارتباط را گسترش دهد. حالت "مترجم گوگل" (Google Interpreter) برای شناسایی آنچه شما می‌گویید از تشخیص خودکار گفتار استفاده می‌کند و ترجمه دقیق آن را به زبان دیگری پخش می‌کند و به طور موثر مکالمه‌ای را بین افراد دارای زبان‌های متفاوت ایجاد می‌کند و موانع زبانی را از بین می‌برد.

هنوز چند مشکل در سیستم تشخیص خودکار گفتار (ASR) وجود دارد. ماشین‌ها در مشکلی که اغلب "شکاف لهجه هوش مصنوعی" نامیده می‌شوند، گاهی اوقات در درک افراد با لهجه‌ها یا گویش‌های غلیظ مشکل دارند. در حال حاضر این مشکل به شکل مورد به مورد حل می‌شود.

دانشمندان تمایل دارند از یک مدل "لهجه واحد" استفاده کنند که در آن الگوریتم‌های مختلف برای گویش‌ها یا لهجه‌های مختلف طراحی شده است. به عنوان مثال، برخی از شرکت‌ها با استفاده از سیستم‌های جداگانه تشخیص خودکار گفتار برای تشخیص گویش‌های مکزیکی-اسپانیایی در مقابل گویش‌های اسپانیایی-اسپانیایی آزمایش کرده‌اند.

در نهایت، بسیاری از این سیستم‌های تشخیص خودکار گفتار نشان دهنده درجه‌ای از سوگیری و تعصب ضمنی است. در ایالات متحده، گویش انگلیسی بومی آفریقایی-آمریکایی که به آن "AAVE" نیز گفته می‌شود، گویشی کاملاً رایج از انگلیسی سنتی است که معمولاً توسط آمریکایی‌های آفریقایی‌تبار صحبت می‌شود. با این حال، مطالعات متعدد اختلافات نژادی قابل توجهی را در میزان خطای سیستم‌های مختلف تشخیص خودکار گفتار پیدا کرده است. به عنوان مثال یک مطالعه که نشان می‌دهد که میانگین خطا برای سیاه‌پوستان در برنامه‌های تشخیص خودکار گفتار شرکت‌های آمازون، اپل، گوگل، آی‌بی‌ام و مایکروسافت تقریبا دو برابر سفیدپوستان است.

ایجاد آموزش متنوع‌تر برای هوش مصنوعی که شامل لهجه‌های محلی، گویش‌های مختلف و عامیانه است می‌تواند به کاهش اختلاف در دقت تشخیص خودکار گفتار برای نژاد‌ها و قومیت‌های مختلف کمک کند.

این فناوری پتانسیلی باورنکردنی برای گردهم آوردن مردم دارد، اما وقتی دچار تعصب و جهت‌گیری می‌شود، می‌تواند یک نیروی تفرقه افکن و منزوی کننده باشد. ما به لطف فناوری پردازش زبان طبیعی (NLP) در حال شروع به پر کردن این شکاف برای ایجاد آینده‌ای بهتر هستیم.

منبع: ایسنا

انتهای پیام/ 

اخبار پیشنهادی
تبادل نظر
آدرس ایمیل خود را با فرمت مناسب وارد نمایید.