درحالحاضر حدود ۷۰۰۰ زبان در جهان شناخته شده است که برخی از آنها مؤلفههای نوشتاری ندارند. این نوع زبانها که از آنها بهعنوان «زبانهای نانوشته» یاد میشود، مشکل منحصربهفردی برای سیستمهای ترجمهی یادگیری ماشینی مدرن ایجاد میکنند؛ زیرا چنین سیستمهایی برای تبدیل یک متن از زبانی به زبان دیگر، به گفتاری نیاز دارند که بتوان آن را به نوشتار تبدیل کرد. بههرحال گزارش شده است که متا درحالحاضر سعی دارد با هوش مصنوعی، این مشکل را رفع کند.
متا اکنون مشغول توسعهی سیستم ترجمهی گفتار به گفتار لحظهای است تا ساکنان متاورس بتوانند راحتتر با یکدیگر تعامل داشته باشند. محققان این شرکت اکنون بهعنوان بخشی از این پروژه که مترجم متن گفتاری جهانی متا (UST) نام دارد، سعی دارند سیستمی برای ترجمهی زبان Hokkien به انگلیسی ایجاد کنند. این زبان نانوشته در سرتاسر دیاسپورای آسیا مورداستفاده قرار میگیرد و یکی از زبانهای رسمی تایوان است. دیاسپورا به افراد مهاجری اطلاق میشود که خارج از کشور محل تولد یا اصل و نسب خود، بهصورت موقت یا دائم ساکن هستند، اما روابط عاطفی و مادی خود را با کشورهای مبدأ همچنان حفظ میکنند.
به گزارش انگجت، آموزش اولیهی سیستمهای ترجمهی مبتنیبر یادگیری ماشینی، معمولاً به نمونههای قابل برچسبگذاری گسترده از زبان بهصورت نوشتاری یا گفتاری نیاز دارد و این دقیقاً مؤلفهای است که زبانهای نانوشته مانند Hokkein از آن بیبهره هستند. مارک زاکربرگ، مدیرعامل متا در پستی وبلاگی توضیح داد:
ما برای رفع مشکل زبانهای نانوشته، از ترجمهی گفتار به واحد (S۲UT) برای تبدیل گفتار به دنبالهای از واحدهای صوتی که متا قبلاً در آن پیشگام بوده است، استفاده کردیم. سپس شکل موجها را براساس واحدها ایجاد کردیم. علاوهبراین از UnitY بهعنوان مکانیزم رمزگشایی استفاده شد که اولین گذر متنی را به یک زبان مرتبط (مثل ماندارین) ایجاد میکند و رمزگشای گذر دوم نیز وظیفهی ساخت واحدها را برعهده دارد.
زاکربرگ در تکمیل توضیحات خود گفت:
ما از ماندارین بهعنوان یک زبان میانی برای ساختن برچسبهای کاذب استفاده کردیم، جاییکه ابتدا گفتار انگلیسی (یا Hokkien) را به متن ماندارین و سپس به Hokkien (یا انگلیسی) ترجمه کردیم و دادههای آموزشی نیز دراین مرحله به آن اضافه شد.
درحالحاضر سیستم مترجم متن هوش مصنوعی متا به افرادی که با زبان Hokkien صحبت میکند اجازه میدهد تا با کسی که انگلیسی حرف میزنند صحبت کنند. این مدل میتواند بهطور لحظهای فقط یک جملهی کامل را درک و آن را ترجمه کند، اما زاکربرگ اطمینان دارد که تکنیک متا درنهایت میتواند برای ترجمهی زبانهای دیگر نیز مورد استفاده قرار گیرد و ترجمهی بلادرنگ آن نیز بهبود یابد.
بنر تسک میران
متا علاوهبر ارائهی مدلها و دادههای آموزشی بهعنوان پروژههای منبعباز، اولین سیستم محکگذاری ترجمهی گفتار به گفتار را براساس مجموعه گفتار Hokkien در سرتاسر تایوان منتشر میکند. زاکربرگ اعلام کرده است که ماتریس گفتار، مجموعهی بزرگی از ترجمههای گفتار به گفتار است که با تکنیک دادهکاوی مبتکرانهی متا موسوم به لیزر استخراج شده است و به محققان اجازه میدهد تا با استفاده از آن، سیستمهای ترجمهی گفتار به گفتار (S۲ST) خود را ایجاد کنند.