OpenAI با استفاده از مدل صوتی Whisper خود، بیش از یک میلیون ساعت از ویدئوهای یوتیوب را برای آموزش GPT-4، پیشرفتهترین مدل زبانی بزرگ خود، رونویسی کرده است. این شرکت میداند که از نظر قانونی استفاده از چنین دادههایی بحثبرانگیز است، اما ظاهراً اعتقاد دارد استفاده از این دادهها را باید منصفانه تلقی کرد.
به گزارش نیویورک تایمز،شرکتهای هوش مصنوعی برای توسعه هرچه بیشتر مدلهای پیشرفته خود، به دادههای بیشتری نیاز دارند و حالا بهنظر میرسد که این شرکتها در یافتن دادههای آموزشی باکیفیت با مشکل مواجه شدهاند. براساس گزارش نیویورک تایمز، در چنین مواقعی، جای تعجب نیست که این شرکتها بهسمت استفاده از دادههایی بروند که در ناحیه خاکستری و مبهم قانون کپیرایت هوش مصنوعی قرار دارند. ویدئوهای یوتیوب نیز ظاهراً برای OpenAI چنین وضعیتی دارد.
پیشازاین «نیل موهان»، مدیرعامل یوتیوب، درباره احتمال استفاده OpenAI از یوتیوب برای آموزش هوش مصنوعی تولید ویدئوی Sora صحبت کرده بود. سخنگوی گوگل گفته بود که این شرکت تدابیر فنی و قانونی را برای جلوگیری از چنین استفادههای غیرمجازی اتخاذ میکند.
به گفته سخنگوی OpenAI، این شرکت مجموعه دادههای منحصربهفردی را برای هر یک از مدلهای خود در نظر میگیرد تا به درک آنها از جهان کمک کند. او افزود که این شرکت از منابع متعددی از جمله دادههای در دسترس عموم و دادههای غیرعمومی استفاده میکند.
اما از سویی، گزارشها حاکی از آن است که OpenAI منابع دادههای آموزشی مجاز و قابل استفاده را در سال ۲۰۲۱ به پایان رسانده و حالا پس از بررسی منابع دیگر بهسمت رونویسی ویدئوها، پادکستها و کتابهای صوتی یوتیوب آمده است. تا آن زمان، این شرکت مدلهای خود را با دادههایی مثل کدهای گیتهاب و محتواهای تحصیلی Quizlet آموزش داده بود.
سخنگوی گوگل دراینباره گفته این شرکت گزارشهای تأییدنشدهای از فعالیت OpenAI را دیده است. به گفته او، هم فایلهای robots.txt و هم شرایط خدمات گوگل، حذف یا دانلود غیرمجاز محتوای یوتیوب را ممنوع کرده است.
منبع: دیجیاتو