گروهی از پژوهشگران اخیرا یک معیار جدید برای ارزیابی توانایی سه مدل زبانی بزرگ در پاسخدهی به پرسشهای تاریخی طراحی کردهاند. این معیار که «Hist-LLM» نام دارد، بهطور خاص درستی پاسخهای تولیدی مدلها را با استفاده از بانک اطلاعات تاریخی جامع «سشات» (Seshat) آزمایش میکند. سشات یک پایگاه داده معتبر و گسترده است که اطلاعات مهم و دقیق تاریخی را از سراسر جهان در خود جمعآوری کرده و نامش از ایزدبانوی خرد مصر باستان گرفته شده است.
براساس نظر پژوهشگران، هدف اصلی این تحقیق این است که حتی اگر مدلهای زبانی بزرگ (LLMs) در بسیاری از زمینهها و برای پاسخ به سوالات ساده و عمومی تواناییهای چشمگیری از خود نشان دهند، هنوز برای درک و تحلیل دقیق تاریخ در سطوح پیچیده و تخصصی، بهویژه در حوزههای مطالعاتی پیشرفته مانند تاریخنگاری و پژوهشهای دکتری، کافی و مؤثر نیستند. این مدلها ممکن است در مواردی که نیاز به اطلاعات سطحی و عمومی دارند عملکرد خوبی داشته باشند، اما وقتی به حقایق پیچیدهتری از تاریخ اشاره میشود، هنوز نمیتوان به آنها اعتماد کامل داشت و در بسیاری از مواقع دقت لازم را ندارند.
نتایج این پژوهشها بهنوعی هشدار میدهند که هوش مصنوعی، هرچند میتواند ابزاری مفید در زمینههای مختلف باشد، اما در برخی حوزهها همچنان نیاز به پیشرفت و بهبود قابل توجهی دارد.
منبع: برنا