مرکز تحقیقات هوش مصنوعی پارت با همکاری آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، جامعترین سیستم ارزیابی مدلهای زبانی فارسی را تحت عنوان «Open Persian LLM Leaderboard» عرضه کرد.
مجموعه پارت در طی سالهای فعالیت خود، همواره کوشیده تا با همافزایی میان بخش صنعت و دانشگاه، مهمترین نیازهای زیستبوم نوآوری و هوش مصنوعی کشور را رفع کند. امروزه یکی از برجستهترین این نیازها، سنجههای ارزیابی مدلهای زبانی هستند که امکان ارزیابی و مقایسه LLMهای فارسی را فراهم میکنند و تاکنون به دلایلی مانند عدم پشتیبانی سیستمهای مشهور دنیا از زبان فارسی و جامع نبودن سنجههای توسعهیافته داخلی، فرصت بهرهمندی مناسب از آنها وجود نداشت.
تجهیز اکوسیستم هوش مصنوعی کشور به سیستمی جامع برای ارزیابی مدلهای زبانی فارسی، هدفی است که مرکز تحقیقات هوش مصنوعی پارت با همکاری آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، در جهت تحقق آن گام برداشتند و موفق شدند کارآمدترین سنجه LLMهای فارسی را تحت عنوان Open Persian LLM Leaderboard در دسترس توسعهدهندگان داخلی قرار دهند. عرضه این سیستم، حاصل نخستین همکاری صنعت و دانشگاه در زمینه توسعه سنجههای ارزیابی LLMها است که توانسته به دستاوردهای درخشانی ختم شود.
مرکز تحقیقات هوش مصنوعی پارت با تأمین زیرساختهای ضروری و پایپلاین ارزیابی منطبق با استانداردهایOpen LLM Leaderboard، زمینه توسعه این سیستم ارزیابی را فراهم آورد. علاوهبر این، سنجه LLMهای فارسی موفق شده به لطف تلاشهای دکتر ممتازی، تمامی مجوزهای لازم را از جانب Open LLM Leaderboard دریافت کند تا نتیجه آزمایش مدلها در این مرجع مطرح بینالمللی هم معتبر شناخته شود. از این طریق، توسعهدهندگان مدلهای زبانی فارسی این فرصت را دارند که محصول خود را در سطح جهانی معرفی کنند و مقیاس فعالیت خود را گسترش دهند.
به همراه این سیستم ارزیابی، یک جدول رتبهبندی مدلهای زبانی نیز عرضه شده که جایگاه LLMها را بر اساس عملکرد و امتیاز کسبشده، طبقهبندی میکند. کاربران با مراجعه به این جدول، بهسادگی مدلهای مختلف را با یکدیگر مقایسه میکنند و بهترین گزینه را بر اساس نیاز خود انتخاب میکنند. بهعنوان مثال، یک مدل زبانی که عملکرد خوبی در آنالیز دادههای متنی ندارد، میتواند توانایی قابلتوجهی در تحلیل دادههای عددی و فرمولهای ریاضی داشته باشد و به انتخاب اول کاربران برای انجام امور محاسباتی و آماری تبدیل شود. در کنار این، Open Persian LLM Leaderboard فرصتی مناسب برای محققان و توسعهدهندگانی است که قصد ورود به عرصه مدلهای زبانی را دارند تا با نمایش عملکرد محصول خود، توجه هزاران کاربر LLMهای فارسی را به خود جلب کنند.
این چارچوب ارزیابی، شامل بیش از 40 هزار نمونه از کلاندادههای فارسی است که توسط تیم توسعهدهنده، از پایه (From scratch) جمعآوری و برچسبزنی شده است. علاوهبر این، برخی از معتبرترین بنچمارکهای روز دنیا نیز به زبان فارسی بازگردانی و بومیسازی شده است. این سیستم با دریافت نمونههای جدید و بهروزرسانیهای مداوم، همواره عملکرد خود را بهبود میبخشد و همپای نیازهای روز زیستبوم هوش مصنوعی کشور حرکت میکند.
تنوع دادهها و توانایی آزمایش مدلها از جنبههای گوناگون، یکی از مهمترین شاخصههای سیستمهای ارزیابی کارآمد در سراسر دنیاست و Open Persian LLM Leaderboard نیز از این قاعده مستثنی نیست. این سیستم میتواند عملکرد LLMهای فارسی را در حوزههای گوناگونی از جمله پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی، علومانسانی و… همسطح با دانش کارشناسیارشد، محک بزند؛ درحالیکه چارچوبهای ارزیابی پیشین، تنها قادر به آزمایش LLMها تا سقف دانش دبیرستان بودند. ویژگی سنجش چندجانبه و حرفهای، یکی از نقاط قوت اصلی این سیستم ارزیابی است که آن را در کنار شاخصترین سنجهها در سراسر دنیا قرار میدهد.
«سیستم ارزیابی مدلهای زبانی فارسی» هماکنون عرضه شده و بخش محدودی از این سنجه بهصورت متنباز از طریق وبسایت «HuggingFace» در دسترس توسعهدهندگان قرار دارد. علاقهمندان میتوانند با مراجعه به لینک Open Persian LLM Leaderboard، مدلهای زبانی فارسی را مورد بررسی و مقایسه قرار دهند و یا ارزیابی LLM خود را به این سنجه بسپارند.