سیستم ارزیابی LLMهای فارسی با همکاری مرکز تحقیقات هوش مصنوعی پارت و دانشگاه صنعتی امیرکبیر عرضه شد

Open Persian LLM Leaderboard

مرکز تحقیقات هوش مصنوعی  پارت با همکاری آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر، جامع‌ترین سیستم ارزیابی مدل‌های زبانی فارسی را تحت عنوان «Open Persian LLM Leaderboard» عرضه کرد.

مجموعه پارت در طی سال‌های فعالیت خود، همواره کوشیده تا با هم‌افزایی میان بخش صنعت و دانشگاه، مهم‌ترین نیازهای زیست‌بوم نوآوری و هوش مصنوعی کشور را رفع کند. امروزه یکی از برجسته‌ترین این نیازها، سنجه‌های ارزیابی مدل‌های زبانی هستند که امکان ارزیابی و مقایسه LLMهای فارسی را فراهم می‌کنند و تاکنون به دلایلی مانند عدم پشتیبانی سیستم‌های مشهور دنیا از زبان فارسی و جامع نبودن سنجه‌های توسعه‌یافته داخلی، فرصت بهره‌مندی مناسب از آنها وجود نداشت.

تجهیز اکوسیستم هوش مصنوعی کشور به سیستمی جامع برای ارزیابی مدل‌های زبانی فارسی، هدفی است که مرکز تحقیقات هوش مصنوعی پارت با همکاری آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی خانم دکتر سعیده ممتازی، استاد برجسته هوش مصنوعی کشور، در جهت تحقق آن گام برداشتند و موفق شدند کارآمدترین سنجه LLMهای فارسی را تحت عنوان Open Persian LLM Leaderboard در دسترس توسعه‌دهندگان داخلی قرار دهند. عرضه این سیستم، حاصل نخستین همکاری صنعت و دانشگاه در زمینه توسعه سنجه‌های ارزیابی LLMها است که توانسته به دستاوردهای درخشانی ختم شود.

مرکز تحقیقات هوش مصنوعی پارت با تأمین زیرساخت‌های ضروری و پایپ‌لاین ارزیابی منطبق با استانداردهایOpen LLM Leaderboard، زمینه توسعه این سیستم ارزیابی را فراهم آورد. علاوه‌بر این، سنجه LLMهای فارسی موفق شده به لطف تلاش‌های دکتر ممتازی، تمامی مجوزهای لازم را از جانب Open LLM Leaderboard دریافت کند تا نتیجه آزمایش‌ مدل‌‌ها در این مرجع مطرح بین‌المللی هم معتبر شناخته شود. از این طریق، توسعه‌دهندگان مدل‌های زبانی فارسی این فرصت را دارند که محصول خود را در سطح جهانی معرفی کنند و مقیاس فعالیت خود را گسترش دهند.

کسب رتبه نخست مسابقات PAN 2024؛ موفقیتی دیگر برای تیم NLP پارت
خواندن

به همراه این سیستم ارزیابی، یک جدول رتبه‌بندی مدل‌های زبانی نیز عرضه شده که جایگاه LLMها را بر اساس عملکرد و امتیاز کسب‌شده، طبقه‌بندی می‌کند. کاربران با مراجعه به این جدول، به‌سادگی مدل‌های مختلف را با یکدیگر مقایسه می‌کنند و بهترین گزینه را بر اساس نیاز خود انتخاب می‌کنند. به‌عنوان مثال، یک مدل زبانی که عملکرد خوبی در آنالیز داده‌های متنی ندارد، می‌تواند توانایی قابل‌توجهی در تحلیل داده‌های عددی و فرمول‌های ریاضی داشته باشد و به انتخاب اول کاربران برای انجام  امور محاسباتی و آماری تبدیل شود. در کنار این، Open Persian LLM Leaderboard فرصتی مناسب برای محققان و توسعه‌دهندگانی است که قصد ورود به عرصه مدل‌های زبانی را دارند تا با نمایش عملکرد محصول خود، توجه هزاران کاربر LLMهای فارسی را به خود جلب کنند.
این چارچوب ارزیابی، شامل بیش از 40 هزار نمونه از کلان‌داده‌های فارسی است که توسط تیم توسعه‌دهنده، از پایه (From scratch) جمع‌آوری و برچسب‌زنی شده است. علاوه‌بر این، برخی از معتبرترین بنچمارک‌های روز دنیا نیز به زبان فارسی بازگردانی و بومی‌سازی شده است. این سیستم با دریافت نمونه‌های جدید و به‌روزرسانی‌های مداوم، همواره عملکرد خود را بهبود می‌بخشد و هم‌پای نیاز‌های روز زیست‌بوم هوش مصنوعی کشور حرکت می‌کند.

تنوع داده‌ها و توانایی آزمایش مدل‌ها از جنبه‌های گوناگون، یکی از مهم‌ترین شاخصه‌های سیستم‌های ارزیابی کارآمد در سراسر دنیاست و Open Persian LLM Leaderboard نیز از این قاعده مستثنی نیست. این سیستم می‌تواند عملکرد LLMهای فارسی را در حوزه‌‌های گوناگونی از جمله پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی،‌ علوم‌انسانی و… هم‌سطح با دانش کارشناسی‌ارشد، محک بزند؛ درحالی‌که چارچوب‌های ارزیابی پیشین، تنها قادر به آزمایش LLMها تا سقف دانش دبیرستان بودند. ویژگی سنجش چندجانبه و حرفه‌ای، یکی از نقاط قوت اصلی این سیستم ارزیابی است که آن را در کنار شاخص‌ترین سنجه‌ها در سراسر دنیا قرار می‌دهد.

قسمت ششم هوشینو ؛ یادگیری ماشین و ربات‌های آینده
خواندن

«سیستم ارزیابی مدل‌های زبانی فارسی» هم‌اکنون عرضه شده و بخش محدودی از این سنجه به‌صورت متن‌باز از طریق وب‌سایت «HuggingFace» در دسترس توسعه‌دهندگان قرار دارد. علاقه‌مندان می‌توانند با مراجعه به لینک Open Persian LLM Leaderboard، مدل‌های زبانی فارسی را مورد بررسی و مقایسه قرار دهند و یا ارزیابی LLM خود را به این سنجه بسپارند.

این مطلب را با دوستان خود به اشتراک بگذراید: