ارائۀ نسخۀ ۹۰+ میلیارد توکنی «توکا» به‌شکل منبع‌باز؛ امکان تازه‌ای برای توسعۀ ابزارهای هوشمند فارسی

bert

مرکز تحقیقات هوش مصنوعی پارت در مسیر حمایت از زیست‌بوم هوش مصنوعی فارسی، مدل زبانی «توکا» را که مبتنی برlarge  BERT است، برای اولین بار در ایران به زبان فارسی توسعه داده و با هدف تسهیل توسعۀ محصولات هوشمند، به شکل منبع‌باز در اختیار توسعه‌دهندگان، علاقه‌مندان و کسب‌وکارها قرار داده است.

این مدل زبانی، با حجم داده 500 گیگابایت معادل 90 میلیارد توکن، در اختیار عموم قرار گرفته تا توسعه‌دهندگان و فعالان زیست‌بوم فناوری ایران با بهره‌گیری از آن بتوانند محصولات هوشمند خود را راحت‌تر از قبل توسعه و بهبود دهند و در این مسیر از پشتیبانی و کمک متخصصان پارت نیز بهره‌مند شوند.

گروه دانش‌بنیان پارت علاوه بر نسخه large این مدل، نسخه پایه آن را نیز به‌صورت متن‌باز ارائه کرده که کیفیت و دقت بالاتری در مقایسه با دیگر نسخه‌های موجود دارد. انتشار مدل زبانی «توکا» به‌صورت منبع‌باز، پشتوانه‌ای برای توسعۀ محصولات هوشمندی مانند دستیاران صوتی، برنامه‌های تعاملی، چت‌بات‌ها و تولید محتوا است که کسب‌وکارها و کاربران‌شان به آن‌ها نیاز دارند.

شایان ذکر است، مدل زبانی «توکا» که به عنوان سنگ بنای توسعۀ تجاری محصولات این مجموعه دانش‌بنیان، از جمله سرویس‌های هوشمند ابری سهاب،  سرویس تبدیل صوت به متن «آوانگار»، سرویس تبدیل متن به صوت «آواشو»، چت‌بات هوشمند «دانابات» و سرویس تبدیل تصویر به متن «نویسه‌نگار» مورد استفاده قرار گرفته بود، از این پس جای خود را به مدلی قدرتمندتر و با حجم بالاتر به نام «درنا» که در گروه پارت توسعه داده شده، خواهد داد. با حضور مدل زبانی بزرگ «درنا» با ۱۳ میلیارد پارامتر، شاهد پیشرفت چشمگیر ابزارها و خدمات هوشمند مرکز تحقیقات هوش مصنوعی پارت خواهیم بود.علاقه‌مندان می‌توانند برای دسترسی به مدل منبع‌باز «توکا» اینجا کلیک کنند.

پارت دانش‌‎بنیان، از حامیان اصلی رویداد تکوست
خواندن

این مطلب را با دوستان خود به اشتراک بگذراید: