داده‌کاوی

با استفاده از سرویس‌های پردازش زبان طبیعی می‌توان به تحلیل، پردازش و تولید حجم وسیعی از اطلاعات زبان طبیعی (انسانی) در سریع‌ترین زمان و با دقت بالا پرداخت. این سرویس‌ها در حوزه‌های مختلف تجاری، اقتصادی، آموزشی، اتوماسیون سازمانی و بانکی و ... مورد استفاده قرار گرفته و موجب صرفه‌جویی در منابع انسانی، زمانی، مالی در سازمان‌ها می‌شوند.

پیش‌پردازش

داده‌هایی که از منابع مختلف جمع می‌شوند، داده‌های تمیز نیستند. همچنین در بسیاری از کاربردها، ‌نیاز به مهندسی ویژگی یا کاهش ابعاد ویژگی وجود دارد. همچنین قبل از آغاز مدل‌سازی و برای الهام گرفتن از نوع دادگان موجود، نیاز به ایجاد نمودارها و آماره‌هایی است. به مجموعه این فرآیندها که قبل از مدل‌سازی اتفاق می‌افتد پیش‌پردازش گفته می‌شود.

دسته‌بندی

سرویس‌هایی که در این دسته قرار دارند، بر خلاف دسته طبقه‌بندی، برای یادگیری بدون نظارت کاربرد دارند. هدف این است که دادگان کاربر بدون وجود برچسب به دسته‌های مختلف تقسیم شوند. به این ترتیب نمونه‌هایی که ویژگی‌های مشابهی دارند در یک دسته قرار می‌گیرند و بر همین اساس هنگام تصمیم‌گیری برای آن‌ها، می‌توان سیاست یکسانی در پیش گرفت.

رگرسیون

رگرسیون فرآیندی برای شناخت ارتباط بین متغیرها است. این روش‌ها به صورت گسترده در پیش‌بینی استفاده می‌شوند.

سیستم‌های پیشنهاد‌دهنده

هدف این سرویس ارایه پیشنهاد به کاربران است. این پیشنهادها کاربران را به خرید بیشتر ترغیب می‌کند. در واقع تلاش این سیستم‌ها حدس زدن شیوه تفکر کاربر است که بر اساس شیوه رفتار او و کاربران مشابه و نظرات آن‌ها به دست آمده است. به این ترتیب بهترین پیشنهاد را مطابق با سلیقه کاربر ارائه می‌کند.

کلان داده

داده‌هایی که با حجم و سرعت زیادی در حال تولید هستند، به روش‌های جدیدی برای ذخیره‌سازی، پردازش و تصمیم‌گیری نیاز دارند. مجموعه این چالش‌ها در زیرمجموعه کلان داده‌ها قرار می‌گیرند. در واقع داده‌ها به‌خودی‌خود کاربردی ندارند و درصورتی‌که تحلیل و پردازش مناسبی روی آن‌ها انجام نشود، هیچ ارزشی نخواهند داشت.