try another color:
60% 70% 80% 90% تغییر اندازه فونت متن:
امروز: دوشنبه, 19 آذر, 1397

بسترسازی الکترونیک در «بومی سازی علوم انسانی»

Send to friendSend to friend
نام نویسنده: 
محمد مصطفی حسینی محقق مركز تحقيقات كامپيوتري علوم اسلاميmmhosseini@noornet.net

پيش‌درآمد
حرکت به سمت بومی‌سازی علوم انسانی به عنوان دروازة ورود به تمدن جدید اسلامی، در راه تحقق خویش دچار تنگناهای بسیاری از جمله در تولید علوم است. فناوری‌های جدید که امروزه همه شئون زندگی انسان را تحت تأثیر قرار داده‌اند به مدد پژوهشگران علوم آمده‌اند تا از تنگناهای موجود در تولید علم کاسته و به سرعت و حجم و حتی دقت کار ارتقاء بخشند. این مقاله سعی دارد به صورت مختصر به بررسی تأثیر بسترسازی الکترونیک در بومی‌سازی علوم انسانی بپردازد.
درآمد
نگاه به علوم‌انسانی به عنوان زیر‌بنای اساسی شکل‌دهی به تمدن اسلامی، ضرورت هر چه بیشتر بومی‌سازی در این علوم برای ورود مبانی و یافته‌های آن را به همه عرصه‌های تصمیم‌گیری در کشور اعم از مدیریت فرهنگی و اجرایی، نشان می‌دهد. همچنین ورود علومی مانند اقتصاد و سیاست به عرصه کارشناسی‌های کلان در مسیر پیشرفت و تعالی کشور، نیاز فزاینده به شکل بومی‌شده این علوم را یادآور می‌شود. از سوی دیگر با توجه به تنیدگی بسیار زیادی که فضای امروز علمی جهان با بسترهای الکترونیک یافته است، می‌توان از حوزه‌هایی همچون نرم‌افزارهای دسکتاپی و اینترنت به عنوان ابزارهای به‌روز و همیشه در دسترس جهت تسهیل در دستیابی به منابع علوم و به کارگیری ماشین در راستای کمک به بشر برای حل مسائل مشکلات حجمی علوم کمک گرفت.
این نوشته درصدد پاسخ به این سؤال است که بسترسازی الکترونیک چه نقش و جایگاهی می‌تواند در بومی‌سازی علوم انسانی داشته باشد، و رفع چه مشکلاتی در این زمینه را تسهیل نماید؟ از این رو برای پاسخ بهتر به این سؤال بخشی از تنگناهایی که پژوهشگران حوزه علوم انسانی در مسیر تولید علم با آن مواجه هستند ذکر گردیده و در ادامه راه‌حل‌هایی که پیشرفت‌های دنیای الکترونیک برای حل این مشکلات ارائه می‌کند، بیان می‌گردد.
یادآوری این نکته نیز خالی از لطف نیست که علت بررسی مسئله تولید علم در میان بحث‌های بومی سازی علوم انسانی نیز اشراف به این مسئله است که جامعه‌ای که دارای تولیدات علمی مختلف نباشد، نمی‌تواند ادعای استقلال علمی داشته باشد و بالتبع فاقد استقلال پایدار در حوزه‌های مختلف علمی خواهد بود .
تنگناهای موجود در تولید علم
در یک دسته بندی کلی2 می‌توان تنگناهای موجود در مسیر تولید علم را در سه زمینه بیان داشت:
الف.تولید داده‌های علمی. پژوهشگران در عرصة تولید داده‌های علمی با محدودیت‌های زیر مواجه هستند:
- محدودیت‌های فنی و آموزشی
- محدودیت‌های انسانی
- محدودیت‌های اقتصادی
ب.توزیع داده‌های علمی. در عرصة توزیع و در مسیر اشاعه و دستیابی به داده‌های علمی محدودیت‌های زیر وجود دارد:
- محدودیت‌های اشاعه داده‌های علمی
- محدودیت‌های زنجیره‌ای شدن داده‌های علمی
- محدودیت‌های دستیابی مشتریان به داده‌های علمی
ج.مصرف داده‌های علمی. در عرصة مصرف داده‌های علمی نیز محدودیت‌هایی وجود دارد:
- محدودیت‌های اجتماعی
- محدودیت‌های سنتی
- محدودیت‌های فردی
آنچه که ذکر گردید، به صورت کلی تنگناهایی است که در سه زمینة تولید، توزیع و مصرف داده‌های علمی در کشور با آن مواجه هستیم و بی شک برطرف کردن مشکلات و رفع موانع موجود در این زمینه‌ها خواهد توانست راه را در جهت شکل‌گیری بسترهای مناسب در جهت تولید علم به ویژه در علوم انسانی فراهم نماید. در واقع جامعه علمی امروز به این نتیجه رسیده است که حل بسیاری از محدودیت‌های موجود که در سه زمینه فوق ذکر گردید تنها با به خدمت گرفتن بسترهای الکترونیک میسر خواهد شد، از این رو جوامع پیشرو با عنایت ویژه به بسترسازی در این زمینه‌ راه را برای تسهیل تولید علم در مجامع علمی‌شان فراهم می‌نمایند؛ و می‌توان این نکته را به این جریان اضافه نمود که هر جامعه‌ای که سرمایه‌گذاری بیشتری بر روی بسترسازی الکترونیک در جهت رفع تنگناهای تولید، توزیع و مصرف علوم انجام دهد، سرعت بیشتری در دستیابی به داده‌های علمی جدید و حرکت بر روی نوار مرزهای علوم خواهد داشت.
گذر از محدودیت‌ها
اگر بناست که جامعه علمی ما نیز در زمینه تولید علم به ویژه در علوم انسانی شاهد تحول باشد، باید بپذیریم كه توجه ویژه به رفع تنگناهای موجود در تولید علم خواهد توانست در این زمینه راهگشا بوده و موانع بسیاری را از دوش پژوهشگران این زمینه بردارد.
در نگاه کلی پایین آوردن هزینه تولید علم و بالا بردن سرعت آن از مزایای بهره‌گیری از بسترهای الکترونیک است. به خدمت گرفتن ماشین توانسته است بسیاری از کارهایی که پیش از این توسط پژوهشگران و به صورت دستی انجام می‌گرفته را با سرعت بسیار بالا و در حجم وسیع و با هزینه بسیار پایین به عهده گیرد. همچنین دائمی بودن دسترسی به منابع اطلاعاتی به واسطه اینترنت، برخی از تنگناهای اشاعه و مصرف داده‌های علمی را برطرف نماید.
دیجیتالی نمودن کتب
روی آوردن به دیجیتالی نمودن کتاب‌ها تلاشی است در جهت رفع محدودیت‌هایی که کتاب‌های کاغذی به آن مبتلا هستند. مزایا و ویژگی‌های کتاب‌های الکترونیکی عبارتند از:
1. امکان جست و جوی سریع و طبقه بندی شده اطلاعات.
2. استفاده از امکانات چند رسانه ای.
3.کاهش هزینه های تولید و چاپ کتاب.
4. عدم نیاز به فضاهای فیزیکی، نظیر انبارها و کتابخانه‌ها.
5. دسترسی آسان به نسخه‌های متعدد و امروزی کتاب.
6. تسریع در اصلاح و یا انتشار ویرایش جدید.
7. سهولت انتقال کتاب.
8. امکان تبادل میان مطالب و نیز مرور همزمان آنها به کمک پیوند به مطالب قبلی یا بعدی (Link).
از مهم‌ترین ویژگی‌های کتاب‌های الکترونیکی، دسترسی همزمان به منابع منحصر به فردی چون دایرة‌المعارف‌ها، فرهنگ لغات، کتاب‌های نایاب و... آن هم به زبان‌های مختلف دنیاست؛ مزیتی که به ندرت در میان کتاب‌های چاپی یافت می‌شود.3
آموزش از راه دور
آموزش از راه دور،4بدون چون و چرا، یك گام رو به جلو برای جوامع در حال توسعه محسوب می‌شود. آموزش سنتی در كشور‌های در حال توسعه به دلایل رشد انفجارگونه جمعیت، محدودیت‌های اقتصادی، و تقاضای بیش از حد جامعه برای تحصیل‌، دیگر توان پاسخگویی و انعطاف را ندارد. با توجه به فشار وارده به این كشورها برای پیوستن به جهانی توسعه یافته و جامعه‌ای برخوردار از اطلاعات، به نظر می‌رسد كه آموزش از راه دور امكان آموزش بهتر برای شمار بیشتری از افراد را با هزینه كمتر فراهم خواهد آورد.5
دانشگاه مجازی و روی آوري به مولتی مدیا در آموزش
اگر چه در حال حاضر در کشورهای جهان و از جمله ایران، مدارک دانشگاهی فقط با شرکت در جلسات درس اعطا مى‏شود، امّا با شروع فناورى‏هاى جدید ارتباطات و رشد و گسترش آن، مفهوم دانشگاه مجازی به عنوان روشى براى تحصیل در کنار و یا در برابر سیستم سنتى و کلاسیک، در حال مطرح شدن است. از این رو، با توجه به گسترش بهره‏مندى از رایانه و اینترنت در جامعه، به‌ويژه در حوزه‏هاى علوم انسانی و نیز مزایاى استفاده از روش‏هاى نوین براى آموزش علاقه‏مندان علوم و معارف اسلامى که حضور در کلاس‏هاى سنتى حوزه‏هاى علمیه برایشان میسر نمى‏باشد، مزایا و معایب دورنمای دانشگاه مجازى به صورت مختصر ذکر می‌گردد.
کرزویل6 دانشمند صاحب‌نظر در تکنولوژی‌های تشخیص نوری نویسه‌ها7 (نرم‌افزارهای متن‌خوان) و تبدیل متن به صوت8 در مقاله‎ای با عنوان "ماشین‌های روانی" در سال 1999 انقلابی را تا پایان قرن بیست و یکم پیش‎بینی کرده بود. انقلابی که به تعلیم و تربیت، محدود نمی‎شود بلکه تمام روابط انسانی را دچار تحول می‎کند. او در این مقاله معتقد بود در سال 2009 استفاده از رایانه فراگیر می‎شود و مردم همراه خود رایانه خواهند داشت. و در این سال آموزش با کمک رایانه صورت می‎گیرد و یادگیری خود راه‌یاب می‎شود. دانش‎آموزان با خود رایانه و لوازم جانبی آن را حمل می‎کنند و یادگیری از طریق ارتباطات ب‌ سیم مانند اینترنت و... محقق می‎شود. معلم در آموزش از روش سنتی و آموزش گروهی استفاده می‎کند، ولی مدرسه تحت تأثیر نرم‌افزار و فضای ناشی از آن متحول خواهد شد. معلمان به علایق، ویژگی‌های روانشناختی و فرایند اجتماعی شدن بچه‎ها توجه می‎کنند. بر اساس پیش بینی کرزویل در سال 2019 در مدارس و دانشگاه‌ها با معلمان شبیه‎سازی شده مواجه می‎شویم. نرم افزارهای هوشمند جایگزین معلم و استاد می‎شوند.9
باید این نکته را در نظر داشت که یادگیری الکترونیکی ممکن است در قالب سه شکل 1. دانشگاه مجازی هوشمند، 2. دانشگاه مجازی در قالب ارتباط چهره به چهره (از طریق شبکه)، 3. دانشگاه مجازی مبتنی بر ارتباطات ناهمزمان و غالباً مکتوب (از طریق شبکه) ارائه شود که هر کدام از این سه قالب می‌توانند به سهم خود پاسخگوی بخشی از تنگناهای موجود در زمینه‌های تولید، توزیع و مصرف داده‌های علمی را برطرف سازند.
اینترنت و دسترسی نامحدود به علوم
وابستگی تمامی فعالیت‌های بشر به اینترنت، در قیاسی بسیار عظیم و در زمانی چنین کوتاه از زمان پدیدآمدن اینترنت، حکایت از آغاز یک دوران نوین در عرصه‌های گوناگون علوم و فن‌آوری، به‌ویژه در تحول علوم دارد. به گونه‌ای که تأثیر عمیقی بر تحقیقات علمی گذاشته است و پژوهشگری را نمی‌توان یافت که برای به نتیجه رساندن مطالعاتش از اینترنت بی‌نیاز باشد.
به عنوان مثال، اینترنت در عصر حاضر به یکی از اصلی‌ترین مراکز دین‌باوران و دین‌مداران تبديل شده و مطالعات دین‌پژوهی که یکی از پویاترین شاخه‌های مطالعات علوم انسانی است به‌طور گسترده‌ای در اینترنت وجود دارد و همین پویایی سبب شده که اینترنت نقشی بی‌بدیل و منحصر به فرد را در راستای مطالعات این‌چنینی ایفا نماید.
علاوه بر این پرداختن به نقش کتابخانه‌های دیجیتال10 که در واقع منابع عظیم داده‌های علمی هستند و همچنین شبکه‌های ارتباطات علمی11 که تنها بر بستر اینترنت جایگاه و نقش خویش را ایفا می‌کنند و مشکلات فراوانی را از سر راه پژوهش‌های علمی برمی‌دارند، بحث مبسوطی را می‌طلبد که در حوصله این نوشته نیست.
آنچه گفته شد، تنها اشاره‌ای مختصر به خدماتی بود که فناوری اطلاعات و بسترهای الکترونیک در جهت رفع محدودیت‌ها و کنار زدن تنگناهای تولید علم می‌توانند ارائه نمایند؛ خدماتی که در نهایت منجر به گسترش پژوهش و در نتیجه تولید علم خواهد گشت. پرداختن تفصیلی به همه مواردی که ذکر شد، در توان نوشته حاضر نبوده و لذا صرفاً با هدف روشن شدن بیشتر جایگاه و ارزش بسترسازی در فناوری اطلاعات به بررسی تفصیلی نمونه‌ای از این بسترها که تحقق آن انقلابی در تولید علم به وجود خواهد آورد، می‌پردازیم.
انقلاب داده‌کاوی متون در تولید علوم انسانی
پیش از پرداختن به بحث داده‌کاوی متون، جا دارد که نخست با پردازش متون هوشمند آشنا شویم.
هدف از پردازش هوشمند متون، ایجاد ابزارهایی است تا فرایند استخراج اطلاعات از متون را همانند فرایند درک انسان انجام دهند و در این مسیر ذهن انسان را یاری دهند. باید این مسئله را پذیرفت که با وجود توانایی‌های درکی بسیار بالا در انسان، ذهن او در فرایند درک اطلاعات با حجم بسیار بالا که امروزه در مسیر تولید علم بسیار اتفاق می‌افتد، دارای محدودیت‌های جدی است. محدودیت اول اینکه به جهت محدودیت ظرفیتی حافظه کوتاه مدت انسان در پردازش اطلاعاتی که باید دریافت نماید، ذهن وی توانایی کنار هم گذاشتن و درک درست همه این اطلاعات حجیم را ندارد. و حتی این تفکر که با تقسیم این اطلاعات بین افراد این مشکل برطرف گردد نیز دارای این نقیصه است که به جهت فردی و متفاوت بودن درک افراد، نمی‌توان به درکی منسجم رسید. محدودیت دوم اینکه با در نظر گرفتن پیشرفت‌های بسیار زیاد مهندسی در تولید پردازنده‌های رایانه‌ای بسیار قوی، به جهت محدودیت‌های سلول‌های عصبی، سرعت ذهن انسان در انتقال و پردازش حجم بالای اطلاعات بسیار پایین‌تر از رایانه است. محدودیت سوم نیز که مربوط به علوم انسانی می‌باشد این است که به خصوص در مورد متون اسلامی، تربیت و دست‌یابی به افراد خبره به تعداد کافی برای درک حجم بسیار بالای این متون خیلی گران، زمان‌بر، و گاهی غیر ممکن است. حال با استفاده از توانمندی‌های بسیار بالای رایانه در پردازش اطلاعات با حجم زیاد، نقاط ضعف ذهن انسان را می‌توان جبران کرد.
فرایندها و فناوری‌های پردازش هوشمند متون و از جمله دانش داده‌کاوی، به ما امکان شناسایی الگوها، مدل‌ها و ارتباط میان عناصر مختلف در پایگاه داده‌های علمی را می‌دهد تا دانش نهفته در داده‌ها را کشف و نهایتاً این یافته‌ها را به دانش کاربردی و اطلاعات جدید تبدیل کنیم.
کاهش هزینه‌های تأمین منابع و جستجو در میان این منابع، تنها با تکیه بر فناوری‌های اطلاعاتی و ارتباطاتی امکان‌پذیر و مقرون به صرفه است. مدیریت زمان و استفاده بهینه از وقت در این عصر که به عصر انفجار اطلاعات شهرت یافته موجب شده است تا بیشتر پژوهش‌ها در بستر فناوری‌های اطلاعاتی و ارتباطی به نتیجه مطلوب دست یابد. کارشناسان معتقدند به کارگیری رایانه موجب شده است تا بیش از 70% از وقت محققان از حوزه جستجو، داده‌کاوی و شناسایی منابع، آزاد گردیده و به بخش پژوهش و تولید علم اضافه گردد. و این به این معناست که در نتیجه به کارگیری این فناوری‌ها سرعت تولید علم سه برابر شده و اختصاص زمان برای منبع‌یابی و داده‌کاوی، به یک چهارم کاهش یافته است.12
همواره دیجیتالی‌سازی منابع یکی از پیش‌نیازها و دغدغه‌های اصلی بوده است. خوشبختانه در حال حاضر رشد چشمگیر متون دیجیتالی تا حدود زیادی این مشکل را حل نموده است و در دسترس بودن بخش اعظمی از منابع علوم انسانی به صورت متون دیجیتال ایجاب می‌کند تا فرصت را غنیمت شمرده و با بهره‌گیری بهینه از فناوری‌های نوین پردازش هوشمند، از جمله متن کاوی و ایجاد سامانه‌های هوشمند پردازش زبان طبیعی در زبان‌های عربی و فارسی که بیشتر منابع علوم انسانی ما در این زبان‌ها می‌باشد، استخراج اطلاعات علوم انسانی را از داده‌های متنی دیجیتالی کارآمدتر سازیم.
برخی از مهمترین کاربردهایی که داده کاوی متون در علوم انسانی می‌توانند به همراه داشته باشند، و هم اکنون تلاش‌هایی در کشورمان جهت رسیدن به آن شکل گرفته است عبارتند از: صرف هوشمند زبان عربی، دسته بندی خودکار متون، تشخیص روایات مشابه و اعراب گذاری ماشینی، ترجمه به زبان‌های دیگر، ایجاد اصطلاح‌نامه‌های تخصصی، خلاصه‌سازی متون، استخراج درخت‌واره‌های مفهومی از متون، استخراج روابط معنادار بین مفاهیم متون، استخراج جریان‌های فکری و تاریخی در متون، یافتن شباهت‌ها و تفاوت‌ها بین متون، رده‌بندی و دسته‌بندی موضوعی متون، تشخیص نویسنده یا مترجم متون، و بسیاری موارد دیگر که دستیابی به این فناوری‌ها بسترهای لازم پژوهشی را برای پژوهشگران علوم انسانی فراهم خواهد آورد تا پژوهشگر بتواند سریع‌تر و کارآمدتر به نتایج پژوهشی مورد نظر خود دست یابد.
داده‌کاوی
داده‌کاوی13فرایند و یا پروژه‌ای نسبتاً پیچیده برای شناسایی الگوها و مدل‌های صحیح، قابل استناد و مفید در حجم وسیعی از داده‌ها است؛ به گونه‌ای که این الگوها و مدل‌ها برای انسان قابل درک باشند. داده‌کاوی، پل ارتباطی میان علوم آمار،14مهندسی کامپیوتر،15هوش مصنوعی،16شناسایی آماری‌ الگو، یادگیری ‌ماشین17و محاسبات رایانشی‌نرم18است.19
مهمترین مراحل داده کاوی یا همان کشف دانش از میان داده‌ها، عبارت است از: استخراج و گردآوری داده‌ها از چندین منبع، یکپارچه‌سازی و حذف داده‌های زاید (تصفیه)، تشکیل انبار داده بر پایه داده‌های تصفیه شده، اجرای عملیات داده‌کاوی، تفسیر و نمایش نتایج.
کارکردهای متن‌کاوی در علوم اسلامی
متن‌کاوی در متون اسلامی دریچه‌ای جدید در بازیابی معارف اسلامی بوده و امکان خلق ایده‌های بدیع و راهکارهای مفید پژوهشی را در ذهن پژوهشگران ایجاد خواهد کرد.
موارد زیر نمونه‌هایی از کاربردهای متن کاوی در علوم اسلامی با اشاره‌ای مختصر به این‌که هر کدام از این موارد چه نقش متحول کننده‌ای در تولید علوم در حوزه علوم انسانی می‌توانند داشته باشند:
تشخیص ماشینی نوع کلمه و تجزیه آن20(برچسب‌گذاری21 صرفی متون)
یکی از مشکلات پژوهشگرانی که در حوزه متون اسلامی فعالیت می‌کنند، شناسایی صرفی کلمات می‌باشد. به همین جهت بسیاری از متون برای پژوهشگرانی که مهارت لازم در تجزیه کلمات عربی را ندارند، غیر قابل بهره‌برداری می‌باشند. طراحی سیستمی خبره که بتواند به صورت هوشمند به تشخیص لایه‌های صرفی کلمات بپردازد، این مشکل را از سر راه این پژوهشگران برخواهد داشت.
یافتن مسند و مسندالیه
دستیابی به سیستمی که بتواند مبتدا را از خبر، فاعل و مفعول و روابط برقرار شده میان کلمات در جملات را تشخیص دهد، پیشرفت مهم دیگری در رفع موانع پژوهشی است. تشخیص مسند و مسندالیه یکی از کاربردهای پایه‌ای است که هم به صورت مستقل و هم به صورت ابزاری برای سایر کاربردها می‌توان از آن بهره گرفت.
تشخیص ماشینی نقش کلمات(برچسب‌گذاری نحوی متون)
هرگونه پردازش بر روی متون، اعم از نمایه‌زنی و یا درخت‌واره‌سازی و ... منوط به این است که نقش کلمات در متون به خوبی تشخیص داده شوند. طراحی سیستمی که بتواند نقش کلمات را به خوبی تشخیص دهد محققین را در استخراج روابط لفظی و معنوی میان کلمات بسیار کمک خواهد نمود.
ریشه یابی
استخراج ریشه و بن کلمات22 فواید بسیاری در پژوهش دارد، از جمله اینکه امکان جستجو از طریق اشتراک ریشه را فراهم می‌نماید. از دیگر کاربردهای استخراج ریشه، در یافتن متون مشابه می‌باشد. استخراج ریشه در رده‌بندی و خوشه بندی کلمات نیز کاربرد دارد.
تشخیص اشتقاق کلمه
در این کاربرد بر اساس پایگاه داده‌ای جامع از کتب لغت و استعمالات عرب می‌توان الگوریتمی داشت که هر کلمه را استعمال‌یابی کند. رسیدن به چنین سیستمی می‌تواند اعلام نظر کند که آیا کلمه مورد نظر در زبان عربی استعمال می‌شود یا غیر مستعمل است؟ کاربرد دیگر تشخیص اشتقاق کلمات ابهام‌زدایی بین مشترکات است.
یافتن کلمات کلیدی
تشخیص ماشینی نقش کلمات می‌تواند منجر به سیستمی شود که بر مبنای آن کلمات مهم و کلیدی23متون تشخیص داده شده و استخراج گردند. از جمله کاربردهای یافتن کلمات کلیدی شناسایی متون هم‌موضوع و مشابه، طبقه‌بندی، پیراسته‌سازی و جستجوی در متون می‌باشد.
نمایه‌زنی ماشینی24
از رایج‌ترین روش‌های پژوهشی نمایه‌زنی بر کتب تخصصی می‌باشد که بسیار زمان‌بر است. با تلفیق روش‌های هوشمند ماشینی و با تشخیص روابط میان کلمات متن از طریق شناسایی نقش‌ها و عبارات متنی و اعمال قواعد استخراجی و نیز پیوسته‌سازی متون، می‌توان نمایه‌زنی را با روشی نوین انجام داد یا نمایه‌های احتمالی را به پژوهشگر پیشنهاد داد.
حرکت‌گذاری ماشینی
در حال حاضر در مراکز تحقیقاتی گروه‌هایی فعالیت می‌کنند که کارشان حرکت‌گذاری دستی متون اسلامی است. این کار که به علت نیاز مراجعه بسیار زیاد به فرهنگ‌های لغت، کاری زمان‌بر و پرهزینه است را می‌توان با کاربرد ماشینی و حرکت‌گذاری ماشینی تسهیل نمود. در واقع حرکت‌گذاری اعم از اعراب‌گذاری می‌باشد و اعراب‌گذاری به حرکت‌گذاری آخر کلمه اطلاق می‌شود.
پیراسته‌سازی متون
یکی از روش‌های متداول در پژوهش متون اسلامی پیراسته سازی است، به این معنا که پسوند و پیشوندهاي کلمات حذف شده، افعال به مصادر تبدیل و حروف بی‌بار از جملات حذف شوند؛ و مؤنث‌ها به مذکر و جمع‌ها نیز به مفرد تبدیل شوند. هدف از این کار این است که در نهایت معجمی از واژه‌ها جایگزین معجم الفاظ شوند تا در جستجوهای رایج مورد بهره‌برداری قرار گیرند. در روش پیراسته‌سازی ماشینی جستجوی کلمات در کمترین زمان ممکن به نتیجه منجر خواهد شد.
یافتن متون مشابه25
با استفاده از قواعد معنوی و بانک‌های مترادفات و مشترکات می‌توان به سیستم کارایی دست یافت که با در نظرگرفتن قوانین هم‌آیی میان کلمات بتواند متون مشابه و حتی درصد مشابهت میان دو متن را تشخیص دهد. از جمله کاربردهای یافتن متون مشابه در تشخیص درصد استفاده مقالات از سایر مقالات می‌باشد.
تدوین درخت‌واره (هستان‌شناسی)
یکی از بهترین و جامع‌ترین روش‌های عرضه مفاهیم یک متن نمایش درختی یا هستان‌شناسی26 آن متن می‌باشد. در حال حاضر تهیه درخت‌واره‌ها توسط محققین خبره و به صورت دستی انجام می‌پذیرد؛ اما می‌توان به سیستمی دست یافت که با به‌کارگیری سیستم‌های آماری و پردازش داده‌ها به پیوست پایگاه غنی شده مترادفات، مشترکات و مرتبطات حجم بالایی از این اطلاعات توسط ماشین انجام پذیرد.
خطایابی27متن و پیشنهاد کلمات صحیح
در این سیستم با ورود متن به سیستم، نرم‌افزار با بررسی کلمات و مشتقات و اسنادهای استفاده شده در متن، اشکالات احتمالی موجود در متن را شناسایی کرده و به جای آن کلمات صحیح را در لایه‌های صرفی و نحوی به پژوهشگر پیشنهاد می‌دهد.‌
چکیده‌گیری
یکی از خواسته‌های همیشگی پژوهشگران بیان مطالب علمی در کوتاه‌ترین قالب بوده است. در حال حاضر چکیده‌گیری28از متون به صورت دستی انجام می‌پذیرد. با دستیابی به سیستم‌های تجزیه و ترکیب ماشینی، یافتن کلمات کلیدی، تشخیص مسند و مسند‌الیه و... می‌توان این کار را توسط ماشین انجام داد.
تشخیص خودکار محدوده جمله
از کاربردهایی که جنبه مقدمی برای بسیاری از کاربردهای دیگر متن کاوی دارد، تشخیص خودکار محدوده جمله29است که به درک معنا و مفهوم جمله و متن کمک بسیار زیادی می‌نماید.
ترجمه ماشینی30
در حال حاضر پژوهش‌های متن‌کاوی به سمتی پیش می‌روند که عیناً همان مراحلی را که توسط مترجم انسانی برای ترجمه یک متن صورت می‌پذیرد، توسط ماشین انجام دهد. پوشیده نیست که دستیابی به سیستمی که بتواند با درصد خطای بسیار پایین به ترجمه متون منبع به زبان‌های مقصد بپردازد، چه تحول و دستاوردهای شگرفی را در دستیابی به منابع جدید برای پژوهشگران در بر خواهد داشت.
تشخیص اسامی خاص
یکی از مراحل مهم جداسازی در برچسب‌گذاری صرفی اسم‌هاي خاص،31مکان، زمان، کتاب و اسم جنس است که غالباً این اسماء در برچسب‌ها با هم مشترک هستند. با استفاده از بانک اسماء می‌توان اسامی خاص را در متون شناسایی و مشخص نمود.
رده‌بندی(طبقه‌بندی) متون
طبقه‌بندی متون32 از لوازم اولیه پژوهش‌های اسلامی است. زمانی‌که محقق می‌خواهد در مورد موضوعی تحقیق کند، جمع آوری و دسته‌بندی متونی که جهت پژوهش خود به آن نیاز دارد، برای او ضروری است. در سایت‌های تخصصی علوم انسانی که مقالات رده‌بندی از پیش تعیین شده‌ای دارند، برای به روز رسانی ماشینی و جای دادن خودکار متون جدید، نیازمند این دسته از الگوریتم‌ها می‌باشیم، تا هر مقاله دقیقاً در جایی که باید باشد قرار گیرد.
ابهام زدایی و تمیز مشترکات
ابهام زدایی33 ماشینی جزو کاربردهایی است که با کمک متن‌های برچسب‌گذاری شده دستی که توسط پژوهشگران تهیه شده است و با آموزش به ماشین امکان‌پذیر خواهد بود.
علاوه بر مواردی که ذکر شد، تشخیص خودکار متن فارسی از عربی، تشخیص ماشینی آیات قرآن، شناسایی نویسنده یک متن، شناخت دست خط نویسندگان کتب خطی، تشخیص هوشمند شعر از نثر، یافتن هوشمند وزن عروضی اشعار، تفکیک سند از متن روایت، تفکیک راوی از واسطه در اسناد روایات، یافتن طبقه، مشایخ و شاگردان راوی، یافتن مرجع ضمیر در راویان مضمر، حل مشکل تحویل و تعلیق در اسناد روایات و طراحی سیستم فقیه‌یار از دیگر کاربردهایی است که با استفاده از متن‌کاوی در جهت تسهیل امر پژوهش و تولید علم می‌توان از آن‌ها بهره برد.
شایان ذکر است که موتور برچسب‌گذاری صرفی زبان عربی و قرآن، دسته‌بندی خودکار متون، تشخیص ماشینی روایات مشابه، اعراب‌گذاری ماشینی، نرم‌افزار هوشمند صرف و شناسایی خودکار آیات در متون و در زمینه زبان فارسی ویراستار (خطایاب هوشمند زبان فارسی) و همچنین سامانه دستوری واژگان عربی از جمله پروژه‌های بزرگ در زمینة داده‌کاوی در حال اجرای کشورمان می‌باشد.
پي‌نوشت‌ها:

1 . محقق مركز تحقيقات كامپيوتري علوم اسلامي.
2 . پژوهش اساس تولید علم، سخنرانی در همایش بررسی مسائل علوم اجتماعی ایران، دکتر باقر ساروخانی.
3 . کتاب الکترونیکی، رضوان‌السادات میرمحمدی، مجله پرسمان، شماره 32.
4. E-learning.
5 . اندیشه یادگیری بدون محدودیت مكانی و زمانی در علوم كتابداری در كشورهای در حال توسعه، امیرحسین مردانی، فصلنامة تخصصی علوم و فناوری اطلاعات.
6. Kurzweil.
7. OCR (optical character recognition).
8. Text-to-speech synthesis.
9 . دانشگاه مجازی بازخوانی روایت‌های موجود، محمد عطاران، مجله پژوهش و برنامه‌ریزی در آموزش عالی.
10. Digital Library.
11. Network of scientific communication.
12 . آثار پیشرفت در اندیشه‌های خلاق، دکتر بهروز مینائی، مجله ره آورد نور.
13. Data mining.
14. Statistics.
15. Computer engineering .
16. Artificial intelligence.
17. Machine learning.
18. Soft computing
19 . کاربردهای داده‌کاوی در علوم‌اسلامی، حسین عابدینی، دکتر بهروز مینایی، فصلنامه اطلاع‌رسانی، آموزشی و مطالعات رایانه‌ای ره آورد نور شماره 34.
20. Morphology.
21. Tagging.
22. Stemming.
23. keyword extraction.
24. Automatic indexing.
25. Text similarity detection.
26. Ontology.
27. Spell checking.
28. Clustering.
29. Sentence boundary detection.
30. Machine translation.
31. Name entity recognition.
32. Text classification.
33. Disambiguation.