نوع فایل: word
قابل ویرایش 150 صفحه
چکیده:
داده کاوی تلاش برای استخراج دانش انبوه داده های موجود است . داده کاوی به کمک مجموعه ای از روش های آماری و مدل سازی، می تواند الگوها و روابط پنهان موجود در پایگاه های داده را تشخیص دهد . تاکنون ابزارها و روش های مختلف برای پردازش اطلاعات ساخت یافته توسعه داده شده است که در نتیجه آنها ساخت پایگاه های اطلاعاتی و ایجاد انبارهای داده به سادگی صورت می گیرد . امروزه سازمان ها قادرند با هزینه کم اطلاعات وسیعی از وضعیت کسب و کار خود جمع و نگهداری کنند و این موجب شده است که استفاده از روش های داده کاوی، ارزش قابل توجهی را برای سازمان بدست آورد . رویکردهای موجود به مسأله داده کاوی متنوع است . در این گزارش نگاهی به آخرین دستاوردهای این زمینه علمی انداخته خواهد شد .
مقدمه:
بشر با پیشرفت فناوری رایانه ای در ثبت و ذخیره سازی داده ها و پردازش آن ها گامی بزرگ جهت کسب دانش برداشته است . در واقع نمایشی از واقعیت ها، معلومات، مفاهیم، رویدادها یا پدیده ها برای برقراری ارتباط، تفسیر یا پردازش، توسط انسان یا ماشین است . از طرف دیگر واژه ی اطلاعات، به معنی دانشی که از طریق خواندن، مشاهده و آموزش به دست می آید اطلاق می شود . در حقیقت می توان گفت اطلاعات داده هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی تولید کرده اند .
بین داده ها و اطلاعات همانند خبر و اطلاع رابطه وجود دارد . خبری که دریافت می شود، پس از ارزیابی به اطلاع تبدیل می شود . داده ها نیز پردازش می شوند تا اطلاعات را پدید آورند . به بیان دیگر اطلاع حاصل تکامل داده ها است . به این ترتیب بین داده ها و اطلاعات یک شکاف وجود دارد که اندازه این شکاف با حجم داده ها ارتباط مستقیم دارد . هر چه داده ها حجیم تر باشند، این شکاف بیشتر خواهد بود و هر چه داده ها کمتر و روش ها و ابزار پردازش داده ها کاراتر باشد، فاصله بین داده ها و اطلاعات کمتر است . امروزه افزایش سریع حجم پایگاه داده ها به شکلی است که توانایی انسان برای درک این داده ها بدون ابزارهای پر قدرت میسر نمی باشد . در این وضعیت، تصمیم گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند . در واقع شرایط فعلی توصیف کننده ی حالتی است که ما از لحاظ داده غنی، اما از لحاظ اطلاعات ضعیف هستیم .
فهرست مطالب:
فصل اول
مقدمه ای بر داده کاوی
چکیده
1-1 مقدمه
1-2 تاریخچه ی داده کاوی
1-3 روش های گردآوری اطلاعات
1-4 داده کاوی چیست ؟
1-4-1 حلقه داده کاوی چیست ؟
1-4-1-1 شناسایی فرصت های تجاری
1-4-1-2 داده کاوی
1-4-1-2-1 مراحل داده کاوی
1-4-1-3 انجام اقدامات
1-4-1-4 اندازه گیری نتایج
1-1 آمار و داده کاوی
حجم داده ها
نوع داده ها
پردازش داده ها
وظایف معمول
اهداف تحقیق
1-6 داده کاوی چه کاری انجام می دهد ؟
1-6-1 عملیات داده کاوی
1-6-1-1 دسته بندی و پیشگویی
1-6-1-1-1 روش های دسته بندی
1-6-1-2 خوشه بندی
1-6-1-3 تحلیل روابط و وابستگی ها
1-6-1-4 پیش بینی
1-7 نرم افزارهای داده کاوی
1-8 پایگاه دادة تحلیلی (Data Warehouse)
1-8-1 تفاوت های پایگاه داده تحلیلی با پایگاه داده عملیاتی
1-8-2 ابزار های سطح پایین (Back-End) پایگاه داده تحلیلی
1-8-3 ابزارهای پرس و جو و تحلیل داده های ذخیره شده درdata warehouse و data mart
1-9 سرویس دهنده های پردازش تحلیلی بر خط
1-9-1 مزایا و معایب سرویس دهنده های OLAP
1-10 مکعب داده
1-11 جدول واقعیت
1-11-1 جدول ابعاد
1-12 داده کاوی در اوراکل
1-12-1 توابع داده کاو اوراکل
الگوریتم ها
1-13 گام های مدل سازی
جستجوگر مدل
1-14 داده کاوی در Clementine
1-14-1 معماری
1-14-2 متدلوژی clementine
الگوریتم ها
فصل دوم
مقدمه ای بر وب کاوی
2-1 مقدمه
2-2 رده بندی های وب کاوی
2-2-1 Web Content Mining
2-2-2 web usage mining
2-2-3 Web Structure Mining
2-3 فایل log :
2-3-1 انجام عمل پیش پردازش روی فایل های log
2-4 تشخیص کاربران : (user identification)
2-5 session identification
2-6 تشخیص الگو ها
2-7 تکنیک های آماری
2-8 قوانین ارتباطی
2-9 الگو های ترتیبی
2-10 خوشه بندی
2-11 مشکلات روش تحلیل گزارش های وبweb log analysis method ) )
2-12 نتیجه گیری
فصل سوم
الگوریتم های ژنتیک
3-1 مقدمه
3-2 زمینه های بیولوژیکی
3-3 فضای جستجو
3-4 مسائل NP
3-5 مفاهیم اولیه در الگوریتم ژنتیک
3-5-1 اصول پایه
3-5-2 شمای کلی الگوریتم ژنتیک
3-5-3 ساختار متداول الگوریتم ژنتیک
3-6 کد کردن
3-6-1 انواع کدینگ
3-6-2 روشهای کدینگ
3-6-3 مسائل مربوط به کدینگ
3-7 مرحله ارزیابی (evaluation)
3-8 عملگر تقاطع و جهش
3-9 رمز گشایی
3-10 کروموزوم
3-11 جمعیت
3-12 مقدار برازندگی
3-13 تعریف دیگر عملگر تقاطعی
3-14 تعریف دیگرعملگر جهشی
3-15 مراحل اجرای الگوریتم ژنتیک
3-16 حل یک مساله نمونه توسط الگوریتم ژنتیک
3-17 همگرایی الگوریتم ژنتیک
3-18 نتیجه گیری
فصل چهارم
کاربرد کلاسترینگ
4-1 مقدمه
4-2 مسئلة خوشه بندی توزیع شده
4-3 مشکلات روش متمرکز سازی داده ها
4-4 الگوریتم خوشه بندی K-Means
4-5 الگوریتم خوشه بندی توزیع شده DisK-Means
4-6 ساخت مدل محلی
4-7 ساخت مدل عمومی
4-8 یک روش جدید مبتنی بر رفتار کاربران جهت تخمین بار کاری وب سرورهای شبکه
4-9 کلاسترینگ داده های وب
4-10 کلاسترینگ های کاربر
4-10-1 الگوریتم های کلاسترینگ ها
4-10-1-1 کلاسترینگ مبتنی بر مدل
4-10-1-1-1 توصیف بار کاری سیستم های کامپیوتری
تکنیک های ایستا
آنالیز جزء اصلی
تکنیک های پویا
میانگین متحرک ( )
4-11 کارهای وابسته قبلی
4-12 مدل پیشنهادی
4-13 محیط پیاده سازی
4-14 نتایج ، آنالیز و ارزیابی مدل
4-15 نتیجه گیری
منابع و مراجع
فهرست اشکال:
شکل 1-1 مراحل داده کاوی
شکل 1-2 جایگاه پایگاه داده تحلیل
شکل 1-3-1 Data Warehouse process
شکل 1-3-2 Data Warehouse process
شکل 1-4 معماری چند لایه
شکل 1-5 نمونه ای از مکعب داده
شکل 1-6 مفهوم مکعب داده
شکل 1-7 داده کاوی در اوراکل
شکل 1-8 اوراکل یا سایز ابزار
شکل 1-9 مراحل متدولوژی Clementine
شکل 1-10 چرخه داده کاوی Clementine
شکل 3-1 نمونه ای از فضای جواب
شکل 3-2 کدینگ باینری
شکل 3-3 کدینگ جهشی
شکل 3-4 کدینگ ارزشی
شکل 3-5 کدینگ درختی
شکل 3-6 فضای کدینگ و فضای جواب
شکل 3-7 رابطه بین کروموزوم ها و جواب ها
شکل 3-8 انواع روابط بین فضای جواب و فضای کدینگ
شکل 3-9 مثال رمز گشایی
شکل 3-10 مثال جهش
شکل 3-11 نمایش یک کروموزوم n بیتی پایه عددی m
شکل 3-12 مثالی از جباجایی تک نقطه ای
شکل 3-13 تقاطع در کروموزومهای که از شکل کد شده چهار متغیر بوجود آمده است
شکل 3-14 تقاطعی دو نقطه ای
شکل 3-15 عمل تقاطعی یکنواخت
شکل 3-16 نمونه ای از عمل جهش
شکل 3-17 مراحل اجرای الگوریتم ژنتیک
شکل 3-18 چرخ دولت
شکل 3-19 نمایش کروموزوم معادل زوج (X,Y)
شکل 4-1 خوشه بندی توزیع شده
شکل 4-2 ثابت شدن فلش Cetroid
شکل 4-3 الگوریتم خوشه بندی توزیع شده Disk-Means
شکل 4-4 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 4-5-1 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 4-5-2 ساخت مدل محلی، ترکیب اطلاعات خوشه ها
شکل 4-5-3 ساخت مدل محلی، حالت کلی
شکل 4-6 حاللات مختلف قرار گرفتن چند خوشه کنار هم
شکل 4-7-1 ساخت مدل محلی، حالت دوم
شکل 4-7-2 ساخت مدل محلی، حالت دوم
شکل 4-8 نمونه هایی از CBMG های حاصل از درخواست های کاربران یکی از سیستم های مورد تست
در دانشگاه مشهد
شکل 4-9 هیستوگرام داده های باقیمانده لینک Presented Courset بعد از حذف داده های پرت
از یکی از سیستم های وب دانشگاه
شکل 4-10 نمودار P-PPlot داده های لینک Presented Courset
شکل 4-11 هیستوگرام داده های باقیمانده لینک Show Edueationallog بعد از حذف داده های پرت
فهرست جداول:
جدول 3-1 مثال های تقاطع تک نقطه ای
جدول 3-2 مثال های تقاطع دو نقطه ای
جدول 3-3 نمونه ای از عمل جهش
جدول 3-4 انتخاب کروموزومها با استفاده از چرخ رولت
جدول 3-5 نمایش جمعیت اولیه
جدول 3-6 نتایج عمل تقاطع
جدول 3-7 نتایج عمل جهش با Pm=0.2
جدول 3-8 کروموزوم با بیشترین مقدار برازندگی
جدول 4-1 جزئیات ترافیک تولید شده توسط برنامه شبیه ساز
منابع و مأخذ:
[1]. An Introduction to Data Mining: http://www.thearling.com/ , retrieved on Mar 2, 2007
[2]. Data Mining: Efficient Data Exploration and Modeling:
http://research.microsoft.com/dmx/DataMining/ , retrieved on Mar 2, 2007
[3]. Christine Gertisio and Alan Dussauchoy, "Knowledge Discovery from Industrial Data base", Journal of Intelligent Manufacturing, 15, 29-37, 2004
[4]. Berry, M. and Linoff, G. "Data Mining Techniques: For Marketing, Sales, and Customer Support" New York: John Wiley and Sons, 1997
[5]. Cornelia Gyorodi, Robert Gyorodi, Stefan Holban-"A Comparative Study of Association Rules Mining Algorithms" , SACI 2004, 1 st Romanian-Hungarian Joint Symposium on Applied Computational Intelligence , Timisoara, Romania, May 25-26, page. 213-222, 2004
[6]. Berson, A., Smith S., and Thearling K., "Building Data Mining Applications for CRM" Tata McGraw-Hill, New York, 2004
[7].Fayyad U., Piatetsky-Shapiro G., and Smyth p., "From Data Mining to Knowledge Discovery in Databases," American Association for Artificial Intelligence, 1996
[8]. An overview of data mining techniques: http://www.thearling.com/ , retrieved on Mar 2, 2007
[9]. All Data Mining Software: http://www.the-data-mine.com/bin/view/Software/AllDataMiningSoftware, retrieved on Mar 2, 2007
[10]. ARLITT, M. AND WILLIAMSON, C. 1996: Web Server Workload Characterization: The Search for Invariants. In Proc Of SIGMETRICS 96, (May 1996), 126—137
[11]. CALZAROSSA, M. AND SERAZZI, G. 1985: A Characterization of the Variation in Time of Workload Arrival Patterns. In IEEE Trans. On Computers 34, 2, 156-162
[12]. ELMS, C. 1980: Clustering –One method for Workload Characterization. In Processing of the International Conference on Computer Capacity Management, San Francisco, Calif . 1980
[13]. FU, K. 1974: Syntactic Methods in Pattern Recognition, Academic Press.
[14]. HARTIGAN, J. AND WONG, N. 1979: A K – means Clustering Algorithms. In Applied Statistics 28, 100-108
[15]. JAIN, A., MURTY, M., AND FLYNN, P. 1999: Data Clustering: A. Review. In ACM Computing Surveys 31, 3, (Sept. 1999), 264-323
[16]. www.bloor-research.com – email: info@bloor-research.com
[17]. http://research.microsoft.com/dmx/DataMining/,retrieved on Mar 2, 2007
[18]. http://www.thearling.com/, retrieved on Mar
[19]. Raymond Kosala, Hendrik Blockeel, ‘Web Mining Research: A Survey’ , Celestijnenlaan 200A, B3001 Heverlee, Belgium, ACM SIGKDD Explorations, July 2000.
[20]. R. Cooley, B.Mobasher and J.Srivastava, ‘Web Mining Information and Pattern Discovery on the World Wide Web’ , Information Gathering from Heterogeneous Distributed Environments, December 2001.
[21]. Jiawei Han Kevin, Chen-Chuan Chang, ‘Data Mining for Web Intelligence’, University of Illinois at Urbana Champaign , November 2002.
[22]. Amir H. Youssefi, David J. Duke, Mohammed J. Zaki, ‘Visual Web Mining ‘ , WWW2004, May 17–22, 2004, New York, New York, USA. ACM 1-58113-912-8/04/0005.
[23] web usage mining. . حسن نژاد، مستوره و سلطانی، سیما."متدی برای بهبود بخشیدن ساختار وب سایت"
[24] .رضا قنبری ؛ " آشنایی با الگوریتم ژنتیک " ؛ دانشگاه صنعتی شریف ( دانشکده ریاضی )؛ 1381
.[25] . "TSP پیام خان تیموری؛ " الگوریتم ژنتیک و حل مساله
[26] . قهرمانی، معصومه، حسینی سنو، سیدامین و دکتر کاهانی، محسن . "یک روش جدید مبتنی بر رفتار کاربران جهت تخمین بار کاری وب سرورهای شبکه" . اولین همایش فناوری اطلاعات، حال، آینده . دانشگاه آزاد اسلامی
پروژه کاربرد کلاسترینگ در داده کاوی. doc