فی فوو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فی فوو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

پروژه کاربرد کلاسترینگ در داده کاوی. doc

اختصاصی از فی فوو پروژه کاربرد کلاسترینگ در داده کاوی. doc دانلود با لینک مستقیم و پر سرعت .

پروژه کاربرد کلاسترینگ در داده کاوی. doc


پروژه کاربرد کلاسترینگ در داده کاوی. doc

 

 

 

 

نوع فایل: word

قابل ویرایش 150 صفحه

 

چکیده:

داده کاوی تلاش برای استخراج دانش انبوه داده های موجود است . داده کاوی به کمک مجموعه ای از روش های آماری و مدل سازی، می تواند الگوها و روابط پنهان موجود در پایگاه های داده را تشخیص دهد . تاکنون ابزارها و روش های مختلف برای پردازش اطلاعات ساخت یافته توسعه داده شده است که در نتیجه آنها ساخت پایگاه های اطلاعاتی و ایجاد انبارهای داده به سادگی صورت می گیرد . امروزه سازمان ها قادرند با هزینه کم اطلاعات وسیعی از وضعیت کسب و کار خود جمع و نگهداری کنند و این موجب شده است که استفاده از روش های داده کاوی، ارزش قابل توجهی را برای سازمان بدست آورد . رویکردهای موجود به مسأله داده کاوی متنوع است . در این گزارش نگاهی به آخرین دستاوردهای این زمینه علمی انداخته خواهد شد .  

 

مقدمه:

بشر با پیشرفت فناوری رایانه ای در ثبت و ذخیره سازی داده ها و پردازش آن ها گامی بزرگ جهت کسب دانش برداشته است . در واقع نمایشی از واقعیت ها، معلومات، مفاهیم، رویدادها یا پدیده ها برای برقراری ارتباط، تفسیر یا پردازش، توسط انسان یا ماشین است . از طرف دیگر واژه ی اطلاعات، به معنی دانشی که از طریق خواندن، مشاهده و آموزش به دست می آید اطلاق می شود . در حقیقت می توان گفت اطلاعات داده هایی هستند که پس از جمع آوری پردازش شده اند و شکل مفهومی تولید کرده اند .

بین داده ها و اطلاعات همانند خبر و اطلاع رابطه وجود دارد . خبری که دریافت می شود، پس از ارزیابی به اطلاع تبدیل می شود . داده ها نیز پردازش می شوند تا اطلاعات را پدید آورند . به بیان دیگر اطلاع حاصل تکامل داده ها است . به این ترتیب بین داده ها و اطلاعات یک شکاف وجود دارد که اندازه این شکاف با حجم داده ها ارتباط مستقیم دارد . هر چه داده ها حجیم تر باشند، این شکاف بیشتر خواهد بود و هر چه داده ها کمتر و روش ها و ابزار پردازش داده ها کاراتر باشد، فاصله بین داده ها و اطلاعات کمتر است . امروزه افزایش سریع حجم پایگاه داده ها به شکلی است که توانایی انسان برای درک این داده ها بدون ابزارهای پر قدرت میسر نمی باشد . در این وضعیت، تصمیم گیری ها به جای تکیه بر اطلاعات بر درک مدیران و کاربران تکیه دارند، چرا که تصمیم گیرندگان ابزار قوی برای استخراج اطلاعات با ارزش را در دست ندارند . در واقع شرایط فعلی توصیف کننده ی حالتی است که ما از لحاظ داده غنی، اما از لحاظ اطلاعات ضعیف هستیم . 

 

فهرست مطالب:

فصل اول

مقدمه ای بر داده کاوی

چکیده

1-1 مقدمه

1-2 تاریخچه ی داده کاوی

1-3 روش های گردآوری اطلاعات

1-4 داده کاوی چیست ؟

1-4-1  حلقه داده کاوی چیست ؟

1-4-1-1 شناسایی فرصت های تجاری

1-4-1-2 داده کاوی

1-4-1-2-1  مراحل داده کاوی

1-4-1-3 انجام اقدامات

1-4-1-4 اندازه گیری نتایج

1-1 آمار و داده کاوی

حجم داده ها

نوع داده ها

پردازش داده ها

وظایف معمول

اهداف تحقیق

1-6  داده کاوی چه کاری انجام می دهد ؟

1-6-1  عملیات داده کاوی

1-6-1-1 دسته بندی و پیشگویی

1-6-1-1-1 روش های دسته بندی

1-6-1-2  خوشه بندی

1-6-1-3  تحلیل روابط و وابستگی ها

1-6-1-4 پیش بینی

1-7 نرم افزارهای داده کاوی

1-8  پایگاه دادة تحلیلی (Data Warehouse)

1-8-1 تفاوت های پایگاه داده تحلیلی با پایگاه داده عملیاتی

1-8-2 ابزار های سطح پایین (Back-End) پایگاه داده تحلیلی

1-8-3 ابزارهای پرس و جو و تحلیل داده های ذخیره شده درdata warehouse و data mart

1-9 سرویس دهنده های پردازش تحلیلی بر خط

1-9-1 مزایا و معایب سرویس دهنده های OLAP

1-10 مکعب داده

1-11 جدول واقعیت

1-11-1 جدول ابعاد

1-12 داده کاوی در اوراکل

1-12-1 توابع داده کاو اوراکل

الگوریتم ها

1-13 گام های مدل سازی

جستجوگر مدل

1-14 داده کاوی در Clementine

1-14-1 معماری

1-14-2  متدلوژی clementine

الگوریتم ها

فصل دوم

مقدمه ای بر وب کاوی

2-1 مقدمه

2-2 رده بندی های وب کاوی

2-2-1 Web Content Mining

2-2-2 web usage mining

2-2-3 Web Structure Mining

2-3 فایل log :

2-3-1 انجام عمل پیش پردازش روی فایل های log

2-4 تشخیص کاربران : (user identification)

2-5 session identification

2-6  تشخیص الگو ها

2-7  تکنیک های آماری

2-8 قوانین ارتباطی

2-9 الگو های ترتیبی

2-10 خوشه بندی

2-11 مشکلات روش تحلیل گزارش های وبweb log analysis method )  )

2-12 نتیجه گیری

فصل سوم

الگوریتم های ژنتیک

3-1 مقدمه

3-2 زمینه های بیولوژیکی

3-3 فضای جستجو

3-4 مسائل NP

3-5 مفاهیم اولیه در الگوریتم ژنتیک

3-5-1 اصول پایه

3-5-2 شمای کلی الگوریتم ژنتیک

3-5-3 ساختار متداول الگوریتم ژنتیک

3-6 کد کردن

3-6-1 انواع کدینگ

3-6-2 روشهای کدینگ

3-6-3 مسائل مربوط به کدینگ

3-7 مرحله ارزیابی (evaluation)

3-8 عملگر تقاطع و جهش

3-9 رمز گشایی

3-10 کروموزوم

3-11 جمعیت

3-12 مقدار برازندگی

3-13 تعریف دیگر عملگر تقاطعی

3-14 تعریف دیگرعملگر جهشی

3-15 مراحل اجرای الگوریتم ژنتیک

3-16 حل یک مساله نمونه توسط الگوریتم ژنتیک

3-17 همگرایی الگوریتم ژنتیک

3-18 نتیجه گیری

فصل چهارم

کاربرد کلاسترینگ

4-1 مقدمه

4-2 مسئلة خوشه بندی توزیع شده

4-3 مشکلات روش متمرکز سازی داده ها

4-4  الگوریتم خوشه بندی K-Means

4-5 الگوریتم خوشه بندی توزیع شده DisK-Means

4-6 ساخت مدل محلی

4-7 ساخت مدل عمومی

4-8 یک روش جدید مبتنی بر رفتار کاربران جهت تخمین بار کاری وب سرورهای شبکه

4-9 کلاسترینگ داده های وب

4-10 کلاسترینگ   های کاربر

4-10-1 الگوریتم های کلاسترینگ ها

4-10-1-1 کلاسترینگ مبتنی بر مدل

4-10-1-1-1  توصیف بار کاری سیستم های کامپیوتری

تکنیک های ایستا

آنالیز جزء اصلی

تکنیک های پویا

میانگین متحرک ( )

4-11 کارهای وابسته قبلی

4-12  مدل پیشنهادی

4-13  محیط پیاده سازی

4-14  نتایج ، آنالیز و ارزیابی مدل

4-15  نتیجه گیری

منابع و مراجع

 

فهرست اشکال:

شکل 1-1  مراحل داده کاوی

شکل 1-2  جایگاه پایگاه داده تحلیل

شکل 1-3-1  Data Warehouse process

شکل 1-3-2 Data Warehouse process

شکل 1-4  معماری چند لایه

شکل 1-5 نمونه ای از مکعب داده

شکل 1-6  مفهوم مکعب داده

شکل 1-7  داده کاوی در اوراکل

شکل 1-8  اوراکل یا سایز ابزار

شکل 1-9  مراحل متدولوژی Clementine

شکل 1-10  چرخه داده کاوی Clementine

شکل 3-1 نمونه ای از فضای جواب

شکل 3-2  کدینگ باینری

شکل 3-3  کدینگ جهشی

شکل 3-4  کدینگ ارزشی

شکل 3-5  کدینگ درختی

شکل 3-6  فضای کدینگ و فضای جواب

شکل 3-7  رابطه بین کروموزوم ها و جواب ها

شکل 3-8  انواع روابط بین فضای جواب و فضای کدینگ

شکل 3-9 مثال رمز گشایی

شکل 3-10  مثال جهش

شکل 3-11 نمایش یک کروموزوم n بیتی پایه عددی m

شکل 3-12  مثالی از جباجایی تک نقطه ای

شکل 3-13  تقاطع در کروموزومهای که از شکل کد شده چهار متغیر بوجود آمده است

شکل 3-14  تقاطعی دو نقطه ای

شکل 3-15  عمل تقاطعی یکنواخت

شکل 3-16  نمونه ای از عمل جهش

شکل 3-17 مراحل اجرای الگوریتم ژنتیک

شکل 3-18 چرخ دولت

شکل 3-19 نمایش کروموزوم معادل زوج (X,Y)

شکل 4-1 خوشه بندی توزیع شده

شکل 4-2  ثابت شدن فلش Cetroid

شکل 4-3 الگوریتم خوشه بندی توزیع شده Disk-Means

شکل 4-4  ساخت مدل محلی، ترکیب اطلاعات خوشه ها

شکل 4-5-1  ساخت مدل محلی، ترکیب اطلاعات خوشه ها

شکل 4-5-2  ساخت مدل محلی، ترکیب اطلاعات خوشه ها

شکل 4-5-3  ساخت مدل  محلی، حالت کلی

شکل 4-6 حاللات مختلف قرار گرفتن چند خوشه کنار هم

شکل 4-7-1  ساخت مدل محلی، حالت دوم

شکل 4-7-2  ساخت مدل محلی، حالت دوم

شکل 4-8  نمونه هایی از CBMG های حاصل از درخواست های کاربران یکی از سیستم های مورد تست

در دانشگاه مشهد

شکل 4-9  هیستوگرام داده های باقیمانده لینک Presented Courset بعد از حذف داده های پرت

از یکی از سیستم های وب دانشگاه

شکل 4-10  نمودار P-PPlot داده های لینک Presented Courset

شکل 4-11  هیستوگرام داده های باقیمانده لینک Show Edueationallog بعد از حذف داده های پرت

 

فهرست جداول:

جدول 3-1  مثال های تقاطع تک نقطه ای

جدول 3-2  مثال های تقاطع دو نقطه ای

جدول 3-3  نمونه ای از عمل جهش

جدول 3-4  انتخاب کروموزومها با استفاده از چرخ رولت

جدول 3-5  نمایش جمعیت اولیه

جدول 3-6  نتایج عمل تقاطع

جدول 3-7 نتایج عمل جهش با Pm=0.2

جدول 3-8  کروموزوم با بیشترین مقدار برازندگی

جدول 4-1 جزئیات ترافیک تولید شده توسط برنامه شبیه ساز

 

منابع و مأخذ:

[1]. An Introduction to Data Mining: http://www.thearling.com/ , retrieved on Mar 2, 2007

[2]. Data Mining: Efficient Data Exploration and Modeling:

http://research.microsoft.com/dmx/DataMining/ , retrieved on Mar 2, 2007

[3]. Christine Gertisio and Alan Dussauchoy, "Knowledge Discovery from Industrial Data base", Journal of Intelligent Manufacturing, 15, 29-37, 2004

[4]. Berry, M. and Linoff, G. "Data Mining Techniques: For Marketing, Sales, and Customer Support" New York: John Wiley and Sons, 1997

[5]. Cornelia Gyorodi, Robert Gyorodi, Stefan Holban-"A Comparative Study of Association Rules Mining Algorithms" , SACI 2004, 1 st Romanian-Hungarian Joint Symposium on Applied Computational Intelligence , Timisoara, Romania, May 25-26, page. 213-222, 2004

[6]. Berson, A., Smith S., and Thearling K., "Building Data Mining Applications for CRM" Tata McGraw-Hill, New York, 2004

[7].Fayyad U., Piatetsky-Shapiro G., and Smyth p., "From Data Mining to Knowledge Discovery in Databases," American Association for Artificial Intelligence, 1996

[8]. An overview of data mining techniques: http://www.thearling.com/ , retrieved on Mar 2, 2007

[9]. All Data Mining Software: http://www.the-data-mine.com/bin/view/Software/AllDataMiningSoftware, retrieved on Mar 2, 2007

[10]. ARLITT, M. AND WILLIAMSON, C. 1996: Web Server Workload Characterization: The Search for Invariants. In Proc  Of SIGMETRICS 96, (May 1996), 126—137

[11]. CALZAROSSA, M. AND SERAZZI, G. 1985: A Characterization of the Variation in Time of Workload Arrival Patterns. In IEEE Trans. On Computers 34, 2, 156-162

[12]. ELMS, C. 1980: Clustering –One method for Workload Characterization. In Processing of the International Conference on Computer Capacity Management, San Francisco, Calif . 1980

[13]. FU, K. 1974: Syntactic Methods in Pattern Recognition, Academic Press.

[14]. HARTIGAN, J. AND WONG, N. 1979: A K – means Clustering Algorithms. In Applied Statistics 28, 100-108

[15]. JAIN, A., MURTY, M., AND FLYNN, P. 1999: Data Clustering: A. Review. In ACM Computing Surveys 31, 3, (Sept. 1999), 264-323

[16]. www.bloor-research.com – email: info@bloor-research.com

[17]. http://research.microsoft.com/dmx/DataMining/,retrieved on Mar 2, 2007

[18]. http://www.thearling.com/, retrieved on Mar

[19]. Raymond Kosala, Hendrik Blockeel, ‘Web Mining Research: A Survey’ , Celestijnenlaan 200A, B3001 Heverlee, Belgium, ACM SIGKDD Explorations, July 2000.

[20].  R. Cooley, B.Mobasher and J.Srivastava, ‘Web Mining Information and Pattern Discovery on the World Wide Web’ , Information Gathering from Heterogeneous Distributed Environments, December 2001.

[21].  Jiawei Han Kevin, Chen-Chuan Chang, ‘Data Mining for Web Intelligence’, University of Illinois at Urbana Champaign , November 2002.

[22].  Amir H. Youssefi, David J. Duke, Mohammed J. Zaki, ‘Visual Web Mining ‘ , WWW2004, May 17–22, 2004, New York, New York, USA. ACM 1-58113-912-8/04/0005.

[23] web usage mining. . حسن نژاد، مستوره و سلطانی، سیما."متدی برای بهبود بخشیدن ساختار وب سایت"

[24]      .رضا قنبری ؛ " آشنایی با الگوریتم ژنتیک " ؛ دانشگاه صنعتی شریف ( دانشکده ریاضی )؛ 1381

.[25]     . "TSP   پیام خان تیموری؛ " الگوریتم ژنتیک و حل مساله

[26] . قهرمانی، معصومه، حسینی سنو، سیدامین و دکتر کاهانی، محسن . "یک روش جدید مبتنی بر رفتار کاربران جهت تخمین بار کاری وب سرورهای شبکه" . اولین همایش فناوری اطلاعات، حال، آینده . دانشگاه آزاد اسلامی


دانلود با لینک مستقیم


پروژه کاربرد کلاسترینگ در داده کاوی. doc