Manratt: AI613 Class 9

วันนี้อาจารย์ศรีสมรักได้มาสอนเกี่ยวกับระบบ Data Warehouse ซึ่งต่อจากคาบที่แล้ว และในส่วนของ Business Intelligent (BI) โดยในช่วงการเรียนการสอนอาจารย์ได้พยายามจะเข้าระบบ Data Warehouse ของธรรมศาสตร์ โดยระบบของครุภัณฑ์ธรรมศาสตร์นั้นใช้ระบบ Technology ที่ชื่อว่า GIS เข้ามาช่วย โดยบุคลากรทุกคนรวมทั้งนักศึกษาธรรมศาสตร์สามารถ Login เข้าระบบด้วยชื่อเดียวกัน เนื่องจากธรรมศาสตร์มี Technology Single-sign on มารองรับในส่วนของการ Login นี้ แต่อาจารย์ไม่สามารถเข้าถึงระบบ Data Warehouse ได้ เนื่องจากมีปัญหาเกี่ยวกับการ Login เข้าระบบ ทำให้นักศึกษาพลาดโอกาสในการได้เห็นระบบ Data Warehouse ของจริง อย่างไรก็ตามเนื้อหาในคาบที่ 9 มีดังนี้

Data Warehouse คือ สถานที่ในการจัดเก็บข้อมูลต่างๆ โดยจัดเก็บอยู่ในระบบ Database โดยมีคุณสมบัติที่เป็นประโยชน์อยู่ 2 ประการด้วยกัน คือ

1. ผู้ใช้สามารถเข้าถึงข้อมูลได้เร็วขึ้น เนื่องจากข้อมูลทุกส่วนถูกจัดเก็บไว้ในที่เดียวกัน

2. ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่ายขึ้น เนื่องจากฐานข้อมูลทั้งหมดอยู่บน Web Browser

อย่างไรก็ตามสำหรับการจัดเก็บข้อมูลให้อยู่ใน Data Warehouse ไม่เสมอไปที่จะเป็นประโยชน์ บางครั้งก็มีโทษเหมือนกัน กล่าวคือ หากข้อมูลส่วนใดส่วนหนึ่งมีปัญหา ไม่สามารถเข้าถึงได้ ก็จะทำให้ข้อมูลทั้งระบบไม่สามารถเข้าถึงได้เช่นกัน เนื่องจากมีการจัดเก็บข้อมูลไว้ที่เดียวกัน

ลักษณะของ Data Warehouse

1. Organization มีกระบวนการในการกรองข้อมูลจากแหล่งข้อมูลต่างๆ เข้าไปยังระบบเดียวกันที่เรียกว่า Data Warehouse นั่นเอง โดยแบ่งข้อมูลต่างๆ ตามหัวข้อ (Subject)

2. Consistency กระบวนการในการคัดกรองข้อมูลให้ข้อมูลมีรูปแบบตรงกัน และข้อมูลมีการอัพเดตที่ตรงกัน เพื่อป้องกันไม่ให้มีข้อมูลซ้ำซ้อน หรือผิดพลาดในการวิเคราะห์ข้อมูลในขั้นตอนต่อไป

3. Time Variant กระบวนการจัดเก็บข้อมูล 5 – 10 ปี ทำให้ข้อมูลที่จัดเก็บใน Data Warehouse สามารถวิเคราะห์ถึงแนวโน้ม (Trend) ที่อาจจะเกิดขึ้นในอนาคตได้

Data Warehouse Processing

กระบวนการจัดทำ Data Warehouse สามารถแบ่งได้เป็นขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้

1. รวบรวมข้อมูล – จัดเก็บและรวบรวมข้อมูลทั้งหมดจากภายในองค์กร (Operational Data) และ ภายนอกองค์กร (External Data)

2. ทำ Meta Data- นำข้อมูลที่รวบรวมมาทั้งหมด มาสร้างเป็น Meta Data หรือ ข้อมูลของข้อมูล โดยวิธีการ Extract ซึ่ง Meta Data นี้ ใช้สำหรับอธิบายข้อมูลต่างๆ ที่อยู่ใน Warehouse ซึ่งจะมีทีมงานเข้ามาเกี่ยวข้องด้วย

3. ทำ Data Staging - จัดระบบข้อมูลที่มี และสร้างเป็น Data Cube ซึ่งประกอบไปด้วยขั้นตอนการทำ 4 ขั้นตอน ได้แก่ Extract, Clean, Transform และ Load (ETL)

4. สร้าง Data Warehouse – นำข้อมูลมาทำ Data Warehouse โดยยึด Business Object เป็นหลัก

5. สร้าง Business View – การนำเสนอข้อมูลสำหรับผู้บริหาร โดยต้องอยู่ในรูปแบบที่ง่าย เพื่ออำนวยความสะดวกในการนำไปใช้ของผู้บริหาร ซึ่งจะออกมาในรูปแบบของ Dash Board

Data Mart

Data Mart เปรียบเสมือน Data Warehouse หน่วยย่อยของแต่ละแผนก ดังนั้นจึงเหมาะสำหรับองค์กรขนาดใหญ่ที่มีแผนกย่อยจำนวนมาก เนื่องจาก Data Warehouse ของบริษัทนั้นมีขนาดใหญ่และมีผู้เข้าใช้จำนวนมาก ทำให้เกิดความวุ่นวายและสร้างปัญหาให้แก่ผู้ที่เข้าใช้ จึงคัดลอกข้อมูลในส่วนที่เกี่ยวข้องและมีความเหมาะสมของแต่ละแผนกให้เป็น Data Mart ของแต่ละแผนกเอง ซึ่ง Data Mart แบ่งออกเป็น 2 ประเภท คือ

1. Replicated (Dependent) Data Mart เป็นการสร้าง Data Warehouse ขององค์กรแล้วย่อยข้อมูลที่จำเป็นและเหมาะสมไปยังแผนกต่างๆ (Enterprise à SBU)

2. Stand-alone Data Mart เป็นการสร้าง Data Mart ของฝ่ายขึ้นมาโดยที่ไม่มี Data Warehouse ขององค์กร เนื่องจากองค์กรยังไม่มีความพร้อมในการสร้างเท่าฝ่าย แต่ข้อเสียของประเภทนี้คือ ความสำเร็จของกระบวนการนี้เป็นไปได้ยาก เพราะข้อมูลจะมีรูปแบบที่ไม่เหมือนกัน (SBU à Enterprise)

Data Cube

Data Cube เป็น Multidimensional Databases เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้น โดยข้อมูลที่มีทั้งหมดจะอยู่ในรูปแบบของลูกบาศก์ ซึ่งสามารถ Slice และ Dice ออกมาได้ โดยคุณสมบัติของ Cube นั้น คือทำให้การวิเคราะห์ข้อมูลได้เร็วขึ้น เนื่องจากมีคุณสมบัติประกอบไปด้วย

- Queries

- Slices and Dices of the information

- Rollups

- Drill Downs

Business Intelligence

Business Intelligence (BI) คือ กระบวนการรวมกันของการออกแบบโครงสร้างระบบ เครื่องมือประเภทต่างๆ รวมถึงระบบฐานข้อมูลและ Application ต่างๆ ที่ช่วยในการวิเคราะห์ข้อมูลให้มีประสิทธิภาพมากยิ่งขึ้น ประกอบไปด้วย 3 องค์ประกอบ ดังนี้

1. Reporting and Analysis - เป็นส่วนออกรายงานให้แก่ผู้ใช้ ซึ่งมีตัวอย่างรูปแบบของการออกรายงานต่างๆ เช่น

- Enterprise Reporting System - จัดทำรายงานทั้งในรูปแบบปกติ และรูปแบบที่สามารถปรับแก้เองได้ตามต้องการ ซึ่งรายงานเหล่านี้จะเป็นข้อมูลที่เตรียมให้สำหรับผู้บริหารนำไปใช้ในการวิเคราะห์ต่างๆ จากการสำรวจของ Fortune 500 พบว่า 95% ของผู้บริหารวางใจในข้อมูลและรายงานที่เค้าได้รับ

- Dashboards – การรายงานข้อมูลในส่วนของ Visual Display โดยแบ่งเป็นการแสดงรายงานของบุคลากรทั้ง 3 ระดับ ได้แก่ Operation Dashboard, Tactical Dashboard และ Strategic Dashboard

- Scorecard - เป็นรายงานสำหรับผู้บริหาร ผู้จัดการในระดับ strategic ซึ่งเป็นกระบวนการสำหรับการตรวจสอบและควบคุม โดยนำหลักมาจาก Balance Scorecard ที่แบ่งมิติสำหรับการตรวจสอบออกเป็น 4 มิติ ด้วยกันนอกจากนี้ยังมีการกำหนด KPIs ที่ใช้สำหรับการตรวจสอบและประเมินผลการทำงานอีกด้วย

2. Analytics – กระบวนการสำหรับการนำเครื่องมือมาใช้ในการวิเคราะห์ข้อมูลที่ได้จากแหล่งต่างๆ โดยมีตัวอย่างดังต่อไปนี้

- Business Performance Management (BPM)

- Online Analytical Processing (OLTP)

3. Data Mining - เป็นการแยกข้อมูลออกมาเพื่อพยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือการค้นหาข้อมูลที่เป็นประโยชน์ในอดีตในสิ่งที่เราไม่รู้ โดย Data Mining จะต้องทำกับบริษัทที่มี Database ขนาดใหญ่ที่มีข้อมูลจำนวนมาก เพื่อให้เกิดประโยชน์ในการค้นหา ข้อมูลที่จัดเก็บต้องอยู่ในส่วนของ Data Warehouse ที่จัดเก็บในส่วนของ Web-base ต้องรู้ว่าข้อมูลนี้มีประโยชน์หรือไม่ สามารถทำเป็น Parallel processing โดยกระบวนการของ Mining เริ่มต้นที่ การรวบรวมข้อมูลจากที่ต่างๆ ทั้ง Warehouse และแหล่งอื่น แล้วทำ ECTL (Extract, Clean, Transform, Load) ซึ่งการที่ต้องทำอีกครั้งเนื่องจากข้อมูลชิ้นเดียวกันกับใน Warehouse แต่อาจมีความหมายที่แตกต่างไปใน Mining แล้วจึงวิเคราะห์และประมวลผลข้อมูล และสิ่งสุดท้ายที่สำคัญ คือ การแปรผลข้อมูล ที่จะทำให้สามารถนำไปใช้ได้ง่ายยิ่งขึ้น

5 รูปแบบของ Data Mining

1. Clustering – นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยที่เราไม่มีสมมติฐาน

2. Classification - นำเสนอข้อมูลตามสมมติฐานรองรับ โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร

3. Association – นำเสนอผลสืบเนื่อง จากการวิเคราะห์

4. Sequence discovery – ผลที่เกิดตามหลังมา

5. Prediction - นำเสนอผลที่ใช้สำหรับการคาดการณ์ในอนาคต

ข้อดีข้อเสียของการทำ Data Mining

Data mining เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ แต่เทคนิคที่ซับซ้อนมากเกินไป ทำให้ผู้ใช้ต้องใช้ความรู้ ผ่านการอบรมและอาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผลอีกด้วย

v Text Mining – เป็นกระบวนการ Mining รูปแบบหนึ่ง ซึ่งใช้สำหรับข้อมูลที่ไม่มีรูปแบบ (Unstructured Data) เช่น ความคิดเห็นของลูกค้า ซึ่งเครื่องมือประเภทนี้จะช่วยในการหา hidden content และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน เพื่อง่ายต่อการวิเคราะห์ผลต่อไป โดยการนำเครื่องมือประเภทนี้มาใช้นั้น อาจออกมาในรูปแบบของการ detect e-mail spam โดยการ detect keyword บางคำ หรือการส่งต่อกระบวนการทำงานอย่างอัตโนมัติให้แก่ผู้ที่รับผิดชอบ เช่น โทรศัพท์ตอบรับอัตโนมัติที่ให้กดเบอร์ตามฝ่ายที่ต้องการและจะโอนให้โดยตรง หรือการที่ผู้ใช้ทั่วไปใช้งานของระบบ Microsoft แล้วมีข้อผิดพลาด ก็จะมีหน้าต่างสำหรับการส่งรายงานข้อผิดพลาดของ Microsoft ขึ้นมาทันที

แมนรัตน์ กิตติวราภรณ์

5202115100

Manratt

Welcome

วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613 Class 9

ไม่มีความคิดเห็น:

แสดงความคิดเห็น