Welcome

Welcome to my WORLD!!!

วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613 Class 9

          วันนี้อาจารย์ศรีสมรักได้มาสอนเกี่ยวกับระบบ Data Warehouse ซึ่งต่อจากคาบที่แล้ว และในส่วนของ Business Intelligent (BI) โดยในช่วงการเรียนการสอนอาจารย์ได้พยายามจะเข้าระบบ Data Warehouse ของธรรมศาสตร์ โดยระบบของครุภัณฑ์ธรรมศาสตร์นั้นใช้ระบบ Technology ที่ชื่อว่า GIS เข้ามาช่วย โดยบุคลากรทุกคนรวมทั้งนักศึกษาธรรมศาสตร์สามารถ Login เข้าระบบด้วยชื่อเดียวกัน เนื่องจากธรรมศาสตร์มี Technology Single-sign on มารองรับในส่วนของการ Login นี้ แต่อาจารย์ไม่สามารถเข้าถึงระบบ Data Warehouse ได้ เนื่องจากมีปัญหาเกี่ยวกับการ Login เข้าระบบ ทำให้นักศึกษาพลาดโอกาสในการได้เห็นระบบ Data Warehouse ของจริง อย่างไรก็ตามเนื้อหาในคาบที่ 9 มีดังนี้

Data Warehouse คือ สถานที่ในการจัดเก็บข้อมูลต่างๆ โดยจัดเก็บอยู่ในระบบ Database โดยมีคุณสมบัติที่เป็นประโยชน์อยู่ 2 ประการด้วยกัน คือ
1.       ผู้ใช้สามารถเข้าถึงข้อมูลได้เร็วขึ้น เนื่องจากข้อมูลทุกส่วนถูกจัดเก็บไว้ในที่เดียวกัน
2.       ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่ายขึ้น เนื่องจากฐานข้อมูลทั้งหมดอยู่บน Web Browser
อย่างไรก็ตามสำหรับการจัดเก็บข้อมูลให้อยู่ใน Data Warehouse ไม่เสมอไปที่จะเป็นประโยชน์ บางครั้งก็มีโทษเหมือนกัน กล่าวคือ หากข้อมูลส่วนใดส่วนหนึ่งมีปัญหา ไม่สามารถเข้าถึงได้ ก็จะทำให้ข้อมูลทั้งระบบไม่สามารถเข้าถึงได้เช่นกัน เนื่องจากมีการจัดเก็บข้อมูลไว้ที่เดียวกัน

ลักษณะของ Data Warehouse
1.       Organization มีกระบวนการในการกรองข้อมูลจากแหล่งข้อมูลต่างๆ เข้าไปยังระบบเดียวกันที่เรียกว่า Data Warehouse นั่นเอง โดยแบ่งข้อมูลต่างๆ ตามหัวข้อ (Subject)
2.       Consistency กระบวนการในการคัดกรองข้อมูลให้ข้อมูลมีรูปแบบตรงกัน และข้อมูลมีการอัพเดตที่ตรงกัน เพื่อป้องกันไม่ให้มีข้อมูลซ้ำซ้อน หรือผิดพลาดในการวิเคราะห์ข้อมูลในขั้นตอนต่อไป
3.       Time Variant กระบวนการจัดเก็บข้อมูล 5 – 10 ปี ทำให้ข้อมูลที่จัดเก็บใน Data Warehouse สามารถวิเคราะห์ถึงแนวโน้ม (Trend) ที่อาจจะเกิดขึ้นในอนาคตได้

Data Warehouse Processing 
กระบวนการจัดทำ Data Warehouse สามารถแบ่งได้เป็นขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้
1. รวบรวมข้อมูล จัดเก็บและรวบรวมข้อมูลทั้งหมดจากภายในองค์กร (Operational Data) และ ภายนอกองค์กร (External Data)
2. ทำ Meta Data- นำข้อมูลที่รวบรวมมาทั้งหมด มาสร้างเป็น Meta Data หรือ ข้อมูลของข้อมูล โดยวิธีการ Extract ซึ่ง Meta Data นี้ ใช้สำหรับอธิบายข้อมูลต่างๆ ที่อยู่ใน Warehouse ซึ่งจะมีทีมงานเข้ามาเกี่ยวข้องด้วย
3. ทำ Data Staging - จัดระบบข้อมูลที่มี และสร้างเป็น Data Cube ซึ่งประกอบไปด้วยขั้นตอนการทำ 4 ขั้นตอน ได้แก่ Extract, Clean, Transform และ Load (ETL) 
4. สร้าง Data Warehouse นำข้อมูลมาทำ Data Warehouse โดยยึด Business Object เป็นหลัก
5. สร้าง Business View การนำเสนอข้อมูลสำหรับผู้บริหาร โดยต้องอยู่ในรูปแบบที่ง่าย เพื่ออำนวยความสะดวกในการนำไปใช้ของผู้บริหาร ซึ่งจะออกมาในรูปแบบของ Dash Board 

Data Mart 
Data Mart เปรียบเสมือน Data Warehouse หน่วยย่อยของแต่ละแผนก ดังนั้นจึงเหมาะสำหรับองค์กรขนาดใหญ่ที่มีแผนกย่อยจำนวนมาก เนื่องจาก Data Warehouse ของบริษัทนั้นมีขนาดใหญ่และมีผู้เข้าใช้จำนวนมาก ทำให้เกิดความวุ่นวายและสร้างปัญหาให้แก่ผู้ที่เข้าใช้ จึงคัดลอกข้อมูลในส่วนที่เกี่ยวข้องและมีความเหมาะสมของแต่ละแผนกให้เป็น Data Mart ของแต่ละแผนกเอง ซึ่ง Data Mart แบ่งออกเป็น 2 ประเภท คือ
1. Replicated (Dependent) Data Mart เป็นการสร้าง Data Warehouse ขององค์กรแล้วย่อยข้อมูลที่จำเป็นและเหมาะสมไปยังแผนกต่างๆ (Enterprise à SBU)         
2. Stand-alone Data Mart เป็นการสร้าง Data Mart ของฝ่ายขึ้นมาโดยที่ไม่มี Data Warehouse ขององค์กร เนื่องจากองค์กรยังไม่มีความพร้อมในการสร้างเท่าฝ่าย แต่ข้อเสียของประเภทนี้คือ ความสำเร็จของกระบวนการนี้เป็นไปได้ยาก เพราะข้อมูลจะมีรูปแบบที่ไม่เหมือนกัน (SBU à Enterprise)

Data Cube 
Data Cube เป็น Multidimensional Databases เพื่อให้สามารถมองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น จุดเด่นของ Data Cube คือ สามารถตัดแบ่งส่วนเพื่อเลือกข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้สามารถวิเคราะห์ข้อมูลที่มีได้ในหลายมิติ หลายมุมมอง ทำให้เห็นปัญหาที่ชัดเจนขึ้น โดยข้อมูลที่มีทั้งหมดจะอยู่ในรูปแบบของลูกบาศก์ ซึ่งสามารถ Slice และ Dice ออกมาได้ โดยคุณสมบัติของ Cube นั้น คือทำให้การวิเคราะห์ข้อมูลได้เร็วขึ้น เนื่องจากมีคุณสมบัติประกอบไปด้วย
-          Queries
-          Slices and Dices of the information
-          Rollups
-          Drill Downs


Business Intelligence

Business Intelligence (BI) คือ กระบวนการรวมกันของการออกแบบโครงสร้างระบบ เครื่องมือประเภทต่างๆ รวมถึงระบบฐานข้อมูลและ Application ต่างๆ ที่ช่วยในการวิเคราะห์ข้อมูลให้มีประสิทธิภาพมากยิ่งขึ้น ประกอบไปด้วย 3 องค์ประกอบ ดังนี้
1. Reporting and Analysis - เป็นส่วนออกรายงานให้แก่ผู้ใช้ ซึ่งมีตัวอย่างรูปแบบของการออกรายงานต่างๆ เช่น
- Enterprise Reporting System - จัดทำรายงานทั้งในรูปแบบปกติ และรูปแบบที่สามารถปรับแก้เองได้ตามต้องการ ซึ่งรายงานเหล่านี้จะเป็นข้อมูลที่เตรียมให้สำหรับผู้บริหารนำไปใช้ในการวิเคราะห์ต่างๆ จากการสำรวจของ Fortune 500 พบว่า 95% ของผู้บริหารวางใจในข้อมูลและรายงานที่เค้าได้รับ
- Dashboards การรายงานข้อมูลในส่วนของ Visual Display โดยแบ่งเป็นการแสดงรายงานของบุคลากรทั้ง 3 ระดับ ได้แก่ Operation Dashboard, Tactical Dashboard และ Strategic Dashboard 
- Scorecard - เป็นรายงานสำหรับผู้บริหาร ผู้จัดการในระดับ strategic ซึ่งเป็นกระบวนการสำหรับการตรวจสอบและควบคุม โดยนำหลักมาจาก Balance Scorecard ที่แบ่งมิติสำหรับการตรวจสอบออกเป็น 4 มิติ ด้วยกันนอกจากนี้ยังมีการกำหนด KPIs ที่ใช้สำหรับการตรวจสอบและประเมินผลการทำงานอีกด้วย
2. Analytics กระบวนการสำหรับการนำเครื่องมือมาใช้ในการวิเคราะห์ข้อมูลที่ได้จากแหล่งต่างๆ โดยมีตัวอย่างดังต่อไปนี้
- Business Performance Management (BPM)
- Online Analytical Processing (OLTP) 
3. Data Mining - เป็นการแยกข้อมูลออกมาเพื่อพยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือการค้นหาข้อมูลที่เป็นประโยชน์ในอดีตในสิ่งที่เราไม่รู้ โดย Data Mining จะต้องทำกับบริษัทที่มี Database ขนาดใหญ่ที่มีข้อมูลจำนวนมาก เพื่อให้เกิดประโยชน์ในการค้นหา ข้อมูลที่จัดเก็บต้องอยู่ในส่วนของ Data Warehouse ที่จัดเก็บในส่วนของ Web-base ต้องรู้ว่าข้อมูลนี้มีประโยชน์หรือไม่ สามารถทำเป็น Parallel processing โดยกระบวนการของ Mining เริ่มต้นที่ การรวบรวมข้อมูลจากที่ต่างๆ ทั้ง Warehouse และแหล่งอื่น แล้วทำ ECTL (Extract, Clean, Transform, Load) ซึ่งการที่ต้องทำอีกครั้งเนื่องจากข้อมูลชิ้นเดียวกันกับใน Warehouse แต่อาจมีความหมายที่แตกต่างไปใน Mining แล้วจึงวิเคราะห์และประมวลผลข้อมูล และสิ่งสุดท้ายที่สำคัญ คือ การแปรผลข้อมูล ที่จะทำให้สามารถนำไปใช้ได้ง่ายยิ่งขึ้น 

5 รูปแบบของ Data Mining
 
1. Clustering – นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยที่เราไม่มีสมมติฐาน
2. Classification - นำเสนอข้อมูลตามสมมติฐานรองรับ โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
3. Association – นำเสนอผลสืบเนื่อง จากการวิเคราะห์
4. Sequence discovery – ผลที่เกิดตามหลังมา
5. Prediction - นำเสนอผลที่ใช้สำหรับการคาดการณ์ในอนาคต

ข้อดีข้อเสียของการทำ Data Mining
 
Data mining เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ แต่เทคนิคที่ซับซ้อนมากเกินไป ทำให้ผู้ใช้ต้องใช้ความรู้ ผ่านการอบรมและอาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผลอีกด้วย

v    Text Mining เป็นกระบวนการ Mining รูปแบบหนึ่ง ซึ่งใช้สำหรับข้อมูลที่ไม่มีรูปแบบ (Unstructured Data) เช่น ความคิดเห็นของลูกค้า ซึ่งเครื่องมือประเภทนี้จะช่วยในการหา hidden content และจับกลุ่มข้อมูลที่มีลักษณะเดียวกันเข้าด้วยกัน เพื่อง่ายต่อการวิเคราะห์ผลต่อไป โดยการนำเครื่องมือประเภทนี้มาใช้นั้น อาจออกมาในรูปแบบของการ detect e-mail spam โดยการ detect keyword บางคำ หรือการส่งต่อกระบวนการทำงานอย่างอัตโนมัติให้แก่ผู้ที่รับผิดชอบ เช่น โทรศัพท์ตอบรับอัตโนมัติที่ให้กดเบอร์ตามฝ่ายที่ต้องการและจะโอนให้โดยตรง หรือการที่ผู้ใช้ทั่วไปใช้งานของระบบ Microsoft แล้วมีข้อผิดพลาด ก็จะมีหน้าต่างสำหรับการส่งรายงานข้อผิดพลาดของ Microsoft ขึ้นมาทันที 

แมนรัตน์ กิตติวราภรณ์
5202115100

วันพุธที่ 12 มกราคม พ.ศ. 2554

AI613 Class 8 (12/1/11)

           ระบบ (System) คือ ระบบที่มีกระบวนการทำงานโดยการใส่ Input ผ่าน Process เพื่อให้ได้ Output ออกมา โดยมีการกำหนดวัตถุประสงค์ก่อนหน้าการทำงานเพื่อให้ได้ Output ตามที่ต้องการ ดังนั้นการที่เราใส่ Input และหรือผ่าน Process ที่แตกต่างกัน ผลที่ได้ หรือ Output ก็จะแตกต่างกันด้วย
 ระบบสารสนเทศ (Information System) คือ ระบบที่ทำหน้าที่ในการรวบรวมข้อมูลจากแหล่งต่างๆ และนำข้อมูลไปประมวลผลหรือวิเคราะห์ เพื่อให้ได้สารสนเทศตามวัตถุประสงค์และนำเสนอแก่ผู้ที่ต้องการ  และทำการจัดเก็บบันทึกข้อมูลไว้เพื่อใช้ในอนาคตต่อไป โดยระบบสารสนเทศมีลักษณะแตกต่างกันไปตามงานที่ทำเพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และผู้ใช้งาน เช่น AIS สำหรับงานบัญชี หรือMKIS สำหรับการตลาด เป็นต้น  โดยองค์ประกอบของระบบสารสนเทศ ได้แก่ 
v Hardware
v Software
v Data
v Network
v Procedures
v People
Date VS Information
สำหรับการพิจารณาความแตกต่างระหว่าง Data และ Information นั้น จะต้องคำนึงถึงประโยชน์ที่ผู้รับได้รับ กล่าวคือ ถ้าผู้รับเห็นว่า Output มีประโยชน์ มีผลต่อพฤติกรรมและการตัดสินใจของผู้รับข้อมูล ก็จะเรียกว่า Information แต่หาก output นั้นผู้รับไม่รู้สึกได้รับประโยชน์ output นั้นจะเป็นเพียง Data

Data Management
 การบริหารจัดการข้อมูล (Data Management) คือ การบริหารแหล่งข้อมูลที่ถูกเก็บรวบรวมไว้ที่ศูนย์กลาง เพื่อเพิ่มประสิทธิภาพ ลดการซ้ำซ้อน และขัดแย้งกันของข้อมูลในองค์กร อย่างไรก็ตามสำหรับการบริหารจัดการข้อมูลก็มีประเด็นที่น่าสนใจ ดังนี้
1.      ข้อมูลมีจำนวนมาก และเพิ่มขึ้นอย่างรวดเร็ว
2.      ข้อมูลกระจัดกระจายไม่ได้รวมอยู่ที่เดียวกัน ทำให้เกิดเป็นความซ้ำซ้อนของข้อมูลได้
3.      การจัดเก็บข้อมูลอยู่ในรูปแบบต่างกัน บางครั้งต้องจัดเก็บจากภายนอก
4.      ประเด็นด้านความปลอดภัย คุณภาพ ความสมบูรณ์ของข้อมูล และจริยธรรมในการใช้ข้อมูล
5.      การเลือกเครื่องมือในการจัดการข้อมูล

สำหรับขั้นตอนการบริหารจัดการข้อมูล (Data Management) แบ่งเป็น 4 ขั้นตอน ได้แก่
1.      Data Profiling ป้อนข้อมูลเบื้องต้นของข้อมูลที่จัดเก็บ โดยข้อมูลประกอบไปด้วย ใครเป็นคนสร้าง ข้อมูลเหล่านี้จัดเก็บอยู่ที่ไหน จัดเก็บอย่างไร และใครเป็นผู้ใช้ข้อมูล
2.      Data quality management ปรับปรุงคุณภาพของข้อมูล และพัฒนาประสิทธิภาพของข้อมูล
3.      Data integration รวบรวมข้อมูลที่เหมือนกันจากหลายแหล่งเข้าด้วยกัน
4.      Data augmentation เพิ่มคุณค่าของข้อมูล

Data life cycle process     
                แบ่งออกเป็น 4 ขั้นตอน ดังนี้
1.      New data collection กระบวนการเริ่มต้นสำหรับการเก็บข้อมูลจาก 3 แหล่งคือ Internal Data, External Data และ Personal Data ใส่ใน database
2.       Stored in a database เลือกข้อมูลมารวมกันที่ Data Warehouse โดยจะเลือกเฉพาะข้อมูลย่อยๆ ที่ต้องการใช้ ไม่เลือกมาทั้งกลุ่ม
3.      Users access the database and take a copy of the needed data for analysisคัดลอกข้อมูลไปวิเคราะห์
4.      Use Data analysis tools or Data mining tools for analysis วิเคราะห์ข้อมูล อาจใช้เครื่องมือช่วยในการวิเคราะห์ เช่น OLAP, EIS, DSS เป็นต้น หลังจากนั้นจึงนำข้อมูลที่ผ่านการะวิเคราะห์ไปประยุกต์ใช้ เช่น การทำ SCM, CRM หรือการวางแผนกลยุทธ์ เป็นต้น

Data Processing
·         Transactional  เป็นการประมวลผลข้อมูลขั้นพื้นฐาน ระดับปฏิบัติการ  Transaction Processing System (TPS) จะถูกจัดการเป็นลำดับขั้น และถูกจัดการโดยส่วนกลา
·         Analytical เป็นการเอาข้อมูลมาใช้ประมวลผลอีกครั้งเพื่อการตัดสินใจระดับสูงขึ้นไป นำข้อมูลเหล่านี้ไปใช้วิเคราะห์ต่อ โดยตัวอย่างของเครื่องมือที่ใช้ในการวิเคราะห์  เช่น OLAP EIS DSS 
การดึงข้อมูลมาจาก Database อาจทำให้ระบบ TPS ทำงานล่าช้า เนื่องจาก Database ขึ้นอยู่กับ TPS ดังนั้นองค์กรจึงสร้าง Data warehouseเพื่อแยก Operational process และ Analytical process ออกจากกัน

Data Warehouse
Data Warehouse คือ ขั้นตอนการเตรียมข้อมูลที่เกี่ยวข้อง เพื่อนำไปใช้ในการวิเคราะห์และประมวลผลสำหรับการตัดสินใจอีกครั้ง ซึ่งเหมาะกับองค์กรที่ผู้บริหารเน้นการใช้ข้อมูลในการตัดสินใจ จะไม่เหมาะกับองค์กรที่ผู้บริหารใช้ประสบการณ์ในการตัดสินใจ

ประโยชน์ของ data warehouse
v สามารถเข้าถึงข้อมูลได้เร็ว
v สามารถเข้าถึงข้อมูลได้ง่าย และบ่อย

ลักษณะของ Data Warehouse
1.      organization มีการจดหมวดหมู่ของข้อมูลใหม่ โดยจัดตามสิ่งที่สนใจ (Subject) เป็นหลัก
2.      consistency ข้อมูลมีความสม่ำเสมอเหมือนกัน อยู่ในรูปแบบเดียวกัน
3.      time variant มีช่วงเวลาที่ชัดเจน
4.      non-volatile ข้อมูลจะไม่มีการเปลี่ยนแปลง ไม่มีการถูกอัพเดท
5.      relational ใช้ relational structure
6.      client/server ใช้ server เพื่อให้ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่าย

องค์กรที่เหมาะกับการใช้ Data Warehouse
v มีข้อมูลจำนวนมากที่ End-user ต้องการเข้าถึงข้อมูล
v Operational data ถูกจัดเก็บในหลายระบบ
v มีการใช้ข้อมูลเป็นปัจจัยสำคัญในการตัดสินใจ
v มีจำนวนลูกค้าจำนวนมาก และหลากหลาย
v ข้อมูลถูกเก็บในระบบและรูปแบบที่ยากต่อการเข้าใจและแปลความ
v ข้อมูลเป็นปัจจัยสำคัญในการตัดสินใจทางธุรกิจ

แมนรัตน์ กิตติวราภรณ์
5202115100