การทำความสะอาดข้อมูล Data cleansing หรือ Data cleaning คืออะไร

posted in: Blog | 0


การทำความสะอาดข้อมูล Data cleansing หรือ data cleaning หรือ data scrubbing คือ กระบวนการตรวจสอบ การแก้ไข หรือการลบ เพื่อให้รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น จึงทำให้ผู้เชี่ยวชาญหลาย ๆ คนมองว่าการล้างข้อมูลเป็นสิ่งสำคัญที่สุดในการจัดการกับคุณภาพของข้อมูล

ทั้งนี้ในการทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บแตกต่างกัน อาทิเช่น พิมพ์ผิด มีการเว้นว่างไม่กรอกข้อมูล กรอกข้อมูลที่ไม่สามารถอ้างอิงในระบบได้ หรือ เป็นตัวเลขที่ไม่มีทางเป็นไปได้ในความเป็นจริง ดังนั้นจึงต้องมีการบูรณาการกับฐานข้อมูลอื่น ๆ ไม่ว่าจะเป็น คลังข้อมูล หรือหลายฐานข้อมูล ซึ่งจะมีโอกาสสูงที่จะเกิด ข้อมูลที่ไม่สะอาด ขึ้นได้

ข้อควรระวังใน การทำความสะอาดข้อมูล

  1. การพิมพ์ผิด เมื่อมีการลงรายการใด ๆ ก็ตามในฐานข้อมลู ควรจะมีการตรวจสอบอย่างละเอียด รอบคอบและถี่ถ้วน และถี่ถ้วน
  2. การลงรายการที่ไม่ครบถ้วน ขาดรายการในบางเขตข้อมูล โดยเฉพาะเขตข้อมูลที่จำเป็น
  3. การไม่สม่ำเสมอในการลงรายการของข้อมูล ด้วยคำ ๆ เดียวกัน แต่มีการใช้ไม่เหมือนกัน แล้วแต่ความสะดวก ไม่มีมาตรฐานในการลงรายการ
  4. การตรวจสอบไม่ละเอียด ทำให้เกิดรายการซ้ำขึ้นได้ และทำให้เกิดการประมวลผลผิดพลาด
  5. การไม่ปรับปรุงรายการหลักฐานให้ทันสมัยอยู่เสมอ

ดังนั้นการทำความสะอาดข้อมูล ไม่เพียงแต่เป็นการจัดการข้อมูลที่ดี และไม่ใช่การเน้นเฉพาะการป้องกันข้อมูลที่ไม่ถูกต้องเท่านั้น แต่จะต้องอัปเดตฐานข้อมูล เพื่อแก้ไขข้อมูลที่ล้าสมัย ตลอดจนข้อผิดพลาดต่าง ๆ ที่ส่งผลต่อการจัดเก็บข้อมูลด้วย

ข้อมูล : facebook.com/datacafethailand และ supapornhuang.files.wordpress.com