การทำความสะอาดข้อมูล Data cleansing หรือ data cleaning หรือ data scrubbing คือ กระบวนการตรวจสอบ การแก้ไข หรือการลบ เพื่อให้รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น จึงทำให้ผู้เชี่ยวชาญหลาย ๆ คนมองว่าการล้างข้อมูลเป็นสิ่งสำคัญที่สุดในการจัดการกับคุณภาพของข้อมูล
ทั้งนี้ในการทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บแตกต่างกัน อาทิเช่น พิมพ์ผิด มีการเว้นว่างไม่กรอกข้อมูล กรอกข้อมูลที่ไม่สามารถอ้างอิงในระบบได้ หรือ เป็นตัวเลขที่ไม่มีทางเป็นไปได้ในความเป็นจริง ดังนั้นจึงต้องมีการบูรณาการกับฐานข้อมูลอื่น ๆ ไม่ว่าจะเป็น คลังข้อมูล หรือหลายฐานข้อมูล ซึ่งจะมีโอกาสสูงที่จะเกิด ข้อมูลที่ไม่สะอาด ขึ้นได้
ข้อควรระวังใน การทำความสะอาดข้อมูล
- การพิมพ์ผิด เมื่อมีการลงรายการใด ๆ ก็ตามในฐานข้อมลู ควรจะมีการตรวจสอบอย่างละเอียด รอบคอบและถี่ถ้วน และถี่ถ้วน
- การลงรายการที่ไม่ครบถ้วน ขาดรายการในบางเขตข้อมูล โดยเฉพาะเขตข้อมูลที่จำเป็น
- การไม่สม่ำเสมอในการลงรายการของข้อมูล ด้วยคำ ๆ เดียวกัน แต่มีการใช้ไม่เหมือนกัน แล้วแต่ความสะดวก ไม่มีมาตรฐานในการลงรายการ
- การตรวจสอบไม่ละเอียด ทำให้เกิดรายการซ้ำขึ้นได้ และทำให้เกิดการประมวลผลผิดพลาด
- การไม่ปรับปรุงรายการหลักฐานให้ทันสมัยอยู่เสมอ
ดังนั้นการทำความสะอาดข้อมูล ไม่เพียงแต่เป็นการจัดการข้อมูลที่ดี และไม่ใช่การเน้นเฉพาะการป้องกันข้อมูลที่ไม่ถูกต้องเท่านั้น แต่จะต้องอัปเดตฐานข้อมูล เพื่อแก้ไขข้อมูลที่ล้าสมัย ตลอดจนข้อผิดพลาดต่าง ๆ ที่ส่งผลต่อการจัดเก็บข้อมูลด้วย
ข้อมูล : facebook.com/datacafethailand และ supapornhuang.files.wordpress.com