Thứ Hai, 12 tháng 11, 2018

Parse tài liệu XML không validation áp dụng cơ chế tiền xử lí và thực hiện chia nhỏ tài liệu phân tích thành các XML fragment

Parse tài liệu XML không validation áp dụng cơ chế tiền xử lí và thực hiện chia nhỏ tài liệu phân tích thành các XML fragment

Tác giả: Lê Thanh Nam

Mục đích: Bài viết nhằm hướng dẫn parse và xử lí tài liệu XML chưa well-formed. Một tài liệu XML được xem là lỗi khi không well-formed hoặc không validate. Tuy nhiên các bộ parser có sẵn trong JDK như SAX và StAX không hỗ trợ trong việc xử lí các tài liệu xml không well-formed (SAX kiểm tra well-formed mới xử lý, StAX kiểm tra well-formed từng phần, đa số các trường hợp không đúng chuẩn well-formed sẽ dừng quá trình xử lí). Chúng tôi giới thiệu giải pháp xử lý các vấn đề này thông qua việc hiện thực bộ Resolver nhằm giải quyết trường hợp lỗi well-formed thông dụng nhất như lỗi nested tag (thiếu, thừa thẻ). Bên cạnh đó, chúng tôi sẽ hướng dẫn cách chia tài liệu xml thành nhiều phần nhỏ nhằm giải quyết xử lý các nội dung không well-formed một cách dễ dàng hơn. Giải pháp này sử dụng các bộ parser SAX và StAX kết hợp việc validate dữ liệu sử dụng JAXB kết hợp với bộ Validator.