Thứ Tư, 31 tháng 10, 2018

Parse tài liệu Xml không Well-Formed sử dụng StAX parser với các trường hợp thiếu thẻ đóng tag và thẻ sai thẻ đóng tag

Parse tài liệu Xml không Well-Formed sử dụng StAX parser với các trường hợp thiếu thẻ đóng tag và thẻ sai thẻ đóng tag

Tác giả: Nguyễn Sinh Cung

Mục đích: Bài viết này nhằm hỗ trợ việc phân tích dữ liệu từ tài liệu xml chưa well-formed, cụ thể là việc crawl dữ liệu từ các trang website sử dụng html. Bài viết này sử dụng bộ StAX parser để xử lý các trường hợp trong quá trình parse tài liệu chưa well-form khi thiếu thẻ đóng và sai thẻ đóng, tiếp tục quá trình xử lý mà không dừng chương trình lại.