Thứ Ba, 13 tháng 11, 2018

Parse tài liệu XML không validation áp dụng cơ chế tiền xử lí và thực hiện chia nhỏ tài liệu phân tích thành các XML fragment

Parse tài liệu XML không validation áp dụng cơ chế tiền xử lí và thực hiện chia nhỏ tài liệu phân tích thành các XML fragment

Tác giả: Lê Thanh Nam

Mục đích: Bài viết nhằm hướng dẫn parse và xử lí tài liệu XML chưa well-formed. Một tài liệu XML được xem là lỗi khi không well-formed hoặc không validate. Tuy nhiên các bộ parser có sẵn trong JDK như SAX và StAX không hỗ trợ trong việc xử lí các tài liệu xml không well-formed (SAX kiểm tra well-formed mới xử lý, StAX kiểm tra well-formed từng phần, đa số các trường hợp không đúng chuẩn well-formed sẽ dừng quá trình xử lí). Chúng tôi giới thiệu giải pháp xử lý các vấn đề này thông qua việc hiện thực bộ Resolver nhằm giải quyết trường hợp lỗi well-formed thông dụng nhất như lỗi nested tag (thiếu, thừa thẻ). Bên cạnh đó, chúng tôi sẽ hướng dẫn cách chia tài liệu xml thành nhiều phần nhỏ nhằm giải quyết xử lý các nội dung không well-formed một cách dễ dàng hơn. Giải pháp này sử dụng các bộ parser SAX và StAX kết hợp việc validate dữ liệu sử dụng JAXB kết hợp với bộ Validator.

Thứ Năm, 1 tháng 11, 2018

Parse tài liệu Xml không Well-Formed sử dụng StAX parser với các trường hợp thiếu thẻ đóng tag và thẻ sai thẻ đóng tag

Parse tài liệu Xml không Well-Formed sử dụng StAX parser với các trường hợp thiếu thẻ đóng tag và thẻ sai thẻ đóng tag

Tác giả: Nguyễn Sinh Cung

Mục đích: Bài viết này nhằm hỗ trợ việc phân tích dữ liệu từ tài liệu xml chưa well-formed, cụ thể là việc crawl dữ liệu từ các trang website sử dụng html. Bài viết này sử dụng bộ StAX parser để xử lý các trường hợp trong quá trình parse tài liệu chưa well-form khi thiếu thẻ đóng và sai thẻ đóng, tiếp tục quá trình xử lý mà không dừng chương trình lại.