Thứ Sáu, 5 tháng 5, 2017

Capstone: Automatic Alternative Image Recognition to Voice (Nhận dạng hình ảnh hỗ trợ người mù giao tiếp)

Capstone: Automatic Alternative Image Recognition to Voice (Nhận dạng hình ảnh hỗ trợ người mù giao tiếp)

(Phan Trung Thành, Nguyễn Vũ Hoàng Sơn, Võ Hà Quân - Tháng 04/2017)

Mô tả: Ứng dụng phát triển dựa trên nhu cầu thực tế về việc hỗ trợ người mù trong việc xác định những người thân quen xung quanh họ, những đối tượng họ gặp trên đường đi hay cuộc sống hàng ngày. Bên cạnh đó, hệ thống cũng hỗ trợ họ nhận biết được những đồ vật xung quanh họ. Hơn thế nữa, hế thống hỗ trợ sử dụng giọng nói để giao tiếp với người mù khi nhận dạng được người hay vật thể.
Ngoài ra, hệ thống cho phép họ đưa thông tin người mới vào trong hệ thống bằng giọng nói hay trực tiếp trên ứng dụng hay web site dưới sự hỗ trợ của người sang mắt. Hệ thống hỗ trợ nhận dạng người thông qua hình chụp trực tiếp hay real time thông qua cơ chế streaming video để thông báo trực tiếp cho người dùng khi họ đang đi trong cuộc sống thường ngày. Hệ thống cũng hỗ trợ người dùng về loại bỏ hay thông báo thông tin về người trùng lắp nhằm giảm thiểu hiệu suất trong quá trình nhận dạng. Hệ thống được implement trên việc sử dụng dịch vụ Microsoft Cognitive Services để phân loại người dùng theo dạng group cho từng người dùng, mỗi group này chứa nhóm người mà họ training vào hệ thống cùng với tập hình ảnh tương thích với từng người để từ đó có thể tìm kiếm nhanh nhất và trả về kết quả cho người dùng. Để nhận dạng vật thể thì nhóm sử dụng công nghệ Clarifai để thưc hiện training thông tin và so khớp thông tin dựa trên khái niệm deep learning với ba đối tượng là input – nội dung hay hình ảnh được đưa vào hệ thống lưu trữ cho việc tìm kiếm hay việc xử lý, concept – những đặc tính liên quan đến đối tượng để hỗ trợ trong quá trình tìm kiếm và model – phân loại các nhóm đối tượng cần tìm kiếm để tăng tính hiệu quả trong quá trình tìm kiếm. Hệ thống được xây dựng với cơ chế của việc xử lý áp dụng phương pháp deep learning với hình ảnh dạng input sẽ được chyển đổi thành các phần nhỏ thông qua phương pháp convolutional, sau đó các thành phần kết quả được chuyển qua giai đoạn max pooling để rút gọn nội dung lưu trữ, tiếp theo là sử dụng convolutional neutral network với các estimate function để lưu trữ nhằm hỗ trợ quá trình matching tốt nhất. Ứng dụng thực hiện các chức năng như Cho phép hệ thống xác thực người dùng; Hỗ trợ người dùng nhận dạng người và vật thể thông qua hình ảnh và thông báo bằng giọng nói; Hỗ trợ người dùng nhận dạng người dùng real time thông qua streaming video trực tiếp; Cho phép người mù training người mới vào hệ thống thông qua giọng nói và người hỗ trợ người mù thông qua web site và ứng dụng trực tiếp; Cho phép admin training vật thể vào trong hệ thống; Cho phép người dùng yêu cầu hệ thống phân loại dữ liệu trùng lặp để merge hay chỉnh sửa để tăng tính hiệu suất của dự án; Cấu hình thời gian để hệ thống thực hiện các tác vụ chạy ngầm đề hỗ trợ hệ thống về việc nhận dạng, phát giọng nói. Xây dựng qui trình dựa trên nhu cầu thực tế áp dụng công nghệ web services, Python, Microsoft Cognitive Services, Clarifai kết hợp với điện thoại di động sử dụng hệ điều hành Android. Ứng dụng sử dụng cơ chế lập lịch để hệ thống có thể chạy tự động với các tác vụ để xử lý mà không cần sự tương tác của người sử dụng. Ứng dụng xây dựng trên nền tảng của ứng dụng Web, SOA, Android platform, Python, Microsoft Cognitive Services, Clarifai.

Không có nhận xét nào:

Đăng nhận xét