1. Khái niệm
Thuật ngữ #OCR : Optical Character Recognition
Dịch qua Tiếng Việt gọi là: Nhận dạng ký tự bằng quang học.
Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file hình và chuyển nó thành định dạng file text.
2. Phạm vi ứng dụng
#OCR thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến.
Ví dụ:
– ABBYY FineReader là một phần mềm ứng dụng công nghệ OCR nổi tiếng nhất hiện nay
– OmniPage là một ứng dụng đi kèm với dòng máy Kodak ScanMate i1120 giúp nhận dạng văn bản sau khi quét.
– Website www.ocrnow.com là một trang web cung cấp giải pháp OCR trực tuyến giúp người dùng có thể upload trực tiếp file cần OCR lên server và nhận lại kết quả dưới dạng text chỉ sau vài phút.
3. Khó khăn và hạn chế của OCR
Các chương trình hỗ trợ OCR có thể nhận dạng ký tự với tỷ lệ trên 90% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan.
Đối với văn bản Tiếng Việt thì tỷ lệ phần trăm chính xác không cao so với các văn bản ngôn ngữ khác.
4. OCR đối với Tiếng Việt
Hiện nay tại Việt Nam đã có chương trình nhận dạng Tiếng Việt có tên là VnDOCR do Phòng nhận dạng và Công nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu và phát triển. Bên cạnh đó còn có một dự án OCR Tiếng Việt có tên VietOCR (http://vietocr.sourceforge.net). Dự án này được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ.
Tuy nhiên theo đánh giá của cá nhân tôi thì các chương trình này vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình. Đối với các văn bản viết tay thì hầu như không thể nhận dạng được.
Hy vọng rằng trong các năm tới đây chúng ta sẽ nghiên cứu và phát triển thành công ứng dụng công nghệ OCR cho giải pháp số hoá dữ liệu văn bản Tiếng Việt, góp phần vào sự phát triển chung của nước nhà!.