HOIDAPNHANH.ORG là nơi bạn có thể đặt câu hỏi và nhận được câu trả lời từ các thành viên khác của cộng đồng.
0 phiếu
333 lượt xem
trong Khoa học - Công nghệ bởi

1 câu trả lời

0 phiếu
bởi

1. Khái niệm
Thuật ngữ #OCROptical Character Recognition 
Dịch qua Tiếng Việt gọi là: Nhận dạng ký tự bằng quang học.
Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file hình và chuyển nó thành định dạng file text.

2. Phạm vi ứng dụng
#OCR thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến.

Ví dụ:
– ABBYY FineReader là một phần mềm ứng dụng công nghệ OCR nổi tiếng nhất hiện nay
– OmniPage là một ứng dụng đi kèm với dòng máy Kodak ScanMate i1120 giúp nhận dạng văn bản sau khi quét.
– Website www.ocrnow.com là một trang web cung cấp giải pháp OCR trực tuyến giúp người dùng có thể upload trực tiếp file cần OCR lên server và nhận lại kết quả dưới dạng text chỉ sau vài phút.

3. Khó khăn và hạn chế của OCR
Các chương trình hỗ trợ OCR có thể nhận dạng ký tự với tỷ lệ trên 90% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan.

Đối với văn bản Tiếng Việt thì tỷ lệ phần trăm chính xác không cao so với các văn bản ngôn ngữ khác.

4. OCR đối với Tiếng Việt
Hiện nay tại Việt Nam đã có chương trình nhận dạng Tiếng Việt có tên là VnDOCR do Phòng nhận dạng và Công nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu và phát triển. Bên cạnh đó còn có một dự án OCR Tiếng Việt có tên VietOCR (http://vietocr.sourceforge.net). Dự án này được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ.

Tuy nhiên theo đánh giá của cá nhân tôi thì các chương trình này vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình. Đối với các văn bản viết tay thì hầu như không thể nhận dạng được.

Hy vọng rằng trong các năm tới đây chúng ta sẽ nghiên cứu và phát triển thành công ứng dụng công nghệ OCR cho giải pháp số hoá dữ liệu văn bản Tiếng Việt, góp phần vào sự phát triển chung của nước nhà!.

Không có câu hỏi liên quan nào được tìm thấy

13.7k câu hỏi

5.1k trả lời

79.3k bình luận

1.9k thành viên

Thành viên tích cực
Trong tháng:
    Diễn đàn đô thị Văn Phú

    Danh hiệu gần đây

    Regular
    - vandynalla -
    Famous Question
    - diemmy -
    Popular Question
    - vanphong -
    Popular Question
    - hoainhan -
    Popular Question
    - Đặng Anh Tuấn -
    Famous Question
    - thanhmai24 -
    22 Online
    0 thành viên và 22 khách
    Tổng truy cập
    12237770
    ...