Pages

Rabu, 14 Maret 2012

OCR (Optical Character Recognition)

Pengertian OCR
Optical Character Recognition, yang biasa disingkat OCRadalah alat mekanis atau elektronika yang digunakan untuk menerjemahkan tulisan tangan ataupun naskah ketikan (biasanya dipindai menggunakan pemindai/scanner) menjadi teks yang dapat diedit kembali dengan suatu aplikasi komputer, seperti Microsoft Word, dll.
Sehingga dengan adanya OCR kita tidak lagi harus repot untuk melakukan pengetikan ulang naskah ketikkan yang sangat banyak. Sebagai contoh, anda akan mengetik ulang buku. Nah terbayang tidak jika anda harus mengetik ulang kembali buku-buku tersebut ? Pasti anda akan berfikir dua kali untuk melakukannya bukan ?
Untuk melakukan OCR sendiri harus memerlukan sebuah perangkat lunak dan perangkat keras. Scanner merupakan salah satu perangkat keras yang dibutuhkan. Sedangkan untuk perangkat lunaknya dapat menggunakan Omnipage, Abbyy FineReader, FreeOCR, dll.

Tipe OCR
Jenis/tipe OCR ada 5, yaitu :
1. OCR dengan menggunakan Microsoft OneNote 2007
2. OCR Dengan Menggunakan Microsoft Office Document Imaging
3. OCR Sederhana
4. TopOCR
5. FreeOCR 

Contoh-contoh software OCR yaitu :
1.ABBYY FineReader Commercial Windows, Mac OS X.
2.Alt-N Technologies' Commercial WindowsRelayFax Network Fax Manager.
3.AnyDoc Software OCR for Commercial WindowsAnyDoc.
4.Brainware Commercial Windows.
5.CuneiForm BSD variant Windows, Linux, BSD, MacOSX.
6.CVISION Technologies, Commercial WindowsInc. PdfCompressor andMaestro Recognition Server.
7.ExperVision TypeReader & Commercial Windows,Mac OS X,Unix,Linux,OS/2OpenRTK X.
8.GOCR GPL Many (open source).
9.HOCR GPL Linux.
10.Microsoft Office Document Commercial WindowsImaging
Cara Penggunaan OCR dan Gambarnya

1. Microsoft OFFICE ONENOTE 2007

Mengubah Gambar Hasil Scan Dokumen Menjadi Teks yang Bisa Diedit dengan Menggunakan MICROSOFT OFFICE ONENOTE 2007

Bagi anda yang memiliki Microsoft Office OneNote 2007 di komputernya, maka anda bisa mamakai cara berikut ini untuk mengubah gambar dokumen menjadi teks yang bisa anda edit :
1. Buka Microsoft OneNote 2007 melalui Start -> All Programs -> Microsoft Office -> Microsoft OneNote  2007

2. Setelah Microsoft Office OneNote2007 terbuka, klik Insert -> Pictures -> From Files
3. Pilih gambar scan dokumen yang anda ingin ambil teks nya dan klik Insert
4. Setelah gambar dokumen tersebut terbuka, silahkan klik kanan -> Copy Text from Picture
5. Buka Microsoft Office Word melalui Start -> All Programs -> Microsoft office -> Microsoft office Word 2007
6. Paste di dokumen microsoft word 2007 anda.
7. Teks tersebut siap untuk anda edit.



2. Legal FreeOCR

Memakai Software Gratis dan Legal FreeOCR
Bagi anda yang tidak memiliki Microsoft Office OneNote 2007, anda bisa menggunakan software gratis dan legal FreeOCR. Untuk mendapatkan dan mengedit gambar dokumen dengan FreeOCR tersebut, silahkan ikuti langkah – langkah berikut ini :






Proses download dan instalasi :
1. Download FreeOCR disini
2. Double klik installer tersebut untuk mulai menginstal.
3. Klik next.
4. Centang “I Agree to Terms And Condition” dan klik next.
5. Klik instal dan tunggu hingga proses instalasi selesai.
6. Klik finish Ketika proses instalasi selesai.
Penggunaanya :
7. Buka Program FreeOCR.
8. Klik tombol Open.
9. Pilih hasil scan dokumen yang ingin anda edit teks nya dan klik open.
10. Klik tanda silang merah kemudian klik tombol OCR.
11. Teks hasil FreeOCR siap untuk anda edit.
Software OCR ini gratis, menggunakan mesin tesseract OCR. OCR tesseract kode dikembangkan di HP Labs antara tahun 1985 dan 1995 dan saat ini dengan Google. Fungsi dari mesin ini adalah :
•        Mendukung file gambar dan file TIFF dengan multi-halaman.
•        Dapat menangani format PDF dan juga kompatibel dengan perangkat TWAIN seperti scanner.
•        FreeOCR juga memiliki antarmuka jendela ganda akrab dan mudah untuk memahami pengaturan.
•        Sebelum memulai proses konversi satu klik, Anda dapat menyesuaikan kontras gambar yang lebih baik untuk dibaca.


3. SimpleOCR / OCR Sederhana

Menggunakan Software Gratis dan Legal SimpleOCR (Khusus dokumen berbahasa Inggris)
Jika dokumen anda berbahasa Inggris, selain menggunakan FreeOCR diatas, ada juga software gratis dan legal yang bisa anda gunakan untuk mengubah gambar scan atau foto dokumen menjadi teks yang bisa anda edit. Software ini adalah SimpleOCR. Software ini hanya cocok untuk dokumen yang berbahasa Inggris, karena ketika saya coba menggunakannya untuk dokumen yang berbahasa Indonesia, hasilnya jauh dari akurat. Untuk mendapatkan dan menggunakan SimpleOCR ini, silahkan anda ikut langkah berikut ini :
Proses download dan instalasi :
1. Download SimpleOCR disini
2. Double Klik installer yang baru saja anda download.
3. Klik next dan lanjutkan proses instalasi hingga selesai.
4. Klik finish ketika proses instalasi telah selesai.
Penggunaanya :
5. SimpleOCR akan otomatis terbuka, anda bisa memilih Machine Print untuk dokumen scan hasil print atau anda bisa juga memilih Hand Writing untuk dokumen hasil tulisan tangan (sayangnya fitur Hand Writing ini cuma trial 14 hari saja)
6. Klik Select untuk masuk ke Dokumen Editor SimpleOCR.
7. Klik Add Page.
8. Pilih sumber dokumen anda.
9. Pilih dokumen yang ingin anda ekstrak teks nya dan klik open.
10. Klik continue ketika muncul preview box.
11. Klik “convert to text”
12. Setelah proses convert selesai, anda bisa mengubah kata-kata yang tidak sesuai. Hal ini bisa dilakukan cukup dengan klik kata yang anda inginkan, kemudian pilih alternatif kata yang muncul di sebelah kanan kata tersebut.
13. Jika dokumen sudah anda edit, silahkan klik File -> Save As
14. Simpan di tempat yang anda inginkan.

Kesulitan yang sering dialami dengan pengenalan tulisan tangan bila menggunakan Microsoft Office, anda dapat menggunkan solusi dengan menggunakan SimpleOCR. Perangkat lunak ini menyediakan fasilitas :
•        Perangkat lunak ini dapat diatur untuk membaca langsung dari scanner atau dengan menambahkan halaman (jpg, tiff, format bmp).
•        SimpleOCR menawarkan beberapa kontrol atas konversi melalui seleksi teks, gambar dan teks mengabaikan pilihan fitur.
•        Konversi ke teks diperlukan proses ke tahapan validasi, pengguna dapat benar perbedaan dalam teks dikonversi menggunakan mantra built-in-checker.
•        File dikonversi dapat disimpan ke format doc atau txt.


4. TopOCR

TopOCR, software yang memisahkan diri dari perangkat lunak OCR khas, dirancang khusus untuk kamera digital (setidaknya 3MP) dan ponsel bersama dengan scanner. Seperti SimpleOCR, ia memiliki dua jendela antarmuka – Image sumber jendela dan jendela Teks. Gambar bersumber dari kamera atau pemindai di jendela kiri akan dikonversi ke format teks dalam editor teks di sebelah kanan. Fungsi editor teks seperti WordPad dan dapat menggunakan Teks Microsoft untuk Text to Speech.
•        Perangkat lunak ini mendukung JPEG, TIFF, GIF, dan format BMP.
•        Pengaturan Gambar seperti kecerahan, warna, kontras, despeckle, pertajam dll dapat digunakan untuk meningkatkan kualitas pembacaan pada gambar.
•        pengaturan Kamera penyaring juga dapat dikonfigurasi untuk meningkatkan citra.
•        File dikonversi dapat disimpan dalam berbagai format – PDF, RTF, HTML dan TXT.
•        TopOCR berfungsi dengan baik dengan teks berorientasi lurus tetapi gagal biasa dari OCR dengan teks berbentuk kolom tetap.
•        Perangkat lunak walaupun, mem-parsing sebuah halaman campuran (teks plus grafis) dengan baik dan proses teks saja.
•        Perangkat lunak ini bekerja dengan 11 bahasa



5. OCR Dengan Menggunakan Microsoft Office Document Imaging

Alat lain yang digunakan termasuk dari bagian Microsoft Office. Anda dapat menemukannya dengan mengklik Start => All Program => Microsoft Office => Microsoft Office Tools => Microsoft Office Document Imaging.
Melakukan OCR menggunakan alat imaging dokumen adalah sedikit terbatas karena hanya menerima format file TIFF (atau MDI). Tapi itu tidak terlalu mengganggu sebagai aplikasi grafis dapat digunakan untuk mengkonversi gambar ke TIFF. Anda dapat menggunakan software Adobe Photo Shop untuk mengkonversi file jpg ke dalam file Tiff atau program menggunakan MS Paint.
•        Buka Microsoft Office Document Imaging kemudian klik- File – Open untu mengambil file Tiff.
•        Klik ikon mata kecil – Recognize Text Using OCR.
•        Klik Icon MS Word – Send Text to Word.
•        Sebuah File MS Word terbuka dengan teks dikonversi dapat diedit.
Atau, Anda juga dapat menggunakan MS Paint untuk memilih wilayah tertentu dan salin ke clipboard. Buka MS Office Document Imaging – select Page – Tempel Halaman untuk menyalin pilihan dari OCR.

Kelebihan dan Kelemahan Penggunaan OCR
a.       Kelebihan
Dari pencarian cepat untuk menghemat ruang, ada banyak manfaat untuk memindai dokumen Anda dengan software OCR:

* Tidak ada lagi mengetik ulang
Jika Anda kehilangan atau tidak sengaja menghapus file digital yang penting, seperti proposal atau faktur, tetapi masih memiliki hard copy, Anda dapat dengan mudah menggantinya dalam sistem pengarsipan digital Anda dengan menggunakan software OCR untuk memindai dari dokumen asli
* Quick digital searches

OCR software mengkonversi teks ke dalam file pengolah kata, memberikan Anda kesempatan untuk mencari dokumen-dokumen tertentu menggunakan kata kunci (Keyword) atau frase. Misalnya, Anda dengan mudah dapat mencari ratusan faktur dan menemukan nama tertentu sesuai name list.

* Edit teks
Setelah Anda memindai dokumen Anda menggunakan OCR, Anda memiliki pilihan untuk mengedit teks dalam program pengolah kata pilihan Anda. Scan item yang mungkin perlu diperbarui/edit di masa depan untuk membantu mempercepat proses editing:
-Resep masakan keluarga
-Rental perjanjian
-Resumes/Lam
-Kontrak

*Hemat Tempat
Membebaskan ruang penyimpanan dokumen Anda dengan scan dokumen dan menyimpan file aslinya ke lemari penyimpanan.

* Accessibility
OCR software memberi Kemudahan Access. Pengguna dapat men-scan buku-buku, majalah, fax masuk, atau dokumen lain ke dalam program pengolah kata untuk digunakan dengan voice-over utility.

b.       Kelemahan
Ada beberapa kelemahan dari layanan OCR mengenai biaya serta proses mengenali karakter. Awalnya, biaya pengembangan melalui proses OCR replika mungkin tampak menguntungkan tapi jika Anda mempertimbangkan biaya siklus hidup sistem OCR keseluruhan, biaya akan jauh lebih tinggi dari layanan entri data. Mengoreksi kesalahan OCR jumlah biaya lebih dari menyiapkan format digital dokumen.
Akurasi yang tinggi perangkat lunak OCR dapat membaca lebih dari 400 karakter / detik, kira-kira, dan menghasilkan jumlah kurang dari kesalahan OCR dibandingkan dengan perangkat lunak OCR biasa. Oleh karena itu, jika Anda mencari proses OCR Anda harus menjaga workstation terpisah untuk memperbaiki kesalahan OCR.
OCR perangkat lunak tidak efisien dalam mengenali tulisan tangan dan font, yang cukup mirip dengan tulisan tangan. Dalam kasus seperti mengetik pengguna memainkan peran yang lebih baik dari proses OCR.