OCR AI apa pun
Seret dan lepas atau klik untuk memilih
Pribadi dan aman
Semuanya terjadi di browser Anda. File Anda tidak pernah menyentuh server kami.
Sangat cepat
Tanpa mengunggah, tanpa menunggu. Konversi saat Anda meletakkan file.
Benar-benar gratis
Tidak perlu akun. Tidak ada biaya tersembunyi. Tidak ada trik ukuran file.
Pengenalan Karakter Optik (OCR) mengubah gambar teks—pindaian, foto ponsel cerdas, PDF—menjadi string yang dapat dibaca mesin dan, semakin, data terstruktur. OCR modern adalah alur kerja yang membersihkan gambar, menemukan teks, membacanya, dan mengekspor metadata yang kaya sehingga sistem hilir dapat mencari, mengindeks, atau mengekstrak bidang. Dua standar output yang banyak digunakan adalah hOCR, sebuah format mikro HTML untuk teks dan tata letak, dan ALTO XML, sebuah skema berorientasi perpustakaan/arsip; keduanya mempertahankan posisi, urutan baca, dan isyarat tata letak lainnya dan didukung oleh mesin populer seperti Tesseract.
Tur singkat alur kerja
Pra-pemrosesan. Kualitas OCR dimulai dengan pembersihan gambar: konversi skala abu-abu, penghilangan noise, thresholding (binerisasi), dan deskewing. Tutorial OpenCV kanonik mencakup global, adaptif dan Otsu thresholding—pokok untuk dokumen dengan pencahayaan tidak seragam atau histogram bimodal. Ketika iluminasi bervariasi dalam satu halaman (pikirkan jepretan telepon), metode adaptif seringkali mengungguli ambang batas global tunggal; Otsu secara otomatis memilih ambang batas dengan menganalisis histogram. Koreksi kemiringan sama pentingnya: deskewing berbasis Hough (Transformasi Garis Hough) yang dipasangkan dengan binerisasi Otsu adalah resep umum dan efektif dalam alur kerja pra-pemrosesan produksi.
Deteksi vs. pengenalan. OCR biasanya dibagi menjadi deteksi teks (di mana teksnya ?) dan pengenalan teks (apa isinya?). Dalam pemandangan alam dan banyak pindaian, detektor konvolusional sepenuhnya seperti EAST secara efisien memprediksi kuadrilateral tingkat kata atau baris tanpa tahap proposal yang berat dan diimplementasikan dalam toolkit umum (misalnya, tutorial deteksi teks OpenCV). Pada halaman yang kompleks (koran, formulir, buku), segmentasi baris/wilayah dan inferensi urutan baca penting:Kraken mengimplementasikan segmentasi zona/garis tradisional dan segmentasi baseline saraf, dengan dukungan eksplisit untuk berbagai skrip dan arah (LTR/RTL/vertikal).
Model pengenalan. Kuda beban open-source klasik Tesseract (sumber terbuka oleh Google, dengan akar di HP) berevolusi dari pengklasifikasi karakter menjadi pengenal urutan berbasis LSTM dan dapat menghasilkan PDF yang dapat dicari, output ramah hOCR/ALTO, dan lainnya dari CLI. Pengenal modern mengandalkan pemodelan urutan tanpa karakter yang telah disegmentasi sebelumnya. Klasifikasi Temporal Connectionist (CTC) tetap menjadi dasar, mempelajari penyelarasan antara urutan fitur input dan string label output; ini banyak digunakan dalam alur kerja tulisan tangan dan teks pemandangan.
Dalam beberapa tahun terakhir, Transformer telah membentuk kembali OCR. TrOCR menggunakan encoder Vision Transformer plus decoder Text Transformer, dilatih pada korpora sintetis besar kemudian disesuaikan dengan data nyata, dengan kinerja yang kuat di seluruh tolok ukur cetak, tulisan tangan, dan teks pemandangan (lihat juga Dokumentasi Hugging Face). Secara paralel, beberapa sistem menghindari OCR untuk pemahaman hilir: Donut (Document Understanding Transformer) adalah encoder-decoder bebas OCR yang secara langsung menghasilkan jawaban terstruktur (seperti JSON kunci-nilai) dari dokumen gambar (repo, kartu model), menghindari akumulasi kesalahan saat langkah OCR terpisah memberi makan sistem IE.
Mesin dan perpustakaan
Jika Anda ingin membaca teks yang disertakan dengan baterai di banyak skrip, EasyOCR menawarkan API sederhana dengan 80+ model bahasa, mengembalikan kotak, teks, dan kepercayaan—berguna untuk prototipe dan skrip non-Latin. Untuk dokumen bersejarah, Kraken bersinar dengan segmentasi baseline dan urutan baca yang sadar skrip; untuk pelatihan tingkat baris yang fleksibel, Calamari membangun di atas garis keturunan Ocropy (Ocropy) dengan pengenal (multi-)LSTM+CTC dan CLI untuk menyempurnakan model kustom.
Dataset dan tolok ukur
Generalisasi bergantung pada data. Untuk tulisan tangan, Database Tulisan Tangan IAM menyediakan kalimat bahasa Inggris yang beragam penulis untuk pelatihan dan evaluasi; ini adalah set referensi yang sudah lama ada untuk pengenalan baris dan kata. Untuk teks pemandangan, COCO-Text melapisi anotasi ekstensif di atas MS-COCO, dengan label untuk cetak/tulisan tangan, terbaca/tidak terbaca, skrip, dan transkripsi penuh (lihat juga halaman proyek asli). Bidang ini juga sangat bergantung pada pra-pelatihan sintetis: SynthText in the Wild merender teks ke dalam foto dengan geometri dan pencahayaan yang realistis, menyediakan volume data yang sangat besar untuk pra-pelatihan detektor dan pengenal (referensi kode & data).
Kompetisi di bawah payung Robust Reading ICDAR menjaga evaluasi tetap membumi. Tugas-tugas terbaru menekankan deteksi/pembacaan ujung-ke-ujung dan mencakup menghubungkan kata-kata menjadi frasa, dengan pelaporan kode resmi presisi/perolehan kembali/F-score, persimpangan-atas-gabungan (IoU), dan metrik jarak edit tingkat karakter—mencerminkan apa yang harus dilacak oleh para praktisi.
Format output dan penggunaan hilir
OCR jarang berakhir pada teks biasa. Arsip dan perpustakaan digital lebih suka ALTO XML karena mengkodekan tata letak fisik (blok/baris/kata dengan koordinat) di samping konten, dan itu berpasangan dengan baik dengan kemasan METS. hOCR mikroformat, sebaliknya, menyematkan ide yang sama ke dalam HTML/CSS menggunakan kelas seperti ocr_line dan ocrx_word, membuatnya mudah untuk ditampilkan, diedit, dan diubah dengan perkakas web. Tesseract mengekspos keduanya—misalnya, menghasilkan hOCR atau PDF yang dapat dicari langsung dari CLI (panduan output PDF); Pembungkus Python seperti pytesseract menambahkan kenyamanan. Konverter ada untuk menerjemahkan antara hOCR dan ALTO ketika repositori memiliki standar penyerapan tetap —lihat daftar yang dikurasi ini dari alat format file OCR.
Panduan praktis
- Mulai dengan data & kebersihan. Jika gambar Anda adalah foto telepon atau pindaian berkualitas campuran, berinvestasi dalam thresholding (adaptif & Otsu) dan deskew (Hough) sebelum penyetelan model apa pun. Anda akan sering mendapatkan lebih banyak dari resep pra-pemrosesan yang kuat daripada dari menukar pengenal.
- Pilih detektor yang tepat. Untuk halaman yang dipindai dengan kolom biasa, segmenter halaman (zona → baris) mungkin cukup; untuk gambar alami, detektor sekali tembak seperti EAST adalah baseline yang kuat dan dicolokkan ke banyak toolkit (Contoh OpenCV).
- Pilih pengenal yang cocok dengan teks Anda. Untuk bahasa Latin cetak, Tesseract (LSTM/OEM) kokoh dan cepat; untuk multi-skrip atau prototipe cepat, EasyOCR produktif; untuk tulisan tangan atau jenis huruf historis, pertimbangkan Kraken atau Calamari dan rencanakan untuk menyempurnakan. Jika Anda memerlukan kopling yang erat untuk pemahaman dokumen (ekstraksi kunci-nilai, VQA), evaluasi TrOCR (OCR) versus Donut (bebas OCR) pada skema Anda—Donut dapat menghapus seluruh langkah integrasi.
- Ukur apa yang penting. Untuk sistem ujung-ke-ujung, laporkan deteksi F-score dan pengenalan CER/WER (keduanya berdasarkan jarak edit Levenshtein ; lihat CTC); untuk tugas-tugas berat tata letak, lacak IoU/ketatnya dan jarak edit yang dinormalisasi tingkat karakter seperti di kit evaluasi ICDAR RRC .
- Ekspor output yang kaya. Lebih suka hOCR /ALTO (atau keduanya) sehingga Anda menyimpan koordinat dan urutan baca—penting untuk penyorotan hasil pencarian, ekstraksi tabel/bidang , dan asal-usul. CLI Tesseract dan pytesseract menjadikannya satu baris.
Melihat ke depan
Tren terkuat adalah konvergensi: deteksi, pengenalan, pemodelan bahasa, dan bahkan decoding khusus tugas sedang bergabung menjadi tumpukan Transformer terpadu. Pra-pelatihan pada korpora sintetis besar tetap menjadi pengganda kekuatan. Model bebas OCR akan bersaing secara agresif di mana pun targetnya adalah output terstruktur daripada transkrip verbatim. Harapkan juga penerapan hibrida: detektor ringan plus pengenal gaya TrOCR untuk teks bentuk panjang, dan model gaya Donat untuk formulir dan tanda terima.
Bacaan lebih lanjut & alat
Tesseract (GitHub) · Dokumentasi Tesseract · Spesifikasi hOCR · Latar belakang ALTO · Detektor EAST · Deteksi Teks OpenCV · TrOCR · Donut · COCO-Text · SynthText · Kraken · Calamari OCR · ICDAR RRC · pytesseract · Tulisan Tangan IAM · Alat format file OCR · EasyOCR
Pertanyaan yang Sering Diajukan
Apa itu OCR?
Optical Character Recognition (OCR) adalah teknologi yang digunakan untuk mengubah berbagai jenis dokumen, seperti dokumen kertas yang telah dipindai, file PDF, atau gambar yang ditangkap oleh kamera digital, menjadi data yang dapat diedit dan dicari.
Bagaimana OCR bekerja?
OCR bekerja dengan memindai gambar atau dokumen input, membagi gambar menjadi karakter individu, dan membandingkan setiap karakter dengan database bentuk karakter menggunakan pengenalan pola atau pengenalan fitur.
Apa beberapa aplikasi praktis dari OCR?
OCR digunakan dalam berbagai sektor dan aplikasi, termasuk mendigitalkan dokumen yang dicetak, mengaktifkan layanan teks-ke-suara, mengotomatisasi proses entri data, dan membantu pengguna dengan gangguan penglihatan untuk berinteraksi lebih baik dengan teks.
Apakah OCR selalu 100% akurat?
Meskipun telah ada kemajuan besar dalam teknologi OCR, tetapi itu tidak sempurna. Akurasi dapat bervariasi tergantung pada kualitas dokumen asli dan spesifik dari software OCR yang digunakan.
Bisakah OCR mengenali tulisan tangan?
Meskipun OCR sebagian besar dirancang untuk teks cetak, beberapa sistem OCR lanjutan juga mampu mengenali tulisan tangan yang jelas dan konsisten. Namun, biasanya pengenalan tulisan tangan kurang akurat karena variasi besar dalam gaya tulisan individu.
Bisakah OCR menangani beberapa bahasa?
Ya, banyak sistem software OCR dapat mengenali beberapa bahasa. Namun, penting untuk memastikan bahwa bahasa spesifik tersebut didukung oleh software yang Anda gunakan.
Apa perbedaan antara OCR dan ICR?
OCR berarti Optical Character Recognition dan digunakan untuk mengenali teks cetak, sedangkan ICR, atau Intelligent Character Recognition, lebih canggih dan digunakan untuk mengenali teks tulisan tangan.
Apakah OCR bekerja dengan font dan ukuran teks apa pun?
OCR bekerja terbaik dengan font yang jelas, mudah dibaca dan ukuran teks standar. Meski bisa bekerja dengan berbagai font dan ukuran, akurasi cenderung menurun ketika berhadapan dengan font yang tidak biasa atau ukuran teks sangat kecil.
Apa saja keterbatasan teknologi OCR?
OCR bisa kesulitan dengan dokumen beresolusi rendah, font yang rumit, teks yang dicetak buruk, tulisan tangan, dan dokumen dengan latar belakang yang mengganggu teks. Juga, meskipun dapat bekerja dengan banyak bahasa, mungkin tidak mencakup setiap bahasa secara sempurna.
Bisakah OCR memindai teks berwarna atau latar belakang berwarna?
Ya, OCR dapat memindai teks berwarna dan latar belakang berwarna, meskipun umumnya lebih efektif dengan kombinasi warna kontras tinggi, seperti teks hitam pada latar belakang putih. Akurasi mungkin berkurang ketika warna teks dan latar belakang tidak memiliki kontras yang cukup.
Apa itu format AI?
Adobe Illustrator CS2
APNG (Animated Portable Network Graphics) adalah format file yang memperluas kemampuan format PNG (Portable Network Graphics) yang banyak digunakan untuk mendukung animasi. Format ini dibuat untuk menyediakan alternatif yang lebih efisien dan mudah diakses untuk GIF (Graphics Interchange Format) dalam menyajikan gambar animasi di web. APNG mempertahankan fitur kompresi lossless dan transparansi yang sama dari PNG sekaligus memperkenalkan kemampuan untuk menyimpan beberapa frame, yang memungkinkan pembuatan animasi yang halus dan berkualitas tinggi.
Format APNG dibangun di atas struktur PNG yang sudah ada dengan memperkenalkan tipe chunk baru yang dirancang khusus untuk animasi. Chunk utama yang digunakan dalam APNG adalah chunk `acTL` (Animation Control) dan chunk `fcTL` (Frame Control). Chunk `acTL` ditempatkan di awal file dan berisi informasi tentang animasi secara keseluruhan, seperti jumlah frame dan berapa kali animasi harus diputar. Chunk `fcTL` mendahului setiap frame dan menyediakan detail khusus frame, termasuk dimensi frame, posisi, dan waktu tunda.
Salah satu keuntungan utama APNG adalah kompatibilitas mundurnya dengan penampil PNG standar. File APNG dimulai dengan tanda tangan dan chunk penting yang sama seperti file PNG biasa, yang memungkinkannya ditampilkan sebagai gambar statis di aplikasi yang tidak mendukung APNG. Ini memastikan bahwa pengguna dengan browser atau penampil gambar yang lebih lama masih dapat melihat frame pertama animasi, menjaga kompatibilitas di berbagai platform.
Proses animasi dalam APNG didasarkan pada serangkaian frame, yang masing-masing diwakili oleh gambar terpisah. Frame pertama biasanya merupakan gambar yang dirender penuh, sementara frame berikutnya dapat berupa frame penuh atau frame parsial yang hanya berisi perubahan dari frame sebelumnya. Pendekatan ini memungkinkan penyimpanan yang lebih efisien dan waktu pemuatan yang lebih cepat, karena piksel yang tidak berubah tidak perlu digambar ulang untuk setiap frame.
Untuk membuat file APNG, alat pengedit gambar atau perangkat lunak khusus digunakan untuk menyusun frame individual dan menghasilkan chunk yang diperlukan. Frame biasanya diekspor sebagai file PNG terpisah dan kemudian digabungkan menjadi satu file APNG menggunakan encoder APNG. Encoder menganalisis frame, menentukan metode pengkodean optimal (frame penuh atau frame parsial), dan menghasilkan chunk `acTL` dan `fcTL` untuk mengontrol pemutaran animasi.
Ketika file APNG dimuat di penampil yang kompatibel, penampil membaca chunk `acTL` untuk menentukan properti animasi dan kemudian memproses frame secara berurutan. Chunk `fcTL` yang terkait dengan setiap frame menyediakan informasi yang diperlukan untuk merender frame dengan benar, termasuk durasinya dan penempatannya di dalam kanvas. Penampil menampilkan frame dalam urutan yang ditentukan, menggunakan waktu tunda untuk mengontrol kecepatan animasi dan perilaku perulangan.
APNG menawarkan beberapa keunggulan dibandingkan animasi GIF tradisional. Ini mendukung warna 24-bit dan transparansi 8-bit, yang memungkinkan grafis yang lebih hidup dan detail dibandingkan dengan palet warna 256 GIF yang terbatas. APNG juga memberikan kompresi yang lebih baik, menghasilkan ukuran file yang lebih kecil untuk kualitas gambar yang setara. Selain itu, APNG memungkinkan kecepatan frame yang bervariasi, yang memungkinkan kontrol yang lebih besar atas waktu dan kelancaran animasi.
Namun, APNG memang memiliki beberapa keterbatasan. Meskipun didukung oleh browser web utama seperti Firefox, Chrome, dan Safari, APNG tidak diadopsi secara luas seperti GIF. Beberapa browser dan penampil gambar yang lebih lama mungkin tidak memiliki dukungan bawaan untuk APNG, yang mengharuskan pengguna untuk menginstal ekstensi atau menggunakan perangkat lunak alternatif untuk melihat animasi. Selain itu, membuat file APNG bisa lebih rumit dibandingkan dengan GIF, karena melibatkan pengerjaan beberapa frame dan memahami struktur chunk tertentu.
Terlepas dari keterbatasan ini, APNG telah mendapatkan popularitas dalam beberapa tahun terakhir karena kualitas gambarnya yang unggul, ukuran file yang lebih kecil, dan dukungan yang meningkat dari browser web dan alat pengedit gambar. Ini telah menjadi pilihan yang disukai untuk menyajikan animasi berkualitas tinggi di situs web, terutama untuk animasi pendek dan berulang yang membutuhkan transparansi dan pemutaran yang mulus.
Kesimpulannya, APNG adalah format file yang kuat dan serbaguna yang memperluas kemampuan PNG untuk mendukung animasi. Dengan memanfaatkan struktur PNG yang sudah ada dan memperkenalkan chunk baru untuk kontrol animasi, APNG menawarkan alternatif yang lebih efisien dan menarik secara visual untuk GIF. Meskipun mungkin tidak didukung secara luas seperti GIF, adopsi APNG yang berkembang oleh browser web dan meningkatnya permintaan akan animasi berkualitas tinggi menjadikannya alat yang berharga bagi desainer dan pengembang yang ingin membuat konten yang menarik dan interaktif di web.
Format yang didukung
AAI.aai
Gambar AAI Dune
AI.ai
Adobe Illustrator CS2
AVIF.avif
Format File Gambar AV1
BAYER.bayer
Gambar Bayer Mentah
BMP.bmp
Gambar bitmap Windows Microsoft
CIN.cin
File Gambar Cineon
CLIP.clip
Masker Klip Gambar
CMYK.cmyk
Contoh cyan, magenta, kuning, dan hitam mentah
CUR.cur
Ikon Microsoft
DCX.dcx
ZSoft IBM PC multi-page Paintbrush
DDS.dds
Microsoft DirectDraw Surface
DPX.dpx
Gambar SMTPE 268M-2003 (DPX 2.0)
DXT1.dxt1
Microsoft DirectDraw Surface
EPDF.epdf
Format Dokumen Portabel Terkapsulasi
EPI.epi
Format Interchange PostScript Terkapsulasi Adobe
EPS.eps
PostScript Terkapsulasi Adobe
EPSF.epsf
PostScript Terkapsulasi Adobe
EPSI.epsi
Format Interchange PostScript Terkapsulasi Adobe
EPT.ept
PostScript Terkapsulasi dengan pratinjau TIFF
EPT2.ept2
PostScript Level II Terkapsulasi dengan pratinjau TIFF
EXR.exr
Gambar berdynamik tinggi (HDR)
FF.ff
Farbfeld
FITS.fits
Sistem Transportasi Gambar Fleksibel
GIF.gif
Format pertukaran grafis CompuServe
HDR.hdr
Gambar Berdynamik Tinggi
HEIC.heic
Kontainer Gambar Efisiensi Tinggi
HRZ.hrz
Slow Scan TeleVision
ICO.ico
Ikon Microsoft
ICON.icon
Ikon Microsoft
J2C.j2c
Codestream JPEG-2000
J2K.j2k
Codestream JPEG-2000
JNG.jng
Grafik Jaringan JPEG
JP2.jp2
Sintaks Format File JPEG-2000
JPE.jpe
Format JFIF Grup Ahli Fotografi Bersama
JPEG.jpeg
Format JFIF Grup Ahli Fotografi Bersama
JPG.jpg
Format JFIF Grup Ahli Fotografi Bersama
JPM.jpm
Sintaks Format File JPEG-2000
JPS.jps
Format JPS Grup Ahli Fotografi Bersama
JPT.jpt
Sintaks Format File JPEG-2000
JXL.jxl
Gambar JPEG XL
MAP.map
Database Gambar Seamless Multi-resolusi (MrSID)
MAT.mat
Format gambar level 5 MATLAB
PAL.pal
Pixmap Palm
PALM.palm
Pixmap Palm
PAM.pam
Format bitmap 2-dimensi umum
PBM.pbm
Format bitmap portabel (hitam dan putih)
PCD.pcd
Photo CD
PCT.pct
Apple Macintosh QuickDraw/PICT
PCX.pcx
ZSoft IBM PC Paintbrush
PDB.pdb
Format ImageViewer Database Palm
PDF.pdf
Format Dokumen Portabel
PDFA.pdfa
Format Arsip Dokumen Portabel
PFM.pfm
Format float portabel
PGM.pgm
Format graymap portabel (skala abu-abu)
PGX.pgx
Format tak terkompresi JPEG 2000
PICT.pict
Apple Macintosh QuickDraw/PICT
PJPEG.pjpeg
Format JFIF Kelompok Ahli Fotografi Bersama
PNG.png
Grafik Jaringan Portabel
PNG00.png00
PNG mewarisi bit-depth, tipe warna dari gambar asli
PNG24.png24
RGB 24-bit transparan atau biner (zlib 1.2.11)
PNG32.png32
RGBA 32-bit transparan atau biner
PNG48.png48
RGB 48-bit transparan atau biner
PNG64.png64
RGBA 64-bit transparan atau biner
PNG8.png8
Indeks 8-bit transparan atau biner
PNM.pnm
Anymap portabel
PPM.ppm
Format pixmap portabel (warna)
PS.ps
File Adobe PostScript
PSB.psb
Format Dokumen Besar Adobe
PSD.psd
Bitmap Adobe Photoshop
RGB.rgb
Contoh merah, hijau, dan biru mentah
RGBA.rgba
Contoh merah, hijau, biru, dan alpha mentah
RGBO.rgbo
Contoh merah, hijau, biru, dan opasitas mentah
SIX.six
Format Grafik DEC SIXEL
SUN.sun
Rasterfile Sun
SVG.svg
Grafik Vektor Skalable
TIFF.tiff
Format File Gambar Bertag
VDA.vda
Gambar Truevision Targa
VIPS.vips
Gambar VIPS
WBMP.wbmp
Gambar Bitmap Nirkabel (level 0)
WEBP.webp
Format Gambar WebP
YUV.yuv
CCIR 601 4:1:1 atau 4:2:2
Pertanyaan yang sering diajukan
Bagaimana cara kerjanya?
Konverter ini berjalan sepenuhnya di browser Anda. Saat Anda memilih file, file tersebut dibaca ke dalam memori dan dikonversi ke format yang dipilih. Anda kemudian dapat mengunduh file yang telah dikonversi.
Berapa lama waktu yang dibutuhkan untuk mengonversi file?
Konversi dimulai secara instan, dan sebagian besar file dikonversi dalam waktu kurang dari satu detik. File yang lebih besar mungkin membutuhkan waktu lebih lama.
Apa yang terjadi dengan file saya?
File Anda tidak pernah diunggah ke server kami. File tersebut dikonversi di browser Anda, dan file yang telah dikonversi kemudian diunduh. Kami tidak pernah melihat file Anda.
Jenis file apa yang dapat saya konversi?
Kami mendukung konversi antara semua format gambar, termasuk JPEG, PNG, GIF, WebP, SVG, BMP, TIFF, dan banyak lagi.
Berapa biayanya?
Konverter ini sepenuhnya gratis, dan akan selalu gratis. Karena berjalan di browser Anda, kami tidak perlu membayar server, jadi kami tidak perlu menagih Anda.
Bisakah saya mengonversi banyak file sekaligus?
Ya! Anda dapat mengonversi file sebanyak yang Anda inginkan sekaligus. Cukup pilih beberapa file saat Anda menambahkannya.