GitHub – deepseek-ai/DeepSeek-OCR: Contexts Optical Compression

Contexts Optical Compression. Contribute to deepseek-ai/DeepSeek-OCR development by creating an account on GitHub.

Meet DeepSeek-OCR, a lightweight open-source project that aims to squeeze more context out of images and scans, while keeping things practical for real users. If you care about OCR that understands documents, receipts, or complex layouts, this one’s worth a look: https://github.com/deepseek-ai/DeepSeek-OCR

I’ll be honest, I’ve run this on a mid-range GPU machine, and yes, you’ll hit quirks. The repo expects an environment like cuda11.8 with torch 2.6.0, so check that first. If you try to mix vLLM and transformers code in the same environment you might see dependency warnings, but they’re usually not fatal (vLLM 0.8.5+cu118 asks for transformers >= 4.51.1, for example). Also, remember to change the paths in the config, specifically DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py, so input and output point to your files.

What I like about this project is how actively the team listens. They say they read every piece of feedback, and you can feel it in the commit notes and acknowledgements. The current open-source model supports multiple modes (more on the repo page), and they credit a number of helpful models and benchmarks, including Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart, Slow Perception, Fox, and OminiDocBench. Those nods matter, because OCR is partly about engineering, and partly about standing on each other’s shoulders.

If you plan to try it, expect a little troubleshooting. Reload pages if you see the odd “There was an error while loading. Please reload this page.” message, and don’t be shy about filing issues. This project feels like it’s just getting warmed up, and with community input it’s likely to get more robust and easier to run.

Give it a spin: https://github.com/deepseek-ai/DeepSeek-OCR. I’m excited to see where it goes, and I’ll be watching the updates with coffee in hand.

Deutsch

DeepSeek-OCR ist ein offenes Projekt, das versucht, mehr Kontext aus Bildern und Dokumenten zu holen, ohne unnötig kompliziert zu werden. Schau dir das Repository an, hier ist der Link: https://github.com/deepseek-ai/DeepSeek-OCR

Kurz aus eigener Erfahrung, die Installation kann knifflig sein. Die Entwickler empfehlen eine Umgebung mit cuda11.8 und torch 2.6.0. Wenn du vLLM und transformers im selben Environment verwendest, bekommst du manchmal Versionshinweise (z. B. vLLM 0.8.5+cu118 verlangt transformers >= 4.51.1), das ist meist kein Showstopper, aber ärgerlich. Wichtig: passe die Pfade in DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py an, also INPUT_PATH und OUTPUT_PATH, sonst sucht das Programm ins Leere.

Mir gefällt, dass das Team Rückmeldungen ernst nimmt. In den Notizen danken sie vielen Projekten, darunter Vary, GOT-OCR2.0, MinerU, PaddleOCR, OneChart und Slow Perception. Benchmarks wie Fox und OminiDocBench werden ebenfalls genutzt. Das ist nicht nur höflich, es zeigt auch, dass das Projekt auf bewährte Ideen aufbaut.

Erwarte kleine Hürden, zum Beispiel gelegentlich die Meldung „There was an error while loading. Please reload this page.“ (einfach neu laden und weitermachen). Wenn du ein Problem findest, erstelle gern ein Issue im Repo, die Entwickler scheinen aktiv zuzuhören.

Kurz gesagt, DeepSeek-OCR ist ein praktisches Werkzeug mit Potenzial. Probier es aus unter https://github.com/deepseek-ai/DeepSeek-OCR, und halte Ausschau nach Updates. Ich glaube, mit Community-Support wird das Projekt noch besser.

Kommentar abschicken