OCR w 40 liniach kodu — Daily Digest

Autor chciał zrobić podręcznik Gelmana "Bayesian Data Analysis" przeszukiwalnym dla agenta statystycznego. Tradycyjne narzędzia OCR są drogie albo mają limity. Postawił serverless OCR na Modal z modelem DeepSeek-OCR w 40 liniach Pythona.

Modal to platforma serverless compute, gdzie definiujesz kontener, podpinasz GPU (A100) i płacisz za sekundy obliczeń. Dekorator na funkcji Pythona, reszta dzieje się sama. Dla OCR to idealne: każda strona jest niezależna, więc batch processing jest trywialny.

DeepSeek-OCR dobrze radzi sobie z notacją matematyczną, co jest kluczowe dla podręczników naukowych. Model ładuje się raz przy starcie kontenera, kolejne zapytania go reużywają. Przetwarzanie setek stron kosztuje grosze.

40 linii Pythona: FastAPI + DeepSeek-OCR na GPU A100 przez Modal
Pay-per-second: płacisz tylko za czas obliczeń, bez utrzymywania serwera
Batch processing: wiele stron w jednym forward pass
Dobra obsługa notacji matematycznej (wzory, symbole)