Autor chciał zrobić podręcznik Gelmana "Bayesian Data Analysis" przeszukiwalnym dla agenta statystycznego. Tradycyjne narzędzia OCR są drogie albo mają limity. Postawił serverless OCR na Modal z modelem DeepSeek-OCR w 40 liniach Pythona.
Modal to platforma serverless compute, gdzie definiujesz kontener, podpinasz GPU (A100) i płacisz za sekundy obliczeń. Dekorator na funkcji Pythona, reszta dzieje się sama. Dla OCR to idealne: każda strona jest niezależna, więc batch processing jest trywialny.
DeepSeek-OCR dobrze radzi sobie z notacją matematyczną, co jest kluczowe dla podręczników naukowych. Model ładuje się raz przy starcie kontenera, kolejne zapytania go reużywają. Przetwarzanie setek stron kosztuje grosze.
- 40 linii Pythona: FastAPI + DeepSeek-OCR na GPU A100 przez Modal
- Pay-per-second: płacisz tylko za czas obliczeń, bez utrzymywania serwera
- Batch processing: wiele stron w jednym forward pass
- Dobra obsługa notacji matematycznej (wzory, symbole)