← Wróć do digestu

OCR w 40 liniach kodu: Modal + DeepSeek

🤖 via Hacker News · 99 pts · 4d temu

Autor chciał zrobić podręcznik Gelmana "Bayesian Data Analysis" przeszukiwalnym dla agenta statystycznego. Tradycyjne narzędzia OCR są drogie albo mają limity. Postawił serverless OCR na Modal z modelem DeepSeek-OCR w 40 liniach Pythona.

Modal to platforma serverless compute, gdzie definiujesz kontener, podpinasz GPU (A100) i płacisz za sekundy obliczeń. Dekorator na funkcji Pythona, reszta dzieje się sama. Dla OCR to idealne: każda strona jest niezależna, więc batch processing jest trywialny.

DeepSeek-OCR dobrze radzi sobie z notacją matematyczną, co jest kluczowe dla podręczników naukowych. Model ładuje się raz przy starcie kontenera, kolejne zapytania go reużywają. Przetwarzanie setek stron kosztuje grosze.