@erd Das ist kein Reinforcement-Learning. Sie haben ein CNN supervised auf synthetischen Daten trainiert und dabei Data Augmentation und eine Art manuelle Hard-Example-Generation genutzt. Die Ergebnisse sehen wirklich gut aus