Modèle suivi de production

Tesla se précipite pour livrer modèle 3 berlines à la Chine avant la hausse tarifaire dans un déploiement par lots, un modèle est appliqué à une grande collection d`enregistrements, et les résultats sont enregistrés pour une utilisation ultérieure. Cela diffère des approches en direct qui appliquent des modèles à des enregistrements individuels en temps quasi réel. Une approche par lots peut être définie pour exécuter une planification régulière, telle que quotidienne ou ad-hoc selon les besoins. Lorsque le travail est terminé, la sortie est une nouvelle table dans notre projet BigQuery qui stocke les pondérations prévues et réelles pour tous les enregistrements dans le jeu de données de natalité. Si nous voulons exécuter un nouveau modèle, nous avons simplement besoin de pointer vers un nouveau fichier PMML dans le travail de flux de données. Tous les fichiers nécessaires à l`exécution du projet d`analyse et de flux de données hors ligne sont disponibles sur GitHub. L`étape suivante consiste à traduire le modèle formé en PMML. Le paquet r2pmml R et l`outil jpmml-r facilitent ce processus et supportent un large éventail d`algorithmes différents. La première bibliothèque effectue une traduction directe d`un objet de modèle R vers un fichier PMML, tandis que la deuxième bibliothèque nécessite d`enregistrer l`objet de modèle dans un fichier RDS, puis d`exécuter un outil de ligne de commande. Nous avons utilisé la première bibliothèque pour faire la traduction directement: à bien des égards, Shotgun et FTrack exécutent la même tâche. They`e similaire dans le prix, et Shotgun a récemment adopté une interface qui est aussi facile à naviguer que le plus récent FTrack. Si la principale différence réside, cependant, est dans la nouvelle gamme de Shotgun d`applications dédiées pour les appareils mobiles ainsi que des applications pour votre bureau.

Plutôt que de compter sur une équipe d`ingénierie pour traduire une spécification de modèle à un système de production, les scientifiques de données devraient avoir les outils nécessaires pour faire évoluer les modèles. Une des façons que j`ai accompli cela dans le passé est en utilisant le langage de balisage de modèle prédictif (PMML) et Google Cloud DataFlow. Voici le workflow que je recommande pour la création et le déploiement de modèles: la première étape du pipeline consiste à lire les données du jeu de données BigQuery public. L`objet retourné à partir de cette étape est un PCollection d`objets TableRow. La requête de fonctionnalité String définit la requête à exécuter, et nous spécifions que nous souhaitons utiliser SQL standard lors de l`exécution de la requête. J`ai également utilisé cette approche dans le passé pour déployer des modèles boostés, tels que AdaBoost. Il est utile lorsque la structure du modèle est relativement simple, et que vous avez besoin des résultats du modèle dans une base de données. Étant donné que beaucoup dans l`industrie semblent chirurgicalement attachés à leur iPad ou iPhones, cet avantage ne doit pas être rejeté. Notez également la suite robuste de Shotgun d`outils de révision et de lancement, aux côtés des outils de gestion de projet. Cet article est produit en association avec Masters of CG, un concours pour les créatifs en partenariat avec HP, Nvidia, et 2000 AD.

Consultez les entrées présélectirépertoriées ici. Il n`y a pas de pénurie de gestion de projet et d`outils de calendrier sur Internet. La plupart de ces derniers, cependant, ne sont pas particulièrement utiles si vous êtes un artiste de CG. J`ai également introduit l`idée de segmenter les utilisateurs dans différents groupes d`expériences en fonction d`un résultat prédit. Dans le prochain post, je discuterai différentes méthodologies d`expérimentation qui peuvent être utilisées, y compris les tests A/B et les déploiements échelonnés.