1pxsolidblack

JARR v3

2020-05-15T18:14:00+02:00

Avant toute chose, voici le lien vers la nouvelle version de l’application : app.jarr.info

Préambule

JARR est un aggrégateur et un lecteur de flux. JARR signigie Just Another RSS Reader et je l’utilise et l’entretient depuis maintenant plusieurs années.

Après une v2 sortie silencieusement il y a quelques années, cette fois ci je fais une vrai release pour marquer le coup. Avant de m’étendre sur les nouveautés apportés par cette v3 je vais revenir un peu sur la version précédente. La v2 apportait très discrètement et seulement en opt-in ce que j’ai appelé les clusters : des groupements d’articles.

Les clusters

L’idée de base étant que plusieurs flux peuvent référencer une même ressource, j’ai implémenté à l’époque les models et l’interface pour représenter cela. À chaque création d’article, JARR list d’autres articles plus ou moins récents de l’utilisateur et vérifiera s’ils ne pointent pas vers la même ressource. Si c’est le cas le nouvel article sera rajouté au regroupement d’un article existant, héritant de fait de son statut (lu / non lu, marqué comme favoris ou non).

Le but premier de la manœuvre étant de réduire un méta-flux (l’ensemble de tous les flux d’un utilisateur), dont le débit peut être important, en éliminant la redondance. C’est particulièrement utile quand on souscrit à des planet ou autres aggrégateurs de flux (comme Hacker News ou sa contrepartie française le journal du hacker) et même des subreddit.

Pour rajouter à ce groupement basic, uniquement basé sur les liens, un collègue m’a alors proposé d’aller plus loin et de permettre de regrouper des articles parlant de la même chose via TF-IDF. Cela permt de réduire le méta flux créé par plusieurs journaux nationnaux, par exemple, qui traiteraient des mêmes nouvelles.

Les clusters : retour d’expérience

Tout cela était plutôt expérimental, je n’ai à l’époque mis qu’une seule option pour activer ou non le regroupement. En effet on s’aperçoit assez rapidement que :

Certains flux renvoient toujours le même lien et mettent à jours la ressource au bout du lien (par exemple vigicrues). Par conséquent l’intégralité du contenu de ce genre de flux sera regroupé en un seul article. Il est donc nécessaire de pouvoir désactiver le groupement flux par flux.
Classer ses flux en catégorie permet, entre autre, de marquer comme lu (ignorer le contenu) de plusieurs flux à la fois. Le regroupement d’article étant indépendant des catégories, il arrive que des articles d’autres catégories soient ignorés dans le processus. Il est donc nécessaire de pouvoir désactiver le groupement pour toute une catégorie. Il est aussi nécessaire de pouvoir marquer comme lu uniquement les articles qui ne font pas parti d’un groupement.
L’inverse est aussi vrai, le regroupement se faisant sur un article déjà lu, le groupement restera invisible car déjà lu. Par défaut, si un article a été marqué comme lu sans être lu et qu’il est groupé avec un nouvel article, son status lu est changé à non lu. Comme le reste ce comportement est désactivable flux par flux.
Le fonctionnement de l’époque était tout en HTTP synchrone. Le crawler envoyait une requête et le serveur web créait le nouvel article et faisait le groupement ce qui a plusieurs désavantages :
- Le groupement, surtout via TF-IDF, est un processus long (potentiellement trop) pour le contexte d’une requête web.
- Par définition, plusieurs groupements peuvent être exécutés en parallèle ce qui laisse la possibilité que des articles qui, créés en même temps et qui auraient dû être regroupés ensemble ne le soient pas.
L’introduction des groupements d’article a apporté son lot de complexité. La remontée la plus fréquente a été que la suppression d’un feed était devenu très longue. La suppression a donc été rendu asynchrone et est faite par un processus d’arrière plan.

La v3 : ce qui est nouveau

Worker en arrière plan

D’un point de vu très technique et backend, la nouvelle version de JARR tourne maintenant via Docker. Trois pour être précis, un qui sert le Javascript pour l’interface utilisateur, un pour servir les données à cette interface utilisateur et un worker d’arrière plan multi fonction.

Ce dernier lance un worker Celery qui écoute sur une base RabbitMQ.

Son but principal est de rafraichir les flux selon plusieurs options de configuration (délai minimal et maximal de rafraîchissement entre autre). Ensuite, pour chaque utilisateur, de créer les groupements pour tous les articles qui en sont dépourvus. Enfin, il s’occupe de la suppression des flux marqués à supprimer. Pour rendre l’opération instantanée pour les utilisateurs, les flux à supprimer sont en effet simplement cachés en attendant que le worker passe pour faire le ménage.

L’interface

J’ai écrit la première interface de JARR sur React 0.14, le temps de m’occuper d’autre chose, react en était déjà à sa version 14. Autant dire que l’ancienne interface était irrécupérable.

J’ai donc entrepris de tout réécrire de zéro, avec cette fois à l’idée une interface compatible avec les smartphones. Le front n’étant pas mon cœur de métier, je tiens à remercier Clarisse sans qui l’interface ressemblerait toujours à du bootstrap de 2015.

Je tiens aussi à remercier un autre ancien collègue qui m’a apporté une code review des plus instructives. Comme d’habitude il faut se pencher sur les détails mais j’ai eu révélation sur révélation en relisant mon code et en comparant avec les points d’amélioration).

D’un manière générale

Pour faire une liste plus exhaustive de ce qui a été amélioré :

Expérience utilisateur :

Meilleur interface pour l’ajout de flux RSS. Comme pour la v2, JARR va tenter de construire un flux RSS à partir de n’importe quelle url (même si le protocol est manquant : reddit.com/r/france, ou même si la ressource n’est pas un flux RSS : https://reddit.com/r/france/). À la différence de la v2, le flux n’est pas créé immédiatement mais un panneau avec le flux préconstruit est affiché de sorte que l’utilisateur puisse l’éditer avant de le créer.

Modification de la suppression de flux : la suppression est maintenant instantanée et asynchrone
Option de contrôle du groupement d’article au niveau flux, catégories et utilisateur. Il est désormais possible de choisir si les articles d’un flux, d’une catégorie (ou même tous les articles) peuvent être groupé. Il est aussi possible de désactiver le groupement par TFIDF et le réveil (le marquage comme non lu lorqu’il est lu) d’un article par le processus de groupement.

Intégration sur mesure (pour l’instant seulement si la ressource pointent vers une image ou une vidéo youtube). Si un type de contenu supporté est reconnu, l’interface de JARR créra une intégration sur mesure.

Interface responsive (le menu des flux est repliable et la listes des articles a deux versions : pour les écrans larges et étroits).

Intégration limité avec RSS-Bridge afin de fournir des flux RSS pour des site qui en sont dépourvus. Sont supporté automatiquement pour l’instant Twitter, Instagram et Soundcloud.

Édition dans un panneau dédié des options des flux, catégories et de l’utilisateur

Côté server :

Refonte totale de l’API via Flask-restx
API accessible via Swagger sur api.jarr.info
Suppression de beaucoup de code mort
Support des flux Json
Refonte totale du crawler, plus facilement intégrable avec d’autres types de resources
Abandon de munin pour un plug prometheus

Ce dernier point me permet entre autre de voir d’une façon globale, comment l’application gère le cache et les délais entre deux rafraîchissement d’un flux :

À venir

Bien entendu ce n’est pas fini et le développement continu. En priorité (pour la v3.1) j’implémenterai des fonctionnalités présentes dans la v2 mais absente de la v3 (par soucis de temps). Entre autre :

L’import et l’export d’archive OPML (github)
La recherche d’articles depuis le menu (github)

J’ai aussi quelques idées de fonctionnalités comme rendre drag-n-dropable les catégories et pouvoir les ordonner à la main.

Je suis bien entendu ouvert aux suggestions. N’hésitez pas à commenter ou à ouvrir une issue sur le bug tracker si vous rencontrez un problème ou souhaiteriez une nouvelle fonctionnalité.

MindYourNeighbors

2017-02-28T23:59:00+02:00

J’ai écrit, packagé et finis de tester MindYourNeighbors, un programme qui permet de déclencher des scripts en fonction de son voisinage réseau.

Pourquoi ?

Il y a quelques années de ça, j’utilisais transmission sur une machine chez moi, qui tournait en permanence. Transmission possède un mode “lent” qui permet d’économiser les ressources du réseau quand il est activé, et via un script et deux cron, je m’arrangeais pour que transmission soit lent le soir quand il y avait du monde à la maison, et normal le reste du temps. Pour différentes raisons, il est devenu de plus en plus malaisé de prévoir les périodes creuses où transmission pourrait être en mode normal et il finissait par être en mode lent la plupart du temps.

Et donc, pourquoi ?

Donc, plutôt que d’utiliser cron, j’ai écrit un petit programme qui regarde la table des neighbors connus du kernel et décide si il peut, ou non, sortir transmission de son mode lent. Puis j’ai simplement ouvert le principe à l’exécution de n’importe quel exécutable selon une configuration.

Après l’avoir laissé tourné dans une version assez peu présentable pendant plutôt longtemps sur mon serveur, j’ai finis par nettoyer un peu tout ça, rajouter des tests, en faire une archive sur pypi et intégrer tout ça joliement sur github.

Comment ?

Le principe de fonctionnement est assez trivial, le script lance la commande ip neigh show et ligne par ligne analyse la sortie. Si une ligne a le status REACHABLE ou PERMANENT elle est considéré comme un voisin et elle passe ensuite au travers des filtres qui pourrait l’exclure ou l’inclure (sachant que l’exclusion prime).

Les filtres sont définit dans un fichier de configuration dont toutes les sections héritent de la section par défaut. Voici une version commenté de mon fichier de configuration :

[DEFAULT]
threshold = 4
# par défaut, seul mon_ordi sera considéré
filter_on_machines = mon_ordi
# on peut aussi faire des filtres plus large
# filter_on_regex = .*192\.168\.0\..*  # filtrera sur toutes les adresses IPv4 de classes B

# cette section sert juste à renseigner les machines par leurs
# adresses mac si c'est le mode de filtrage que vous choisissez
[known_machines]
mon_ordi = <mac>
mon_tel = <mac>

[transmission]
# activer le mode lent quand il y a des voisins
command_neighbor = /my/scripts/transmission-turtle true
# le désactiver quand il n'y en a pas
command_no_neighbor = /my/scripts/transmission-turtle false
# capturer la sortie sur une erreur
error_on_stderr = true

[bitcoind]
# Vous pouvez désactiver une section entière sans avoir à l'effacer de la conf
enabled = false
command_neighbor = killall bitcoind
command_no_neighbor = /opt/bitcoind -server -daemon

# pour les deux sections ci-dessus, les filtres sont hérités de la section par défaut

[wake_computer]
# mais ici on surcharge la valeur par défaut pour ne filtrer que sur mon_tel
filter_on_machines = mon_tel
# pareil, on veut que un réveil n'attendent pas 4 rotation alors on descends le seuil
threshold = 2
# on restreint les horraires d'exécution avec une syntaxe similaire à cron
cron = * 18-23 * * 1-5
command_neighbor = wake my machine

Un script executable à la main myn exécuter avec les options --output et --verbose permet de facilement debugger sont fichier de configuration en comparant les correspondance obtenue avec celle désirée.

# myn -o -v
MindYourNeighbors: INFO - MindYourNeighbors initialized
MindYourNeighbors: DEBUG - 'transmission' - processing section
MindYourNeighbors: DEBUG - EXCLUDED - <mac> - MACHINE: une_machine
MindYourNeighbors: DEBUG - MATCH - <mac> - MACHINE: mon_ordi
MindYourNeighbors: DEBUG - NO_MATCH - <mac> - MACHINE: mon_tel
MindYourNeighbors: DEBUG - cache/transmission/neighbor 2 => 2
MindYourNeighbors: INFO - 'transmission' - cache state: {'results': ['neighbor', 'no_neighbor', 'no_neighbor', 'neighbor'], 'last_command': '/home/jaes/bin/transmission-turtle false'}
MindYourNeighbors: INFO - 'transmission' - cache count hasn't reached threshold yet (2/4)
MindYourNeighbors: DEBUG - section <Section: bitcoind> not enabled
MindYourNeighbors: DEBUG - section <Section: wake_if> disabled for now

SystemD

Il est possible de faire que systemd se charge de la dæmonisation de MindYourNeighbors. Pour ce faire il faut placer ce fichier dans /etc/systemd/system/ et d’exécuter systemctl daemon-reload et service mind-your-neighbors start.

Malheureusement je n’ai pasa réussi à trouver comment packager de façon correct ce fichier avec l’archive pypi. En effet la mettre dans le setup.py dans l’option data_files résultera en une erreur si on tente une installation sans les droits root. (Oui c’est un appel à l’aide aux bonnes âmes qui me lisent !).

À venir

Quelques améliorations sont à venir comme le probing, une option pour exécuter en dry run ou juste rajouter assez de test pour avoir une couverture descente.

Malgré tout je considère le programme comme assez stable pour être publié tel quel.

Récupération et expiration en HTTP1.1

2016-11-19T12:00:00+02:00

Quand je me suis attaqué à JARR, ma première motivation était d’écrire un crawler qui ne soit pas non seulement rapide mais qui respecte aussi tout un panel de bonnes pratiques et autres RFCs.

Le crawler doit en l’occurence :

dans le but de limiter le traffic réseau et soulager en temps CPU les serveurs distants : ne récupérer une resource que si elle a expiré
dans le but de limiter la consomation de resources de mon crawler : vérifier qu’une resource a changé avant de la traiter

Exposé ainsi, je pense que ça peut s’appliquer à en fait n’importe quel crawler et pas seulement un qui récupère des flux RSS, et du coup plus largement n’importe quel client web. Pour expliquer comment réaliser ces deux fonctionnalités je vais m’appuyer sur différents mécanismes de HTTP que presque tout le monde implémente plus ou moins bien. Comme base de travail je vais bien sûr utiliser la RFC2616 qui traitre de HTTP1.1.

Expiration d’une ressource

Il y bien sûr la possibilité de simplement récupérer une ressource en boucle à intervalle de temps régulier. Ça marche plutôt bien et ça reste un fonctionnement par défaut très utile quand une ressource ne dispose d’aucun mécanisme d’expiration.

Comme beaucoup de choses en HTTP on va passer par des entêtes.

Cache-Control

L’entête Cache-Control, si il est placé dans la réponse, peut préciser différentes choses concernant le contrôle de cache sur un proxy ou par un client. La directive max-age) est celle qui nous intéresse et sert à préciser le délais après laquelle une ressource est considérée comme périmée.

Par exemple le header suivant Cache-Control: max-age=600 signifie que la resource expirera dix minutes après avoir reçu la requête (en gros).

Expires

On peut aussi utiliser l’entête Expires. Celui-ci, beaucoup plus simplement, précise directement la date à laquelle la ressource sera considéré comme périmée. La date doit être précisée dans le format spécifié par la RFC1123.

Exemple assez explicite : Expires: Sat, 19 Nov 2016 14:32:47 GMT.

Les deux pouvant être présent en même temps la RFC précise à la fin de cette section que la directive max-age de l’entête Cache-Control doit prévaloir.

Remarques

Si la date d’expiration de la ressource est inférieure à votre délais de rafraichissement, ce la vous aidera à garder la ressources plus à jours. Si elle est supérieure, cela vous évitera de la récupérer probablement inutilement.

Mais ce qui est important c’est de ne pas oublier que ces valeurs ne sont que des recommandations du serveur. Il n’est pas rare par exemple de voir des valeurs pour Expires plusieurs années dans le passés ou le futur ! C’est parfois dû à la cohabitation de max-age et de Expires mais la conclusion est la même : le serveur peut mentir ou se tromper. Je suggère par conséquent de borner la valeur que vous allez utiliser en y appliquant une limite basse et haute.

Maintenant que vous avez la date d’expiration, il ne vous reste plus qu’à ne planifier la récupération qu’après cette date.

Ensuite, ce n’est pas parce qu’elle a expirée qu’elle a changé.

Vérifier qu’une ressource a changée

Pour ce faire on peut tout simplement comparer la réponse obtenue avec le résultat en cache. Mais cette comparaison implique souvent un coût (disque, réseau, base de donnée, etc) qu’on peut éviter avec, encore une fois l’usage de deux entêtes. Si le serveur reconnaît ces entêtes, il répondra avec un code 304 qui en plus d’être vide (et donc d’économiser de la bande passante) indique qu’elle ne nécessite aucun traitement supplémentaire.

Last-Modified / If-Modified-Since

Vous pouvez placer l’entête If-Modified-Since avec comme valeur la date (toujours au format de la RFC1123) de la dernière fois que la ressource a été modifié.

Vous pouvez aussi tirer la valeur de n’importe quelle réponse du serveur contenant l’entête Last-Modified.

ETag / If-None-Match

Autrement vous pouvez aussi récupérer la valeur de l’entête ETag de n’importe quelle réponse qui le contient et le passer dans vos prochaines requêtes avec l’entête If-None-Match.

Remarques

Il se peut qu’une réponse avec un code autre que 304 qui contienne un ETag correspondant à celui transmit dans la requête. Je n’ai pas trouvé de RFC spécifiant le comportement à adopter dans ce cas. Pour ce qui est de JARR j’ai pour ma part décidé que cette réponse n’invalidait pas la ressource et ne procède donc à aucune action après cette réponse.

Si possible, il faut préciser If-None-Match et If-Modified-Since. Le serveur suivra différentes règles pour savoir comment traiter les deux entêtes.

JARR: Note de Production

2016-10-21T00:00:00+02:00

Si vous utilisez JARR régulièrement, et plus particulièrement depuis une semaine, vous avez peut-être remarqué quelques changements.

Clusters (grappes)

Est en test (puisque oui, la version de JARR en production est souvent celle de la branche develop) une première version d’une feature que je prépare depuis un moment: les clusters. J’en ferais un article plus détaillé bientôt, mais le but est, pour l’instant, de grouper les articles de même sources, et bientôt les articles très similaires.

Les aléas de la bêta

Hier vous avez aussi pu remarquer quelques problèmes avec vos articles. Il s’avère qu’un vicieux bug qui survient lors de la suppression d’utilisateur (rarement donc) s’était caché dans le code de JARR.

Ayant détruit les associations articles/clusters j’ai du les reconstruire dans la nuit. Ce fut un peut douloureux pour la base mais tout est maintenant rentré dans l’ordre.

Mais c’était pas sans une petite montée en charge :

Mixed Contents

2016-07-23T23:00:00+02:00

Dans la série des petits détails méconnus qui vous prennent la tête un moment, avant de se résoudre en une vingtaine de lignes de code ; j’ai envie de parler aujourd’hui des Mixed Content.

Je me suis aperçu que pas mal d’articles étaient mals affichés quand je les lisais dans JARR (mon agrégateur RSS pour ceux qui ne suivrait pas). La solution facile était généralement de se rendre directement sur le site qui héberge l’article en question mais c’est un peu dommage d’en arriver là quand le flux Atom/RSS est complet et contient toutes les données nécessaires à la lecture de l’article.

Bref, petite enquête et je m’aperçois que dans la console de mon butineur préféré j’ai ça :

Petite explication pour ceux qui, comme moi, ignoreraient ce qu’est un mixed content : on parle de mixed content quand une page page sécurisé (comprendre en HTTPS) sert du contenu non sécurisé (en HTTP par exemple). Mozilla explique comment c’est géré dans firefox ici.

Ceci étant, je suis aussi tombé sur du contenu non sécurisé malgré tout affiché par mon navigateur depuis une page sécurisée. Seul un warning était affiché en console mais rien n’était bloqué :

C’est là que réside la subtilité, il y a deux type de mixed content et (encore une fois) Mozilla explique les différences et comment elles sont gérées ici. Pour faire court, il y a le contenu passif et le contenu actif. Seul le contenu actif est censé être bloqué. Les img sont catégorisés comme passif et sont censé ne pas être bloqués, même si servit en HTTP dans une page en HTTPS. Alors pourquoi certains img sont bloquées ?

C’est là qu’il y a une astuce ! Ces img étaient affublés d’un attribut srcset (que j’ai découvert à cette occasion). Cet attribut fait passer les balises img de passive à active et ces dernières se retrouvent donc bloquées.

Pour le besoin de JARR donc, les images des articles à afficher sont purgés de toute mention de srcset. Voilà qui devrait clore quelques petits problème d’utilisabilité.

L’impact de la sortie de Jarr

2016-04-16T12:00:00+02:00

J’ai écrit trois quatre mots sur le fait que JARR est passé dans une version propre et stable. C’est la première release publique dirons-nous, et même si c’est sur une niche (linuxfr n’est pas franchement un média de masse), j’ai quand même eu pas mal de retour intéressants (j’ai mis tout ça sur github histoire de retravailler sur tout ça plus tard).

Inscription

À l’heure où j’écris ces lignes 39 nouveaux utilisateurs se sont inscrit sur JARR. La plupart sont des comptes de tests avec seulement un ou deux flux, mais certains on quand même ajouter dans les 20 ou 30 flux.

Comme vous pouvez le voir ci-dessus, à peu près 100 feeds ont été ajouté dans les heures qui ont suivies (avec un pic à 200 mais l’utilisateur a sûrement dû détruire son compte après son test).

Ce qu’on peu voir sur ce graph, c’est que les retards, c’est à dire les flux qui n’avait pas été mis à jours dans l’heure, ont fait un pic au moment de l’ajout des flux. Pic qui a eux quelques échos dans les heures suivantes. Ces échos ont finit par se tasser naturellement car, le crawler ne prends qu’un nombre limité de flux à rafraîchir et va donc, par construction, répartir la charge dans le temps.

À noter que même si les flux vont finir par se répartir dans le temps, la répartition ne sera jamais égale par la seule action du crawler (une évolution à venir ?). Pour remédier à ça, j’ai écrit un petit utilitaire qui répartira l’intégralité des flux.

Stress sur la base

Bon, postgres a vaguement pris en poids au passage, mais ce n’est rien par rapport à la masse qu’il avait déjà (20M sur 400, moins de 5%) et même si le nombre de requête a explosé aux deux principaux imports de flux (j’imagine lors de l’import de fichiers OPML), tout est très vite revenu à la normal sans autres impact.

On peut observer que le nombre de flux a fait un cours bon à 600. C’est lors de ce pic que corresponds la prise de 10Mo de poids par la base, Ces flux ayant disparus, la base aurait du maigrir d’autant mais ce n’est pas le cas, je soupçonne une mauvais configuration qui empêcher le VACUM d’être éxécuté.

Stress sur la machine

Et pour finir voyons comment mon serveur s’est comporté :

Mon server s’en fout ; il n’y a aucun impact sur la charge de la machine ni par le crawling ni par l’ajout massif d’articles.

Bon en même temps mon Xeon à 3.1GHz qui court à côté de s’est 4Go de RAM m’aurait fait bien de la peine à trimer pour si peu.

Conclusion

Certes, c’était un mini stress test sans grands enjeux mais je suis content de voir que JARR a bien tenu la charge.

Côté crawler, ça semble suffisament optimisé pour la tâche et le fait qu’il soit et multiprocess et multithreadé n’y est sûrement pas pour rien. Je ne pense pas avoir grand chose à améliorer de ce côté là.

Côté server, Postgres est largement suffisant pour la tâche (ce qui n’aurait probablement pas été le cas si j’étais resté sur un sqlite qui luttait déjà avec mon compte et ses 400 flux…). La machine est surdimenssionné aussi pour l’enjeux.

Côté applicatif, je ne sais pas. Je n’ai pas mesuré grand chose, mais vu l’impact sur le reste, je dirais que ça va. Le bench de ce côté là sera sûrement à prévoir pour une prochaine release ou une communication sur le projet via un média peut être plus important.

Pélican

2016-01-16T21:00:00+02:00

Plus pour réellement m’amuser que par réelle envie de maintenir ce blog à jour, j’ai changé de moteur de blog. Inspiré par d’autres pages personnelles d’autres développeurs, je suis passé à pelican.

Par rapport à liquidluck que j’utilisais avant il y a quelque changements notables (même si ça ne casse pas trois pattes à un canard, on reste dans le générateur de blog statique qui mange du markdown / restructured pour pondre du html).

Parmi les points à l’avantage de liquidluck, de mémoire (parce que je l’ai installé il y a un moment maintenant) ce dernier était plus facile à installer et son côté “brut de décoffrage” le rendait plus facile à hacker.

Bon par contre son intégration n’était vraiment pas aussi souple. Pélican offre tout un tas d’intégration, la possibilité de déployer via ssh, une configuration bien plus complète. Bref, le choix est sans équivoque !

Jessie, g_slice_set_config et gdm3

2015-02-05T12:00:00+02:00

Après avoir mis à jours ma debian au boulot de wheezy à jessie impossible de lancer gdm3. Après quelques errement j’ai découvert que mon /var/log/syslog était rempli de lignes de ce genre :

Feb  5 14:32:14 evoli console-kit-daemon[4627]: (process:4690): GLib-CRITICAL **: g_slice_set_config: assertion 'sys_page_size == 0' failed

Une recherche google d’une partie de cette ligne donne surtout comme conseil de supprimer son ~/.profile ce qui n’aide en rien. Une autre, plus approfondie, avec comme paramètre que ma carte graphique est une GT610 et a donc besoin d’un pilote nvidia, ne donne comme conseil que de apt-get remove --purge tous les paquets liés de plus ou moins loin à nvidia.

Je le marque ici afin de peut être aidé une âme perdu qui parcourerait les tréfons du net à la recherche d’une solution :

aptitude purge --purge consolekit
aptitude install consolekit

En effet, c’est ce petit malin qui est à l’origine du fail de gdm3.

Si il doit y avoir une leçon à tirer de cette histoire c’est bien qu’il ne sert à rien de trop chercher sur le net quand on peut lire le nom du fautif directement dans le message de log. Oui, console-kit-daemon, c’est à toi que je parle.

Mise à jours

La traceback survient toujours sur mon server et c’est plutôt disgracieux, aussi j’ai trouvé ce rapport de bug qui stipule :

ConsoleKit only manages console logins in graphical mode, so it’s useless on a debian 8 based headless server[1]. The way to remove and stop console kit:

$ sudo apt-get remove consolekit

On ne me le demandera pas deux fois.

Disqus !

2014-09-10T15:00:00+02:00

J’utilise liquidluck pour générer le rendu de ce blog et ça marche bien pour le peu que j’utilise. Bon, la prise en main n’a pas forcément été des plus facile, mais dans le genre c’est quand même dans les moteurs de blog les plus sympa que j’ai trouvé. Pour le principe : ça marche avec python (indispensable !), ça génère du contenu statique et… et c’est tout.

En tout cas c’est ce que je pensais ! J’ai découvert, à base de lecture de fichier de configuration et de grep au travers du code source, que le moteur de blog supportait l’intégration du moteur de commentaire Disqus. J’avais vaguement entendu parlé du service auparavant mais c’était le moment de tester.

Le principe est simple : on créé son compte, on intégre leur bout de code et ça roule tout seul. Après avoir jouer peu avec leur code et être vite arrivé à la conclusion qu’il n’y avait pas grand chose à tripoter je vais juste laisser cette histoire tourner par elle même.

J’ai reçu plusieurs mails concernant mon appli web pour les graphs ING et je me suis dit que ces mails auraient pu profiter à mon post en parlant, au moins sous forme de commentaire. C’était ma principale et unique motivation pour trifouiller liquidluck en fin de compte…

Bref maintenant ça marche et personne n’écrira jamais rien là dedans ! Joie.

ING Chart : Visualiser ses extraits de comptes

2014-06-30T12:00:00+02:00

Il y a quelque semaines de ça, j’en ai finalement eu marre que les différents graphiques de suivis de budget du site web de ma banque soient cassés.

Sachant que ça faisait déjà près d’un an (cf le post sur le forum de support) que rien n’était fait à ce sujet j’ai décidé de coder moi même une petite appli web qui reproduirait les mêmes graphiques. Je me suis servi pour ça de trois bouts de JavaScript collé à la glue de chez jquery et de la bibliothèque Chart.js.

L’appli fonctionne bien et est globalement plus esthétique / ergonomique que les graphs originaux. Pour fonctionner elle ne requiert que les historiques des mouvements de compte qui sont téléchargeables au format CSV depuis le site d’ING.

Le graph est utilisable à partir d’ici et je me fends d’un petit aperçu du rendu :

J’ai aussi implémenté un mode camembert (piechart quoi) parce que j’aurais eu tort de me priver :

Bon. Ce qui est dommage, c’est qu’à l’heure où j’écris ces lignes, un correctif vient tout juste d’être plublié et les graphs fonctionnent de nouveau sur le site d’ING Direct…

Malgré tout, je trouve mon implémentation bien meilleurs ! Plus flexible, plus jolie, plus lisible, si en plus on compte sur mon rêve simplet de postérité, ça fait pas mal de raisons de laisser ma bidouille en ligne.

Bien entendu, tout ceci est open source et le code est disponible sur github.

Servir et gérer des fichiers avec WebDav

2013-12-09T21:20:00+02:00

J’ai récement eu besoin de pouvoir stocker des fichiers en ligne. Je voulais un minimum d’authentification, quelque chose qui soit standard, pas de client lourd etc, etc. Bref, après m’être renseigné à minima j’ai décidé de tenter ma chance avec WebDav en l’occurence puisque je fais tourner ça avec apache).

Les caractéristiques voulues :

accès en HTTP et HTTPs
un dossier /public/ accessible en lecture par tous (HTTP et HTTPs)
redirection de HTTP vers HTTPs sinon
authentification via BasicAuth
tous les utilisateurs peuvent écrire dans /public/
chaque utilisateurs ne peut écrire sur dans l’URI /<utilisateur>/

Maintenant la conf et les explications :

La conf du VirtualHost pour l’accès en HTTP :

<VirtualHost *:80>
    ServerName my.server.tld
    DocumentRoot /$document_root/

    <Directory /$document_root/public/>
        Options -Indexes
    </Directory>
    <Directory /$document_root/public/*/>
        Options +Indexes
    </Directory>

    RewriteEngine On
    # Cette RewriteCond vérifie que l'URI de la requête concerne le notre
    # dossier /public/ (ou les images qui servent à l'affichage des indexes
    # chez apache). La RewriteCond ne s'applique que pour la RewriteRule
    # suivante.
    RewriteCond %{REQUEST_URI} ^/(public/(?|.*)|icons/(?|.*)|favicon\.ico|robots\.txt|$)$
    RewriteRule ^.* - [L]

    # Cette dernière RewriteRule s'assure que tous ce qui n'a pas matché
    # plus haut est redirigé vers le même domaine en HTTPs
    RewriteRule ^/?(.*) https://%{HTTP_HOST}/$1 [QSA,L,R=301]

    ErrorLog ${APACHE_LOG_DIR}/error.log
    CustomLog ${APACHE_LOG_DIR}/access.log vhost_combined
    LogLevel warn
</VirtualHost>

La conf du VirtualHost pour l’accès en HTTPs :

<VirtualHost *:443>
    ServerName my.server.tld
    SSLEngine on

    DocumentRoot /$document_root/

    DavLockDB /run/lock/apache_dav
    DAVMinTimeout 600

    # On empêche les robots des snifer le roots où il y a
    # la liste des users (leurs dossiers perso en fait)
    <Directory /$document_root/>
        Options -Indexes
        Dav On
    </Directory>

    # On définit qu'une authentification est nécessaire pour
    # accéder à n'importe quel dossier.
    <Directory /$document_root/*/>
        Options +Indexes +FollowSymLinks +MultiViews
        AllowOverride None

        Order allow,deny
        Allow from all
        Dav On

        AuthType Basic
        AuthName "My Server WebDav"
        AuthUserFile /path/to/htpasswd
        Require valid-user
    </Directory>

    # On est pas trop méchant et on laisse
    # quand même les robots accéder à leurs conf
    <Files /$document_root/robots.txt>
        Order Allow,Deny
        Allow from all
        Satisfy any
        Require all granted
    </Files>

    # On surcharge la précédente définition pour le dossier /public/.
    <Directory /$document_root/public/>
        Options -Indexes +FollowSymLinks +MultiViews
        AllowOverride None

        Order Allow,Deny
        Allow from all
        Dav On

        <LimitExcept GET OPTIONS>
            AuthType Basic
            AuthName "My Server WebDav"
            AuthUserFile /path/to/htpasswd
            Require valid-user
        </LimitExcept>
    </Directory>
    # On autorise les indexes sur les dossiers contenu dans /public/
    # même si ils ne sont pas autorisés dans ce dernier
    <Directory /$document_root/public/*/>
        Options +Indexes
    </Directory>

    RewriteEngine On
    # On autorise l'accès au robot.txt sans redirection aucune
    RewriteCond %{REQUEST_URI} ^/robots.txt$
    RewriteRule ^/?(.*) http://%{HTTP_HOST}/robots.txt [QSA,L,R=301]

    # Comme précédemment, on ne touche à rien si
    # l'URI de la requête concerne le dossier /public/.
    RewriteCond %{REQUEST_URI} ^/(public/(?|.*)|icons/(?|.*)|favicon\.ico)$
    RewriteRule ^.* - [L]

    # La règle qui empêche un utilisateur d'accéder
    # à un dossier qui n'est pas à eux.
    RewriteCond %{LA-U:REMOTE_USER} ^(.+)
    RewriteCond %1:/$1 !^([^:]+):/\1$
    RewriteRule ^/([^/]*) - [F,L]

    ErrorLog ${APACHE_LOG_DIR}/error.log
    CustomLog ${APACHE_LOG_DIR}/access.log vhost_combined
    LogLevel warn
</VirtualHost>

Les dernières RewriteCond sont utilisées pour s’assurer que chaque utilisateur n’accèdera qu’à son dossier utilisent LA-U:. Ce préfix est décrit dans la documentation de mod_rewrite.

L’idée derrière cette subtilité est que les règles de réécriture sont exécutées avant que l’authentification n’ait lieu. La variable REMOTE_USER, elle, définie lors de l’authentification, n’est pas disponible pour la comparaison avec l’URI de la requête. LA-U: permet de prefetch cette valeur. La dernière condition de réécriture véréfie que cette valeur correspond bien au début de l’URI de la requête.

La syntaxe de la condition de réécriture est assez compliquée (et honteusement copiée de cet article). Elle doit sa structure au fait que apache ne permet pas à une valeur d’être à droite de la comparaison du RewriteCond.