1pxsolidblack

JARR v3

2020-05-15T18:14:00+02:00

Avant toute chose, voici le lien vers la nouvelle version de l’application : app.jarr.info

Préambule

JARR est un aggrégateur et un lecteur de flux. JARR signigie Just Another RSS Reader et je l’utilise et l’entretient depuis maintenant plusieurs années.

Après une v2 sortie silencieusement il y a quelques années, cette fois ci je fais une vrai release pour marquer le coup. Avant de m’étendre sur les nouveautés apportés par cette v3 je vais revenir un peu sur la version précédente. La v2 apportait très discrètement et seulement en opt-in ce que j’ai appelé les clusters : des groupements d’articles.

Les clusters

L’idée de base étant que plusieurs flux peuvent référencer une même ressource, j’ai implémenté à l’époque les models et l’interface pour représenter cela. À chaque création d’article, JARR list d’autres articles plus ou moins récents de l’utilisateur et vérifiera s’ils ne pointent pas vers la même ressource. Si c’est le cas le nouvel article sera rajouté au regroupement d’un article existant, héritant de fait de son statut (lu / non lu, marqué comme favoris ou non).

Le but premier de la manœuvre étant de réduire un méta-flux (l’ensemble de tous les flux d’un utilisateur), dont le débit peut être important, en éliminant la redondance. C’est particulièrement utile quand on souscrit à des planet ou autres aggrégateurs de flux (comme Hacker News ou sa contrepartie française le journal du hacker) et même des subreddit.

Pour rajouter à ce groupement basic, uniquement basé sur les liens, un collègue m’a alors proposé d’aller plus loin et de permettre de regrouper des articles parlant de la même chose via TF-IDF. Cela permt de réduire le méta flux créé par plusieurs journaux nationnaux, par exemple, qui traiteraient des mêmes nouvelles.

Les clusters : retour d’expérience

Tout cela était plutôt expérimental, je n’ai à l’époque mis qu’une seule option pour activer ou non le regroupement. En effet on s’aperçoit assez rapidement que :

Certains flux renvoient toujours le même lien et mettent à jours la ressource au bout du lien (par exemple vigicrues). Par conséquent l’intégralité du contenu de ce genre de flux sera regroupé en un seul article. Il est donc nécessaire de pouvoir désactiver le groupement flux par flux.
Classer ses flux en catégorie permet, entre autre, de marquer comme lu (ignorer le contenu) de plusieurs flux à la fois. Le regroupement d’article étant indépendant des catégories, il arrive que des articles d’autres catégories soient ignorés dans le processus. Il est donc nécessaire de pouvoir désactiver le groupement pour toute une catégorie. Il est aussi nécessaire de pouvoir marquer comme lu uniquement les articles qui ne font pas parti d’un groupement.
L’inverse est aussi vrai, le regroupement se faisant sur un article déjà lu, le groupement restera invisible car déjà lu. Par défaut, si un article a été marqué comme lu sans être lu et qu’il est groupé avec un nouvel article, son status lu est changé à non lu. Comme le reste ce comportement est désactivable flux par flux.
Le fonctionnement de l’époque était tout en HTTP synchrone. Le crawler envoyait une requête et le serveur web créait le nouvel article et faisait le groupement ce qui a plusieurs désavantages :
- Le groupement, surtout via TF-IDF, est un processus long (potentiellement trop) pour le contexte d’une requête web.
- Par définition, plusieurs groupements peuvent être exécutés en parallèle ce qui laisse la possibilité que des articles qui, créés en même temps et qui auraient dû être regroupés ensemble ne le soient pas.
L’introduction des groupements d’article a apporté son lot de complexité. La remontée la plus fréquente a été que la suppression d’un feed était devenu très longue. La suppression a donc été rendu asynchrone et est faite par un processus d’arrière plan.

La v3 : ce qui est nouveau

Worker en arrière plan

D’un point de vu très technique et backend, la nouvelle version de JARR tourne maintenant via Docker. Trois pour être précis, un qui sert le Javascript pour l’interface utilisateur, un pour servir les données à cette interface utilisateur et un worker d’arrière plan multi fonction.

Ce dernier lance un worker Celery qui écoute sur une base RabbitMQ.

Son but principal est de rafraichir les flux selon plusieurs options de configuration (délai minimal et maximal de rafraîchissement entre autre). Ensuite, pour chaque utilisateur, de créer les groupements pour tous les articles qui en sont dépourvus. Enfin, il s’occupe de la suppression des flux marqués à supprimer. Pour rendre l’opération instantanée pour les utilisateurs, les flux à supprimer sont en effet simplement cachés en attendant que le worker passe pour faire le ménage.

L’interface

J’ai écrit la première interface de JARR sur React 0.14, le temps de m’occuper d’autre chose, react en était déjà à sa version 14. Autant dire que l’ancienne interface était irrécupérable.

J’ai donc entrepris de tout réécrire de zéro, avec cette fois à l’idée une interface compatible avec les smartphones. Le front n’étant pas mon cœur de métier, je tiens à remercier Clarisse sans qui l’interface ressemblerait toujours à du bootstrap de 2015.

Je tiens aussi à remercier un autre ancien collègue qui m’a apporté une code review des plus instructives. Comme d’habitude il faut se pencher sur les détails mais j’ai eu révélation sur révélation en relisant mon code et en comparant avec les points d’amélioration).

D’un manière générale

Pour faire une liste plus exhaustive de ce qui a été amélioré :

Expérience utilisateur :

Meilleur interface pour l’ajout de flux RSS. Comme pour la v2, JARR va tenter de construire un flux RSS à partir de n’importe quelle url (même si le protocol est manquant : reddit.com/r/france, ou même si la ressource n’est pas un flux RSS : https://reddit.com/r/france/). À la différence de la v2, le flux n’est pas créé immédiatement mais un panneau avec le flux préconstruit est affiché de sorte que l’utilisateur puisse l’éditer avant de le créer.

Modification de la suppression de flux : la suppression est maintenant instantanée et asynchrone
Option de contrôle du groupement d’article au niveau flux, catégories et utilisateur. Il est désormais possible de choisir si les articles d’un flux, d’une catégorie (ou même tous les articles) peuvent être groupé. Il est aussi possible de désactiver le groupement par TFIDF et le réveil (le marquage comme non lu lorqu’il est lu) d’un article par le processus de groupement.

Intégration sur mesure (pour l’instant seulement si la ressource pointent vers une image ou une vidéo youtube). Si un type de contenu supporté est reconnu, l’interface de JARR créra une intégration sur mesure.

Interface responsive (le menu des flux est repliable et la listes des articles a deux versions : pour les écrans larges et étroits).

Intégration limité avec RSS-Bridge afin de fournir des flux RSS pour des site qui en sont dépourvus. Sont supporté automatiquement pour l’instant Twitter, Instagram et Soundcloud.

Édition dans un panneau dédié des options des flux, catégories et de l’utilisateur

Côté server :

Refonte totale de l’API via Flask-restx
API accessible via Swagger sur api.jarr.info
Suppression de beaucoup de code mort
Support des flux Json
Refonte totale du crawler, plus facilement intégrable avec d’autres types de resources
Abandon de munin pour un plug prometheus

Ce dernier point me permet entre autre de voir d’une façon globale, comment l’application gère le cache et les délais entre deux rafraîchissement d’un flux :

À venir

Bien entendu ce n’est pas fini et le développement continu. En priorité (pour la v3.1) j’implémenterai des fonctionnalités présentes dans la v2 mais absente de la v3 (par soucis de temps). Entre autre :

L’import et l’export d’archive OPML (github)
La recherche d’articles depuis le menu (github)

J’ai aussi quelques idées de fonctionnalités comme rendre drag-n-dropable les catégories et pouvoir les ordonner à la main.

Je suis bien entendu ouvert aux suggestions. N’hésitez pas à commenter ou à ouvrir une issue sur le bug tracker si vous rencontrez un problème ou souhaiteriez une nouvelle fonctionnalité.

JARR v3

2020-05-15T18:14:00+02:00

First of all, the new app is available here: app.jarr.info for you to test !

Preambule

JARR is a news aggregator and reader. JARR stands for Just Another RSS Reader and I’ve been personnally using and developing it for the past years.

After a v2 silently released several years ago, this time I’m making a true release. Before getting into the new things brought by this v3, I’ll talk a bit about what was brought by the precedent version. The v2 introduced very discretly and only by opting-in what I called clusters which are grouped articles.

Clusters

The root idea was that several feeds may reference a unique resource. On this base I implemented at the time a way to represent that in JARR. At each article creation, JARR will list the more or less recent user’s articles and will check if they do link to the same resource. If so, the newly created article will be added to the existing cluster, inheriting logically of its status (read or unread, liked or not).

The original goal was to reduce the meta-feed (the feed created by all the feeds of a user) by reducing redundancy. It’s very useful when subscribing to planets, news aggregator (like Hacker News) or even subreddits.

To add to this grouping processus only based on links, a colleague proposed to go further and to group articles based on their content so we would group article treating identical subjects. It’s done through tf-idf. It allows for example to group articles from national news outlet which are destined by essence to treat the same subjects.

Clusters: lesson learned

All of this was pretty experimental, and at the time I only put in place the one option to opt in or out. I rapidly discovered that :

A feed might always have one link, and only update the resource at the end of that link. This causes all the articles of that feed to get clustered together. The lesson from that is that a feed by feed control of the clustering is needed.
Filing the feeds under different categories allows, among other things, to mark as read entire categories. Clustering is independant from category and sometimes article from other categories that you wanted to read later got marked as read while marking a whole category as read. This implies two evolutions : it’s necessary to be able to deactivate clustering for a category and it’s necessary to be able to mark only article not belonging to clusters as read.
The reverse is also true, when clustering on an already read article happen, the new article won’t every be shown to the user. Knowing that we made it so that if an article is clustered with an article marked as read but not really read, JARR will change the read status of the whole cluster to unread. Like the rest this behavior can be disabled feed by feed.
The process in charge of refreshing feed in v2 did entierly by pushing HTTP request. As clustering can be a somewhat time consuming process, some problems occured :
- Clustering, especially through tf-idf, was creating timeout errors
- Several clustering process were executed in parallel. This meant that potentially, article were treated at the same time and missed each other when they should have been clustered together.
Introducing clusters to JARR brought a lot of complexity in the model. The most recurring complaint I got from users were that feed deletion began to take an awful lot of time. The new version bring a new workflows where, when deleted, a feed is hidden and removed by a background worker.

What’s new in JARR v3

Background workers

On very technical and backend point of view, the new version of JARR runs now on Docker. Three of them to be accurate : one to serv the Javascript UI, one to serv data to this UI and a last one which is a multitask background worker.

The last one runs a Celery worker which listens on a RabbitMQ queue.

Its main goal is to refresh feeds according to several configuration options. It has also the mission to cluster all pending articles. To avoid collision only one clustering process is ran by user at the same time. At last, the worker remove pending feed suppression. Indeed, to make the operation virtually instantaneous for the user, the deleted feed are merely hidden from the user and deleted in the background when the worker has time.

The user interface

I wrote the first version of the interface with React 0.14. I did let the project aside for a while and by the time I got back to it, React was already at version 14. Needless to say that the then-coded UI was not salvageable.

I just recently finished rewriting all from scratch. This time, with the idea of responsiveness and mobile devices in mind. Front-end not being among my strengths, I want to thank Clarisse without whom the interface would still look like bootstrap from 2015.

I also would like to thank another old colleague of mine, who made a very insightful code review. You have to pay attention to the details, but reading his review was enlighting to me.

Overall

Here’s a more exhaustive list of what has been done:

User eXperience:

A better interface for building and adding feeds. Like in the v2, JARR is gonna try to construct a feed from any given URL (without scheme : reddit.com/r/france or even if the URL doesn’t link to a RSS or JSON feed : https://www.reddit.com/r/france). Not like in v2, this time the feed isn’t created as soon as the form is submited. Instead the feed is builded by the backend and sent back in a pre-filled form to the UI.

Change in the feed deletion processus: the feedback is now instantaneous and asynchronous.
Clustering option at feed, category and user level : It’s now possible to chose if the article from a feed, a category (or all the articles) can be clustered or not. It’s also possible to disable clustering through tf-idf and article wake up (marking a read feed as unread) by clustering.

Proccessed content integration (only for images of youtube link for now). If a type of supported content is recognized, JARR interface will create and integration for it.

Responsive design (feed menu can be hidden and article list comes in two versions: for large screen and for narrow ones).

A limited integration with RSS-Bridge has also been realized so that JARR can figure out a way to serv content for website that doesn’t provide RSS feed. For now, only Twitter, Instagram and Soundcloud are supported.

Edition in a dedicated panel for feed, categories, and user settings.

Server side:

From scratch rewrite of the API through Flask-restx
API accessible via Swagger at api.jarr.info
Removing of a lot of dead code and dependencies
Json feeds are now supported
Total rewrite of the crawler
Drop of munin integration for a prometheus one

This last point allows me, among other things, to see globally how JARR handles freshness of feeds :

What’s to come

Of course, development continues ! In priority (for the v3.1), I’ll work on features present in v2 and missing for v3:

Import and export of OPML archives (github)
Search through articles in the menu (github)

I still have a lot of ideas for new functionalities like orderable and drag-n-dropable categories.

I am also of course open to suggestions. Don’t hesitate to comment below or open an issue on the bug tracker if encounter any problem or whish for a new functionality.

MindYourNeighbors

2017-03-07T14:57:00+02:00

I wrote, packaged and just finished testing MindYourNeighbors, a piece of software which allows you to run scripts depending on your network neighborhood.

Why ?

Several years ago, I used transmission on a machine at home; it was running constantly. Transmission has a turtle mode which reduce its network bandwith consumption when it’s activated. I triggered that mode which two cron lines. I set them so they would trigger the “turtle” mode when I knew they were people at home. For various reasons, it becomed uneasy to anticipate the period when there was nobody’s home and so, in the end, transmission was always in its turtle mode.

And so, why ?

So, instead of using cron, I wrote a small script that watches the neighbors table and decide if it can run or not a script that’ll set or unset the transmission turtle mode. After that I just made it so that any script could be triggered that way following a simple configuration file.

After I left it ran on my home linuxbox and saw it was working fine, I cleaned it up, added some tests, build a python egg on pipy and did some nice integration on github.

How ?

The principle of the script is fairly simple. It’ll run ip neigh show and will analyse its output line by line. If a line has the REACHABLE or PERMANENT mark, it’s considered that we have a neighbor. It’ll then pass through some filters which will exclude it or not.

Filters are defined in a configuration file where all section inherit from the default section. Here is a commented and edited version of my configuration file:

[DEFAULT]
threshold = 4
# by default, only my pc will be considered as a neighbor
filter_on_machines = my_pc
# you can also do some broader filter
# filter_on_regex = .*192\.168\.0\..*  # for example this will allow you to consider as neighbor all the IPv4 address of the class B

# this section allows you to register device by their mac addresses
# if you want to filter them by name in the
# filter_on_machines and filter_out_machines paramters
[known_machines]
my_pc = <mac>
my_tel = <mac>

[transmission]
# activate the "turtle" mode when there is neighbors
command_neighbor = /my/scripts/transmission-turtle true
# desactivate it when there is none
command_no_neighbor = /my/scripts/transmission-turtle false

[bitcoind]
# you can desactivate a section without having to delete it
# from the configuration file
enabled = false
command_neighbor = killall bitcoind
command_no_neighbor = /opt/bitcoind -server -daemon

# for both section above, filters are inherited from the default section

[wake_computer]
# but here, I override that default value to only filter on my_tel
filter_on_machines = my_tel
# again, we override the default value as we don't want to wait 4 cycles
threshold = 2
# we restrict time period during which this section is activated
# with a cron like syntax
cron = * 18-23 * * 1-5
command_neighbor = wake my machine

The package also provides a script that you can run from anywere: myn. This script, run with the --output and --verbose verbose options allows you to easily run through a buggy configuration file and analyse what you would want to match and what doesn’t match.

# myn -o -v
MindYourNeighbors: INFO - MindYourNeighbors initialized
MindYourNeighbors: DEBUG - 'transmission' - processing section
MindYourNeighbors: DEBUG - EXCLUDED - <mac> - MACHINE: a_random_device
MindYourNeighbors: DEBUG - MATCH - <mac> - MACHINE: my_pc
MindYourNeighbors: DEBUG - NO_MATCH - <mac> - MACHINE: my_tel
MindYourNeighbors: DEBUG - cache/transmission/neighbor 2 => 2
MindYourNeighbors: INFO - 'transmission' - cache state: {'results': ['neighbor', 'no_neighbor', 'no_neighbor', 'neighbor'], 'last_command': '/home/jaes/bin/transmission-turtle false'}
MindYourNeighbors: INFO - 'transmission' - cache count hasn't reached threshold yet (2/4)
MindYourNeighbors: DEBUG - section <Section: bitcoind> not enabled
MindYourNeighbors: DEBUG - section <Section: wake_if> disabled for now

SystemD

It’s possible to make SystemD daemonize MindYourNeighbors. For that, you’ll have to put this file in /etc/systemd/system/ and run systemctl daemon-reload and service mind-your-neighbors start.

Sadly, I did not find how to package this in the correct way into the python egg. Indeed, put that file and it’s destination in the setup.py won’t allow a none superuser to install the egg (since they can’t write in /etc/systemd/system). (Yes, it is kind of a cry for help :D)

What’s to come

Some enhancements should be coming soon like the neighbors probing, some dry run options or juste add enough test to reach a descent coverage.

MindYourNeighbors

2017-02-28T23:59:00+02:00

J’ai écrit, packagé et finis de tester MindYourNeighbors, un programme qui permet de déclencher des scripts en fonction de son voisinage réseau.

Pourquoi ?

Il y a quelques années de ça, j’utilisais transmission sur une machine chez moi, qui tournait en permanence. Transmission possède un mode “lent” qui permet d’économiser les ressources du réseau quand il est activé, et via un script et deux cron, je m’arrangeais pour que transmission soit lent le soir quand il y avait du monde à la maison, et normal le reste du temps. Pour différentes raisons, il est devenu de plus en plus malaisé de prévoir les périodes creuses où transmission pourrait être en mode normal et il finissait par être en mode lent la plupart du temps.

Et donc, pourquoi ?

Donc, plutôt que d’utiliser cron, j’ai écrit un petit programme qui regarde la table des neighbors connus du kernel et décide si il peut, ou non, sortir transmission de son mode lent. Puis j’ai simplement ouvert le principe à l’exécution de n’importe quel exécutable selon une configuration.

Après l’avoir laissé tourné dans une version assez peu présentable pendant plutôt longtemps sur mon serveur, j’ai finis par nettoyer un peu tout ça, rajouter des tests, en faire une archive sur pypi et intégrer tout ça joliement sur github.

Comment ?

Le principe de fonctionnement est assez trivial, le script lance la commande ip neigh show et ligne par ligne analyse la sortie. Si une ligne a le status REACHABLE ou PERMANENT elle est considéré comme un voisin et elle passe ensuite au travers des filtres qui pourrait l’exclure ou l’inclure (sachant que l’exclusion prime).

Les filtres sont définit dans un fichier de configuration dont toutes les sections héritent de la section par défaut. Voici une version commenté de mon fichier de configuration :

[DEFAULT]
threshold = 4
# par défaut, seul mon_ordi sera considéré
filter_on_machines = mon_ordi
# on peut aussi faire des filtres plus large
# filter_on_regex = .*192\.168\.0\..*  # filtrera sur toutes les adresses IPv4 de classes B

# cette section sert juste à renseigner les machines par leurs
# adresses mac si c'est le mode de filtrage que vous choisissez
[known_machines]
mon_ordi = <mac>
mon_tel = <mac>

[transmission]
# activer le mode lent quand il y a des voisins
command_neighbor = /my/scripts/transmission-turtle true
# le désactiver quand il n'y en a pas
command_no_neighbor = /my/scripts/transmission-turtle false
# capturer la sortie sur une erreur
error_on_stderr = true

[bitcoind]
# Vous pouvez désactiver une section entière sans avoir à l'effacer de la conf
enabled = false
command_neighbor = killall bitcoind
command_no_neighbor = /opt/bitcoind -server -daemon

# pour les deux sections ci-dessus, les filtres sont hérités de la section par défaut

[wake_computer]
# mais ici on surcharge la valeur par défaut pour ne filtrer que sur mon_tel
filter_on_machines = mon_tel
# pareil, on veut que un réveil n'attendent pas 4 rotation alors on descends le seuil
threshold = 2
# on restreint les horraires d'exécution avec une syntaxe similaire à cron
cron = * 18-23 * * 1-5
command_neighbor = wake my machine

Un script executable à la main myn exécuter avec les options --output et --verbose permet de facilement debugger sont fichier de configuration en comparant les correspondance obtenue avec celle désirée.

# myn -o -v
MindYourNeighbors: INFO - MindYourNeighbors initialized
MindYourNeighbors: DEBUG - 'transmission' - processing section
MindYourNeighbors: DEBUG - EXCLUDED - <mac> - MACHINE: une_machine
MindYourNeighbors: DEBUG - MATCH - <mac> - MACHINE: mon_ordi
MindYourNeighbors: DEBUG - NO_MATCH - <mac> - MACHINE: mon_tel
MindYourNeighbors: DEBUG - cache/transmission/neighbor 2 => 2
MindYourNeighbors: INFO - 'transmission' - cache state: {'results': ['neighbor', 'no_neighbor', 'no_neighbor', 'neighbor'], 'last_command': '/home/jaes/bin/transmission-turtle false'}
MindYourNeighbors: INFO - 'transmission' - cache count hasn't reached threshold yet (2/4)
MindYourNeighbors: DEBUG - section <Section: bitcoind> not enabled
MindYourNeighbors: DEBUG - section <Section: wake_if> disabled for now

SystemD

Il est possible de faire que systemd se charge de la dæmonisation de MindYourNeighbors. Pour ce faire il faut placer ce fichier dans /etc/systemd/system/ et d’exécuter systemctl daemon-reload et service mind-your-neighbors start.

Malheureusement je n’ai pasa réussi à trouver comment packager de façon correct ce fichier avec l’archive pypi. En effet la mettre dans le setup.py dans l’option data_files résultera en une erreur si on tente une installation sans les droits root. (Oui c’est un appel à l’aide aux bonnes âmes qui me lisent !).

À venir

Quelques améliorations sont à venir comme le probing, une option pour exécuter en dry run ou juste rajouter assez de test pour avoir une couverture descente.

Malgré tout je considère le programme comme assez stable pour être publié tel quel.

Récupération et expiration en HTTP1.1

2016-11-19T12:00:00+02:00

Quand je me suis attaqué à JARR, ma première motivation était d’écrire un crawler qui ne soit pas non seulement rapide mais qui respecte aussi tout un panel de bonnes pratiques et autres RFCs.

Le crawler doit en l’occurence :

dans le but de limiter le traffic réseau et soulager en temps CPU les serveurs distants : ne récupérer une resource que si elle a expiré
dans le but de limiter la consomation de resources de mon crawler : vérifier qu’une resource a changé avant de la traiter

Exposé ainsi, je pense que ça peut s’appliquer à en fait n’importe quel crawler et pas seulement un qui récupère des flux RSS, et du coup plus largement n’importe quel client web. Pour expliquer comment réaliser ces deux fonctionnalités je vais m’appuyer sur différents mécanismes de HTTP que presque tout le monde implémente plus ou moins bien. Comme base de travail je vais bien sûr utiliser la RFC2616 qui traitre de HTTP1.1.

Expiration d’une ressource

Il y bien sûr la possibilité de simplement récupérer une ressource en boucle à intervalle de temps régulier. Ça marche plutôt bien et ça reste un fonctionnement par défaut très utile quand une ressource ne dispose d’aucun mécanisme d’expiration.

Comme beaucoup de choses en HTTP on va passer par des entêtes.

Cache-Control

L’entête Cache-Control, si il est placé dans la réponse, peut préciser différentes choses concernant le contrôle de cache sur un proxy ou par un client. La directive max-age) est celle qui nous intéresse et sert à préciser le délais après laquelle une ressource est considérée comme périmée.

Par exemple le header suivant Cache-Control: max-age=600 signifie que la resource expirera dix minutes après avoir reçu la requête (en gros).

Expires

On peut aussi utiliser l’entête Expires. Celui-ci, beaucoup plus simplement, précise directement la date à laquelle la ressource sera considéré comme périmée. La date doit être précisée dans le format spécifié par la RFC1123.

Exemple assez explicite : Expires: Sat, 19 Nov 2016 14:32:47 GMT.

Les deux pouvant être présent en même temps la RFC précise à la fin de cette section que la directive max-age de l’entête Cache-Control doit prévaloir.

Remarques

Si la date d’expiration de la ressource est inférieure à votre délais de rafraichissement, ce la vous aidera à garder la ressources plus à jours. Si elle est supérieure, cela vous évitera de la récupérer probablement inutilement.

Mais ce qui est important c’est de ne pas oublier que ces valeurs ne sont que des recommandations du serveur. Il n’est pas rare par exemple de voir des valeurs pour Expires plusieurs années dans le passés ou le futur ! C’est parfois dû à la cohabitation de max-age et de Expires mais la conclusion est la même : le serveur peut mentir ou se tromper. Je suggère par conséquent de borner la valeur que vous allez utiliser en y appliquant une limite basse et haute.

Maintenant que vous avez la date d’expiration, il ne vous reste plus qu’à ne planifier la récupération qu’après cette date.

Ensuite, ce n’est pas parce qu’elle a expirée qu’elle a changé.

Vérifier qu’une ressource a changée

Pour ce faire on peut tout simplement comparer la réponse obtenue avec le résultat en cache. Mais cette comparaison implique souvent un coût (disque, réseau, base de donnée, etc) qu’on peut éviter avec, encore une fois l’usage de deux entêtes. Si le serveur reconnaît ces entêtes, il répondra avec un code 304 qui en plus d’être vide (et donc d’économiser de la bande passante) indique qu’elle ne nécessite aucun traitement supplémentaire.

Last-Modified / If-Modified-Since

Vous pouvez placer l’entête If-Modified-Since avec comme valeur la date (toujours au format de la RFC1123) de la dernière fois que la ressource a été modifié.

Vous pouvez aussi tirer la valeur de n’importe quelle réponse du serveur contenant l’entête Last-Modified.

ETag / If-None-Match

Autrement vous pouvez aussi récupérer la valeur de l’entête ETag de n’importe quelle réponse qui le contient et le passer dans vos prochaines requêtes avec l’entête If-None-Match.

Remarques

Il se peut qu’une réponse avec un code autre que 304 qui contienne un ETag correspondant à celui transmit dans la requête. Je n’ai pas trouvé de RFC spécifiant le comportement à adopter dans ce cas. Pour ce qui est de JARR j’ai pour ma part décidé que cette réponse n’invalidait pas la ressource et ne procède donc à aucune action après cette réponse.

Si possible, il faut préciser If-None-Match et If-Modified-Since. Le serveur suivra différentes règles pour savoir comment traiter les deux entêtes.

JARR: Note de Production

2016-10-21T00:00:00+02:00

Si vous utilisez JARR régulièrement, et plus particulièrement depuis une semaine, vous avez peut-être remarqué quelques changements.

Clusters (grappes)

Est en test (puisque oui, la version de JARR en production est souvent celle de la branche develop) une première version d’une feature que je prépare depuis un moment: les clusters. J’en ferais un article plus détaillé bientôt, mais le but est, pour l’instant, de grouper les articles de même sources, et bientôt les articles très similaires.

Les aléas de la bêta

Hier vous avez aussi pu remarquer quelques problèmes avec vos articles. Il s’avère qu’un vicieux bug qui survient lors de la suppression d’utilisateur (rarement donc) s’était caché dans le code de JARR.

Ayant détruit les associations articles/clusters j’ai du les reconstruire dans la nuit. Ce fut un peut douloureux pour la base mais tout est maintenant rentré dans l’ordre.

Mais c’était pas sans une petite montée en charge :

JARR: Production Note

2016-10-21T00:00:00+02:00

If you use JARR on a daily basis, and more particularly yesterday, you may have noticed some changes.

Clusters

Since a week or so, I pushed on my running instance the last version of the develop branch of JARR. The main feature that this branch brings is the clusters that allow to group article on their source or title. I’ll talk more deeply about that later.

Some DB problems

Yesterday you may have notied some problems with your articles. As it appears a vicious bug found its way into the JARR code and was triggered at user deletion (which happens rarely, and that’s a relief).

That bug destroyed association between clusters and articles. I wrote a script that spent the night fixing that but it wasn’t without some unnecessary stress on the database:

Mixed Contents

2016-07-23T23:01:00+02:00

Today I want to write a small bit about something that bugged me for while before I found a 20 lines of code fix that solved it all : Mixed Content.

I recently figured out many of the articles I read on JARR (my feed reader for those who didn’t follow) were badly displayed. The usual and easy solution was to directly go to the website hosting the article. But it’s shame to do so if the feed is not truncated and hold every bits of data you’ll need to read the article.

Anyway I got into debugging mode and I realised that my web browser console were showing some errors:

It appears that the mixed contents is the type of content which isn’t secured (understand, not in HTTPS) in a page which is (understand in HTTPS). Mozilla talks a bit about how firefox handles those kind of pages here.

But I also happened to stumble upon unsecure content which was still displayed. The browser was only showing warning when displaying it and not blocking it:

That’s where it becomes slightly trickier, there are two types of mixed content, and Mozilla (again) gives details about the differences here. In a few words, active content is supposed to be blocked, passive not. img are supposed to be passive so not blocked. So why some of my images were blocked ?

That’s the trick, those blocked ìmg with there src attribute also had a srcset attribute which make img active and so blocked. As JARR doesn’t really need srcset I just implemented a small cleaner that remove those attributes when appropriate. It should close some UX problems…

Mixed Contents

2016-07-23T23:00:00+02:00

Dans la série des petits détails méconnus qui vous prennent la tête un moment, avant de se résoudre en une vingtaine de lignes de code ; j’ai envie de parler aujourd’hui des Mixed Content.

Je me suis aperçu que pas mal d’articles étaient mals affichés quand je les lisais dans JARR (mon agrégateur RSS pour ceux qui ne suivrait pas). La solution facile était généralement de se rendre directement sur le site qui héberge l’article en question mais c’est un peu dommage d’en arriver là quand le flux Atom/RSS est complet et contient toutes les données nécessaires à la lecture de l’article.

Bref, petite enquête et je m’aperçois que dans la console de mon butineur préféré j’ai ça :

Petite explication pour ceux qui, comme moi, ignoreraient ce qu’est un mixed content : on parle de mixed content quand une page page sécurisé (comprendre en HTTPS) sert du contenu non sécurisé (en HTTP par exemple). Mozilla explique comment c’est géré dans firefox ici.

Ceci étant, je suis aussi tombé sur du contenu non sécurisé malgré tout affiché par mon navigateur depuis une page sécurisée. Seul un warning était affiché en console mais rien n’était bloqué :

C’est là que réside la subtilité, il y a deux type de mixed content et (encore une fois) Mozilla explique les différences et comment elles sont gérées ici. Pour faire court, il y a le contenu passif et le contenu actif. Seul le contenu actif est censé être bloqué. Les img sont catégorisés comme passif et sont censé ne pas être bloqués, même si servit en HTTP dans une page en HTTPS. Alors pourquoi certains img sont bloquées ?

C’est là qu’il y a une astuce ! Ces img étaient affublés d’un attribut srcset (que j’ai découvert à cette occasion). Cet attribut fait passer les balises img de passive à active et ces dernières se retrouvent donc bloquées.

Pour le besoin de JARR donc, les images des articles à afficher sont purgés de toute mention de srcset. Voilà qui devrait clore quelques petits problème d’utilisabilité.

L’impact de la sortie de Jarr

2016-04-16T12:00:00+02:00

J’ai écrit trois quatre mots sur le fait que JARR est passé dans une version propre et stable. C’est la première release publique dirons-nous, et même si c’est sur une niche (linuxfr n’est pas franchement un média de masse), j’ai quand même eu pas mal de retour intéressants (j’ai mis tout ça sur github histoire de retravailler sur tout ça plus tard).

Inscription

À l’heure où j’écris ces lignes 39 nouveaux utilisateurs se sont inscrit sur JARR. La plupart sont des comptes de tests avec seulement un ou deux flux, mais certains on quand même ajouter dans les 20 ou 30 flux.

Comme vous pouvez le voir ci-dessus, à peu près 100 feeds ont été ajouté dans les heures qui ont suivies (avec un pic à 200 mais l’utilisateur a sûrement dû détruire son compte après son test).

Ce qu’on peu voir sur ce graph, c’est que les retards, c’est à dire les flux qui n’avait pas été mis à jours dans l’heure, ont fait un pic au moment de l’ajout des flux. Pic qui a eux quelques échos dans les heures suivantes. Ces échos ont finit par se tasser naturellement car, le crawler ne prends qu’un nombre limité de flux à rafraîchir et va donc, par construction, répartir la charge dans le temps.

À noter que même si les flux vont finir par se répartir dans le temps, la répartition ne sera jamais égale par la seule action du crawler (une évolution à venir ?). Pour remédier à ça, j’ai écrit un petit utilitaire qui répartira l’intégralité des flux.

Stress sur la base

Bon, postgres a vaguement pris en poids au passage, mais ce n’est rien par rapport à la masse qu’il avait déjà (20M sur 400, moins de 5%) et même si le nombre de requête a explosé aux deux principaux imports de flux (j’imagine lors de l’import de fichiers OPML), tout est très vite revenu à la normal sans autres impact.

On peut observer que le nombre de flux a fait un cours bon à 600. C’est lors de ce pic que corresponds la prise de 10Mo de poids par la base, Ces flux ayant disparus, la base aurait du maigrir d’autant mais ce n’est pas le cas, je soupçonne une mauvais configuration qui empêcher le VACUM d’être éxécuté.

Stress sur la machine

Et pour finir voyons comment mon serveur s’est comporté :

Mon server s’en fout ; il n’y a aucun impact sur la charge de la machine ni par le crawling ni par l’ajout massif d’articles.

Bon en même temps mon Xeon à 3.1GHz qui court à côté de s’est 4Go de RAM m’aurait fait bien de la peine à trimer pour si peu.

Conclusion

Certes, c’était un mini stress test sans grands enjeux mais je suis content de voir que JARR a bien tenu la charge.

Côté crawler, ça semble suffisament optimisé pour la tâche et le fait qu’il soit et multiprocess et multithreadé n’y est sûrement pas pour rien. Je ne pense pas avoir grand chose à améliorer de ce côté là.

Côté server, Postgres est largement suffisant pour la tâche (ce qui n’aurait probablement pas été le cas si j’étais resté sur un sqlite qui luttait déjà avec mon compte et ses 400 flux…). La machine est surdimenssionné aussi pour l’enjeux.

Côté applicatif, je ne sais pas. Je n’ai pas mesuré grand chose, mais vu l’impact sur le reste, je dirais que ça va. Le bench de ce côté là sera sûrement à prévoir pour une prochaine release ou une communication sur le projet via un média peut être plus important.

Introducing JARR v1

2016-04-13T23:00:00+02:00

It’s time I (re)present to the world a project I’ve been working on for some time now. It’s a web app that agregate feeds (RSS/Atom) and it let you read most of them inside your browser.

JARR (and it stands for Just Another Rss Reader).

Before going through the details, you can test it by yourself by creating an account on my running instance !

The Stack

The project runs on python3.4 and makes a heavy use of the Flask framework. It’s completed with the SQLAlchemy ORM which allows various SQL database plug. I run my own installation against a PostgreSQL database and it works like a charm. Concerning the UI, I coded the whole thing as a ReactJS one page app.

Let’s have a look:

A little tour

As you can see on the screenshot above, the UI is splited in three columns. From left to right:

the first one let you see and select your categories and feeds. You can fold categories and display only feeds with unread articles or feeds which have encountered errors.
the second one is the article list, which will be updated when you select a feed or a category.
the third and last one is the category, feed, article or article you selected.

As some feeds don’t provide content, the right panel may not be as filled as you can see on the screenshot and you may have to go directly to the source though the link on the feed title in the article list. A better solution has also been implemented, if you have a readability key you provided either at the installation or in your profile, you’ll have a little readability button in the top right corner or your article. Clicking it will retrieve a cleaned version of your content. You can also choose in a feed options to make that retrieving automatic. That’s especially handy for news agregator like HackerNews.

What’s new

I worked a lot on the UI, and it feels pretty done by now. I’ll talk about it a lot below.

I’m working on redoing the install process so it’d be easy to bootstrap the project.

The crawler works pretty fine. The queue system is pretty robust and the whole thing works pretty well, it scales great against huge work loads without consumming to much ressource. The next step for it would be to make it a daemon and make it scale automatically.

Mobile

The site is somewhat compatible with smaller device.

Here on tablets :

And on phones :

What’s down the road

Some coming features are listed in the Github milestones. Most of them are obvious UI improvements and utilisability tweaks (as mark an article to be read later on or having a nice integration for well-known feed that misbehave or are poorly formated).

But the main thing I’d like to implement would be an intelligent grouping feature that would regroup articles in clusters. The goal would be to regroup article on the same subject (or pointing to the same resource) so a user wouldn’t be presented with the same news if it appears in multiple feeds. It’s a feature a bit down the road, but definitively coming !

History

The project was initially created by Cédric Bonhomme who I thanks a lot for letting me fiddle with his project. But, as I introduced stuffs to the project that he was less and less easy with, I thought it was time for a full fork.

Conclusion

I’d be happy to see some of you install the project (I worked on the install script so it’s painless :) or try it on my instance. Of course, I’m welcoming all critics and contributions !

Pélican

2016-01-16T21:00:00+02:00

Plus pour réellement m’amuser que par réelle envie de maintenir ce blog à jour, j’ai changé de moteur de blog. Inspiré par d’autres pages personnelles d’autres développeurs, je suis passé à pelican.

Par rapport à liquidluck que j’utilisais avant il y a quelque changements notables (même si ça ne casse pas trois pattes à un canard, on reste dans le générateur de blog statique qui mange du markdown / restructured pour pondre du html).

Parmi les points à l’avantage de liquidluck, de mémoire (parce que je l’ai installé il y a un moment maintenant) ce dernier était plus facile à installer et son côté “brut de décoffrage” le rendait plus facile à hacker.

Bon par contre son intégration n’était vraiment pas aussi souple. Pélican offre tout un tas d’intégration, la possibilité de déployer via ssh, une configuration bien plus complète. Bref, le choix est sans équivoque !

Jessie, g_slice_set_config et gdm3

2015-02-05T12:00:00+02:00

Après avoir mis à jours ma debian au boulot de wheezy à jessie impossible de lancer gdm3. Après quelques errement j’ai découvert que mon /var/log/syslog était rempli de lignes de ce genre :

Feb  5 14:32:14 evoli console-kit-daemon[4627]: (process:4690): GLib-CRITICAL **: g_slice_set_config: assertion 'sys_page_size == 0' failed

Une recherche google d’une partie de cette ligne donne surtout comme conseil de supprimer son ~/.profile ce qui n’aide en rien. Une autre, plus approfondie, avec comme paramètre que ma carte graphique est une GT610 et a donc besoin d’un pilote nvidia, ne donne comme conseil que de apt-get remove --purge tous les paquets liés de plus ou moins loin à nvidia.

Je le marque ici afin de peut être aidé une âme perdu qui parcourerait les tréfons du net à la recherche d’une solution :

aptitude purge --purge consolekit
aptitude install consolekit

En effet, c’est ce petit malin qui est à l’origine du fail de gdm3.

Si il doit y avoir une leçon à tirer de cette histoire c’est bien qu’il ne sert à rien de trop chercher sur le net quand on peut lire le nom du fautif directement dans le message de log. Oui, console-kit-daemon, c’est à toi que je parle.

Mise à jours

La traceback survient toujours sur mon server et c’est plutôt disgracieux, aussi j’ai trouvé ce rapport de bug qui stipule :

ConsoleKit only manages console logins in graphical mode, so it’s useless on a debian 8 based headless server[1]. The way to remove and stop console kit:

$ sudo apt-get remove consolekit

On ne me le demandera pas deux fois.

Disqus !

2014-09-10T15:00:00+02:00

J’utilise liquidluck pour générer le rendu de ce blog et ça marche bien pour le peu que j’utilise. Bon, la prise en main n’a pas forcément été des plus facile, mais dans le genre c’est quand même dans les moteurs de blog les plus sympa que j’ai trouvé. Pour le principe : ça marche avec python (indispensable !), ça génère du contenu statique et… et c’est tout.

En tout cas c’est ce que je pensais ! J’ai découvert, à base de lecture de fichier de configuration et de grep au travers du code source, que le moteur de blog supportait l’intégration du moteur de commentaire Disqus. J’avais vaguement entendu parlé du service auparavant mais c’était le moment de tester.

Le principe est simple : on créé son compte, on intégre leur bout de code et ça roule tout seul. Après avoir jouer peu avec leur code et être vite arrivé à la conclusion qu’il n’y avait pas grand chose à tripoter je vais juste laisser cette histoire tourner par elle même.

J’ai reçu plusieurs mails concernant mon appli web pour les graphs ING et je me suis dit que ces mails auraient pu profiter à mon post en parlant, au moins sous forme de commentaire. C’était ma principale et unique motivation pour trifouiller liquidluck en fin de compte…

Bref maintenant ça marche et personne n’écrira jamais rien là dedans ! Joie.

ING Chart : Visualiser ses extraits de comptes

2014-06-30T12:00:00+02:00

Il y a quelque semaines de ça, j’en ai finalement eu marre que les différents graphiques de suivis de budget du site web de ma banque soient cassés.

Sachant que ça faisait déjà près d’un an (cf le post sur le forum de support) que rien n’était fait à ce sujet j’ai décidé de coder moi même une petite appli web qui reproduirait les mêmes graphiques. Je me suis servi pour ça de trois bouts de JavaScript collé à la glue de chez jquery et de la bibliothèque Chart.js.

L’appli fonctionne bien et est globalement plus esthétique / ergonomique que les graphs originaux. Pour fonctionner elle ne requiert que les historiques des mouvements de compte qui sont téléchargeables au format CSV depuis le site d’ING.

Le graph est utilisable à partir d’ici et je me fends d’un petit aperçu du rendu :

J’ai aussi implémenté un mode camembert (piechart quoi) parce que j’aurais eu tort de me priver :

Bon. Ce qui est dommage, c’est qu’à l’heure où j’écris ces lignes, un correctif vient tout juste d’être plublié et les graphs fonctionnent de nouveau sur le site d’ING Direct…

Malgré tout, je trouve mon implémentation bien meilleurs ! Plus flexible, plus jolie, plus lisible, si en plus on compte sur mon rêve simplet de postérité, ça fait pas mal de raisons de laisser ma bidouille en ligne.

Bien entendu, tout ceci est open source et le code est disponible sur github.

Servir et gérer des fichiers avec WebDav

2013-12-09T21:20:00+02:00

J’ai récement eu besoin de pouvoir stocker des fichiers en ligne. Je voulais un minimum d’authentification, quelque chose qui soit standard, pas de client lourd etc, etc. Bref, après m’être renseigné à minima j’ai décidé de tenter ma chance avec WebDav en l’occurence puisque je fais tourner ça avec apache).

Les caractéristiques voulues :

accès en HTTP et HTTPs
un dossier /public/ accessible en lecture par tous (HTTP et HTTPs)
redirection de HTTP vers HTTPs sinon
authentification via BasicAuth
tous les utilisateurs peuvent écrire dans /public/
chaque utilisateurs ne peut écrire sur dans l’URI /<utilisateur>/

Maintenant la conf et les explications :

La conf du VirtualHost pour l’accès en HTTP :

<VirtualHost *:80>
    ServerName my.server.tld
    DocumentRoot /$document_root/

    <Directory /$document_root/public/>
        Options -Indexes
    </Directory>
    <Directory /$document_root/public/*/>
        Options +Indexes
    </Directory>

    RewriteEngine On
    # Cette RewriteCond vérifie que l'URI de la requête concerne le notre
    # dossier /public/ (ou les images qui servent à l'affichage des indexes
    # chez apache). La RewriteCond ne s'applique que pour la RewriteRule
    # suivante.
    RewriteCond %{REQUEST_URI} ^/(public/(?|.*)|icons/(?|.*)|favicon\.ico|robots\.txt|$)$
    RewriteRule ^.* - [L]

    # Cette dernière RewriteRule s'assure que tous ce qui n'a pas matché
    # plus haut est redirigé vers le même domaine en HTTPs
    RewriteRule ^/?(.*) https://%{HTTP_HOST}/$1 [QSA,L,R=301]

    ErrorLog ${APACHE_LOG_DIR}/error.log
    CustomLog ${APACHE_LOG_DIR}/access.log vhost_combined
    LogLevel warn
</VirtualHost>

La conf du VirtualHost pour l’accès en HTTPs :

<VirtualHost *:443>
    ServerName my.server.tld
    SSLEngine on

    DocumentRoot /$document_root/

    DavLockDB /run/lock/apache_dav
    DAVMinTimeout 600

    # On empêche les robots des snifer le roots où il y a
    # la liste des users (leurs dossiers perso en fait)
    <Directory /$document_root/>
        Options -Indexes
        Dav On
    </Directory>

    # On définit qu'une authentification est nécessaire pour
    # accéder à n'importe quel dossier.
    <Directory /$document_root/*/>
        Options +Indexes +FollowSymLinks +MultiViews
        AllowOverride None

        Order allow,deny
        Allow from all
        Dav On

        AuthType Basic
        AuthName "My Server WebDav"
        AuthUserFile /path/to/htpasswd
        Require valid-user
    </Directory>

    # On est pas trop méchant et on laisse
    # quand même les robots accéder à leurs conf
    <Files /$document_root/robots.txt>
        Order Allow,Deny
        Allow from all
        Satisfy any
        Require all granted
    </Files>

    # On surcharge la précédente définition pour le dossier /public/.
    <Directory /$document_root/public/>
        Options -Indexes +FollowSymLinks +MultiViews
        AllowOverride None

        Order Allow,Deny
        Allow from all
        Dav On

        <LimitExcept GET OPTIONS>
            AuthType Basic
            AuthName "My Server WebDav"
            AuthUserFile /path/to/htpasswd
            Require valid-user
        </LimitExcept>
    </Directory>
    # On autorise les indexes sur les dossiers contenu dans /public/
    # même si ils ne sont pas autorisés dans ce dernier
    <Directory /$document_root/public/*/>
        Options +Indexes
    </Directory>

    RewriteEngine On
    # On autorise l'accès au robot.txt sans redirection aucune
    RewriteCond %{REQUEST_URI} ^/robots.txt$
    RewriteRule ^/?(.*) http://%{HTTP_HOST}/robots.txt [QSA,L,R=301]

    # Comme précédemment, on ne touche à rien si
    # l'URI de la requête concerne le dossier /public/.
    RewriteCond %{REQUEST_URI} ^/(public/(?|.*)|icons/(?|.*)|favicon\.ico)$
    RewriteRule ^.* - [L]

    # La règle qui empêche un utilisateur d'accéder
    # à un dossier qui n'est pas à eux.
    RewriteCond %{LA-U:REMOTE_USER} ^(.+)
    RewriteCond %1:/$1 !^([^:]+):/\1$
    RewriteRule ^/([^/]*) - [F,L]

    ErrorLog ${APACHE_LOG_DIR}/error.log
    CustomLog ${APACHE_LOG_DIR}/access.log vhost_combined
    LogLevel warn
</VirtualHost>

Les dernières RewriteCond sont utilisées pour s’assurer que chaque utilisateur n’accèdera qu’à son dossier utilisent LA-U:. Ce préfix est décrit dans la documentation de mod_rewrite.

L’idée derrière cette subtilité est que les règles de réécriture sont exécutées avant que l’authentification n’ait lieu. La variable REMOTE_USER, elle, définie lors de l’authentification, n’est pas disponible pour la comparaison avec l’URI de la requête. LA-U: permet de prefetch cette valeur. La dernière condition de réécriture véréfie que cette valeur correspond bien au début de l’URI de la requête.

La syntaxe de la condition de réécriture est assez compliquée (et honteusement copiée de cet article). Elle doit sa structure au fait que apache ne permet pas à une valeur d’être à droite de la comparaison du RewriteCond.