OpenClaw et Hermes : Découverte

L’écosystème de l’intelligence artificielle générative et des agents autonomes évolue à un rythme effréné. Récemment, des outils comme OpenClaw et Hermes ont commencé à faire sérieusement parler d’eux dans les communautés tech [1]. Si la promesse d’automatisation poussée est séduisante, leur déploiement “sauvage” n’est pas sans risques.

⚠️ Avertissement : Le domaine de l’IA et des agents autonomes avance à une vitesse vertigineuse. Gardez à l’esprit que les informations, les noms des outils et les bonnes pratiques présentés dans cet article sont très susceptibles d’évoluer rapidement après sa publication.

Dans ce billet, on fait le tour du propriétaire : de quoi s’agit-il vraiment, comment les mettre en place proprement, et surtout, quelles sont les “red flags” en matière de sécuriter.

De quoi parle-t-on exactement ?

OpenClaw et Hermes s’inscrivent dans la lignée des agents IA capables d’interagir avec l’environnement système. Contrairement à un simple chatbot, ces outils peuvent exécuter des scripts, lire des fichiers locaux et, dans certains cas, orchestrer d’autres outils en chaîne [2].

(À noter : L’histoire d’OpenClaw est assez mouvementée. Le projet s’appelait initialement Clawdbot, puis a été brièvement renommé Moltbot pour éviter toute confusion juridique ou marketing avec l’IA “Claude” d’Anthropic. Malheureusement, lors de cette transition, des escrocs ont détourné les comptes sociaux et GitHub de Clawdbot en quelques secondes. Pour repartir sur des bases saines et sécurisées, le projet a finalement été réorganisé sous son nom définitif : OpenClaw [5]).

La différence fondamentale entre les deux réside souvent dans leur approche de l’autonomie et les modèles sous-jacents qu’ils privilégient (Hermes étant souvent plus focalisé sur l’exécution pure de code là où OpenClaw cherche une orchestration plus large).

Connecter son propre modèle (LLM ou SLM)

L’un des grands avantages de ces outils est leur modularité. Vous n’êtes pas obligé de faire transiter vos données par des API cloud comme OpenAI ou Anthropic. Vous pouvez tout à fait y brancher :

Un LLM distant (via API, ex: GPT-4, Claude) pour des tâches complexes nécessitant un fort raisonnement.
Un SLM local (Small Language Model) (via Ollama, LM Studio ou vLLM) comme Llama 3 8B, Mistral ou Phi-3. C’est l’option idéale pour des tâches de traitement de logs ou d’OSINT où la confidentialité des données est absolue.

La configuration se fait généralement très simplement via des variables d’environnement en pointant vers une URL compatible avec l’API OpenAI (ex: http://localhost:11434/v1 pour Ollama).

L’installation : Isoler avant tout

L’installation typique se fait via les dépôts Git officiels. Cependant, la règle d’or ici est de ne jamais lancer ces outils directement sur votre machine hôte sans isolation.

Un setup classique, mais sécurisé, ressemblerait à ceci :

# On clone le dépôt dans un environnement dédié
git clone https://github.com/votre-depot/openclaw.git
cd openclaw

# Utilisation stricte d'un environnement virtuel (ou idéalement Docker)
python3 -m venv.venv
source.venv/bin/activate
pip install -r requirements.txt

Cas d’usage pratiques & Intégration Telegram

Pourquoi s’embêter à déployer ces solutions ? Les applications sont nombreuses :

Automatisation OSINT / SecOps : Analyse de logs en masse ou collecte d’informations automatisée.
Assistance au code “hands-on” : L’agent ne se contente pas de donner le code, il l’écrit, le teste et le corrige de manière autonome.
Orchestration de tâches complexes : Chaînage de requêtes API et manipulation de données sans intervention humaine continue.

L’intégration avec Telegram (ou Slack/Discord) : Un des cas d’usage les plus puissants est de lier l’agent à un bot Telegram. Cela permet notamment de :

Lancer des scans ou des analyses de logs directement depuis son téléphone (style “ChatOps”).
Recevoir les alertes de l’agent en temps réel.
Surtout, valider une action critique. Par exemple, l’agent peut vous envoyer un message : “J’ai trouvé les logs à supprimer, confirmez-vous l’action ? O/N”, ajoutant ainsi un contrôle humain (“Human-in-the-loop”) très sécurisant avant toute action irréversible.

⚠️ Sécurité et “Garde-fous” (Guardrails)

C’est le point crucial. Confier l’exécution de code à un agent autonome expose à des risques majeurs, notamment l’injection de prompt (Prompt Injection) où une donnée externe malveillante pourrait “convaincre” l’agent d’exécuter des commandes destructrices [3].

Pour mitiger ces risques, la mise en place de Guardrails (garde-fous) est indispensable :

Filtres sémantiques (Guardrails) : Utiliser des outils dédiés comme NeMo Guardrails ou Llama Guard en amont de votre agent. Si l’agent, trompé par un prompt, tente de générer une commande système dangereuse (comme rm -rf), le guardrail analyse la requête et la bloque avant même qu’elle n’atteigne le shell.
Pas de production : Ces outils sont encore expérimentaux. Ils n’ont rien à faire sur un environnement de production.
Sandboxing obligatoire : Utilisez des conteneurs éphémères (Docker, Podman) ou des VM dédiées sans accès à votre réseau interne (Air-gap réseau si possible).
Moindre privilège : L’utilisateur exécutant l’agent ne doit avoir aucun droit d’administration (root ou sudo bannis).

La notion de “Skill” (Compétence)

Dans l’univers des agents IA comme OpenClaw et Hermes, la notion de Skill est centrale. Contrairement à un modèle de langage (LLM) classique qui se contente de générer du texte, un agent autonome interagit avec son environnement par le biais de Skills (parfois appelés tools ou outils) [4].

Un Skill peut être par exemple :

Un script pour lire, écrire ou modifier un fichier local.
Une fonction pour effectuer une recherche web ou scrapper une page.
Une intégration pour requêter une API externe (comme envoyer un email ou créer un ticket Jira).

Ces compétences définissent le périmètre d’action de l’agent. La sécurité consiste donc à auditer et limiter strictement les Skills auxquels l’agent a accès. Donner un “Skill” d’exécution shell globale à un agent est l’équivalent de lui donner les clés du royaume.

Comparatif : OpenClaw & Hermes vs Gemini 3.5 (Flash & Pro)

Avec la sortie de l’API Gemini 3.5 (Flash pour la vitesse, Pro pour le raisonnement complexe), la question se pose : pourquoi s’embêter à déployer un framework de type OpenClaw quand on a accès à un LLM surpuissant ?

La réponse réside dans la notion d’Agentivité (Agency). Gemini 3.5 est le “cerveau”, tandis qu’OpenClaw et Hermes sont le “corps” (le framework d’exécution).

Caractéristique	OpenClaw	Hermes	Gemini 3.5 Flash/Pro	Agent traditionnel (ex: AutoGPT)
Rôle	Framework d’orchestration système	Exécuteur de code guidé	Modèle de Raisonnement (LLM)	Expérimentation large
Niveau d’autonomie	Élevé (Peut enchaîner les tâches)	Modéré (Exécute selon instruction)	Dépend du framework appelant	Variable
Fenêtre de contexte	Dépend du LLM branché	Dépend du LLM branché	Jusqu’à 2 Millions de tokens	Dépend du LLM
Sécuriter	Sandbox recommandée (Docker)	Mieux encadrée (Code Interpreters)	Accès API externe (Risque fuite)	Souvent perméable
Cas d’usage optimal	Automatisation système complexe	Assistance dev / rédaction	Raisonnement profond, Parsing	Sandbox

Exemple pratique : Vous pouvez configurer OpenClaw pour qu’il utilise le moteur de Gemini 3.5 Flash via API. OpenClaw va recevoir une instruction, interroger Gemini très rapidement pour obtenir le plan d’action et le script bash, puis OpenClaw va lui-même ouvrir le terminal local et exécuter ce script.

Outils similaires dans l’écosystème

Si OpenClaw et Hermes vous intéressent, l’écosystème regorge de projets explorant l’autonomie et l’orchestration de LLMs. Voici quelques alternatives ou compléments notables :

AutoGPT : L’un des pionniers grand public des agents autonomes essayant d’atteindre des objectifs globaux.
CrewAI / Autogen : Des frameworks spécialisés dans la création “d’équipes” d’agents avec des rôles et des expertises définis, capables de collaborer entre eux pour résoudre un problème.
LangChain / LlamaIndex : Des bibliothèques de bas niveau (plus que des agents “clés en main”) permettant de construire de zéro des workflows et d’intégrer des Skills à n’importe quel modèle de langage.

Conclusion

L’utilisation de frameworks agentiques comme OpenClaw ou Hermes permet de transformer un simple modèle linguistique (LLM) en un véritable acteur système. Si l’arrivée de modèles surpuissants comme Gemini 3.5 Pro décuple les capacités de raisonnement, ces frameworks restent indispensables pour fournir l’interface d’exécution (le shell, l’accès aux fichiers, l’orchestration des API). La mise en œuvre de ces architectures demande cependant une vigilance stricte : l’exécution automatisée de code requiert impérativement un cloisonnement fort (sandboxing) et des filtres sémantiques (guardrails) pour empêcher toute altération du système hôte par une injection malveillante.

Sources

Si vous voulez plus d’information sur l’infrastructure vous pouvez voir l’ repo à ce sujet : https://github.com/ravindrajob/InfraAtHome

📘 Ravindra’s Notes 🚀

Found here some home projects and architecture design for the cloud