TP 4.1 : Analyse de politiques IA

Formez des groupes de 4 personnes et assignez-vous à l’un des liens ci-dessous (un groupe par lien).

Lisez, individuellement, les politiques ou discussions
Discutez-en en groupe. Résumez les points de discussion principaux relatifs à l’IA présentés dans ces liens (15 minutes)
Une personne de votre groupe présentera en 2-3 minutes ces points à la classe, le reste du groupe notera l’ensemble sur des notes partagées.

Fichier créé par la promotion 2025-2026:

Résumés des élèves de 3TC37-2026 des politiques LLM de divers projets de logiciel libre.

SymPy

Problème:

beaucoup de PR générées par IA de pauvre qualité, ça fait une charge en plus pour les mainteneurs

6 points essentiels:

Responsabilité du code proposé peut importe si il est écrit par un humain ou généré par une IA, la personne doit comprendre le code et l’expliquer.
Si le patch proposé utilise une IA, il doit être indiqué comment et où l’IA a été utilisée.
Le code généré par l’IA est souvent de mauvaise qualité, les contributeurs doivent s’assurer que le code proposé est de bonne qualité, tout ‘AI’ slop va être refusé.
Le code généré par l’IA peut violer les droits d’auteur, et c’est la responsabilité du contributeur de vérifier la conformité avec la licence BSD 3-clause, tout PR avec des problèmes de copyright sera rejeté, qu’il soit généré par l’IA ou écrit manuellement.
Ne pas utiliser l’IA pour communiquer à votre place à part si c’est pour corriger des fautes d’orthographe ou de grammaire, l’interaction humaine est essentielle pour un projet open source.
Les contributeurs expérimentés peuvent utiliser l’IA pour améliorer leur travail, mais les nouveaux contributeurs doivent éviter de soumettre du code généré principalement par l’IA.

QEMU

Inderdit d’utilisation de l’IA pour la génération du code (chatgpt, claude etc…).

Les IA sont entraînées sur des données souvent propriétaires ou sous licences variées/incompatibles → impossible de certifier l’origine du code généré.

Problème central : Les LLMs génèrent du contenu dont le statut juridique (copyright, licence) est flou et non établi légalement.

QEMU exige que les contributeurs signent le DCO (Developer’s Certificate of Origin), ce qui implique de certifier qu’on comprend et maîtrise les droits sur le code soumis.

Les recherches algos, stats, debug peuvent être par IA, tant que le code produit n’est pas importé comme contributions dans le projet.

OpenInfra

Si c’est assisté voire généré, il faut le préciser
Une IA OSS est recommandée, idéalement entrainée sur du contenu sous licence compatibles. Mais ce n’est pas une obligation
Nécessité de surveillance accrue, “as if it came from an untrusted source”, côté contributeur ET mainteneur
Insiste que copyright s’applique toujours (c’est implicite mais ils le précisent quand même) -> Vérifier les conditions d’utilisation de l’IA
3 contextes d’utilisation (mais sans règles précises pour chacune):
- Predictive (auto-complete)
- Generative
- Assistive
Rappel du copyright: ils sont conscients que légalement, codes générés par computer sont pas considérés comme copyrighted
Ils sont aussi conscients que les ia sont possiblement entrainées sur du contenu copyrightés. Et ils rappellent qu’il faut faire attention aux outils qui vont s’entraîner sur la codebase en même temps qu’on travaille dessus.
“Attention la loi est en évolution sur ce sujet”
Si on réécrit tout lors d’une review, ça devient traité par un humain et faut enlever les clauses generated by ou assisted by
Une checklist côté mainteneur et contributeur existe, qui reprend les points de façon guidée
La politique IA existe depuis novembre 2023

Inkscape

Constat:

Comme partout, les responsables du projet Inkscape constatent une augmentation de l’usage de l’IA que ce soit dans les MR (Merge Requests) ou dans les reviews.
Cela révèle des inquiétudes quant à la perte de qualité du code proposé et ajouté.
Il n’y a pas encore de guide de conduite officiel sur l’usage spécifique de l’IA, mais des propositions sont faites pour en mettre un en place.

Propostions de mesure, pour un future guide:

Globalement, la communauté semble assez réfractaire à l’usage de l’IA.
L’IA ne semble généralement pas éthique dans son usage pour des projets open source (problèmes de droits d’auteur / DCO).
Le contributeur est légalement responsable du code qu’il produit, même si celui-ci provient d’un agent IA.
Le contributeur doit comprendre réellement et globalement le code que l’IA lui propose avant de le partager.
Toute décision finale doit être prise par un humain.
Tout post exploitant de l’IA doit le spécifier.
Les deux premières MR d’un nouveau contributeur ne peuvent pas contenir de contenu généré par l’IA.
Un post globalement suspecté d’usage d’IA abusif (“slop”) peut être supprimé sans autres mesures.

Brainglobe

Règles:

si contibutions majoritairement par IA, ou que la personne ne comprend pas le code, rejet des contribution
pas de messages écrits pas IA dans les dicussions (messages pas intéressants si écrits pas IA)

Arguments:

en pratique les patchs de mauvaise qualité sont très souvent ceux faits par IA
défauts des contributions IA:
- diffile de comprendre et maintenir
- ne résoud pas le problème demandé
- choix douteux dans le design
- les mauvaises contributions font perdre du temps
défauts pour la communication
- trop verbeux
- pas intéressant d’avoir l’avis d’un LLM

Utilisation de l’IA est ok mais les gens doivent comprende ce qu’ils font et pas faire des choses de mauvaise qualité

Blender

Politique proposée par l’OP :

possible d’utiliser l’IA pour du code/texte mais pas pour des images/modèles 3D
le programmeur doit être tenu pour responsable du code généré par l’IA utilisée
il doit indiquer que l’IA a été utilisé (par une mention Assisted-by:)
la contribution doit être en majeure partie le fruit du programmeur
le code doit également être review par un humain

Discussion autour de cette politique

les messages modifiés par IA peuvent voir leur sens changer conduit à des dialogues de sourds
en art l’IA pose problème pour des artistes qui disent ne pas se servir d’IA
on n’apprend pas avec de l’IA
comme l’IA vole du contenu sur internet, pose un problème sur les copyrights et les licences
avec ou sans IA il y a toujours un risque d’avoir des contributions de mauvaise qualité, pour certains pas besoin d’avoir une police particulière à l’IA si l’on respecte déjà les règles en place, notamment ceux qui vibe codent à foison auront aussi tendance à ne pas lire la politique d’IA de toutes façons
une politique spécifique permettrait d’inciter les gens à mieux se comporter
certaines personnes sont justes ignorantes des problèmes posés par l’IA
la nouvelle génération sera amenée à utiliser de l’IA dans tous les cas et on ne peut pas le refuser
l’IA peut être utile en tant qu’outil de recherche+ autocomplétion sous stéroïdes
Difficile de savoir ce qui est généré par IA ou non -> décrit comme “empty posturing” : c’est une incitation

LLMS = Slop Generator Les LLM utilisent beaucoup de ressources précieuses et sont entraines sur des donnes illegales/privees/securisees. faire un poste a l’aide d’un slop generator, ou repondre en copiant le tests dans un llm s’apparente a un LMGTFY et est inutile si utilisation de l’IA warning, puis ban les llm sont juste des chaines de matrices stochastiques,et affirment des choses fausses avec confiance , alors qu’ici la correction est essentielle. les ia volent aussi les forces de travail humain. De plus, la nature du projet asahi fait que l’ia n’est pas adaptée : en effet d’une part c’est un projet assez unique donc les llms utilisés n’auront probablement pas vu ce type de code dans leur données d’entrainement et ne fourniront pas de réponse pertinete. D’autre part il se peut que des donées confidentielles d’apple se trouvent dans les données d’entrainement et cela contredit la pollitique du projet asahi qui n’utilise que des sources autorisées par apple (quitte à faire du reverse engineering) Les impacts éthiques et environmentaux de l’ia sonts aussi mentionnés

Apache

A priori ok mais le pblm principal est la licence
Ok à condition que ça respecte les droits de licences
Le problème c’est que les IA ont tendance à recopier complètement du code sur lequel elles ont été entrainées
Cela inclut de vérifier que le code n’a pas été recopié
On peut s’assurer que les éditeurs de l’IA donnent des garanties sur les outputs de l’IA
Ils peuvent s’assurer que les données d’entrainement sont libres
Une bonne idée peut-être de mentionner quelle IA a été utilisée
Le cadre légal est amené à évoluer (produit en 2023)

Loupe

Projet non choisi

TP 4 - Partie 2 : Messages de commits →