courses:wshop:topics:tematy2026wiosna

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:wshop:topics:tematy2026wiosna [2026/03/01 09:39] kktcourses:wshop:topics:tematy2026wiosna [2026/04/17 06:00] (current) – [[SBK] TobiiPytracker – gaze-data alignment] admin
Line 7: Line 7:
 ==== [FIXME] Template ==== ==== [FIXME] Template ====
  
-  * **Student:** FIXME+  * **Student:**FIXME
   * **Namespace in the wiki:** [[..:projects:2026:FIXME:]]   * **Namespace in the wiki:** [[..:projects:2026:FIXME:]]
   * **The goal of the project:** FIXME   * **The goal of the project:** FIXME
Line 14: Line 14:
   * **Links:**   * **Links:**
     * FIXME     * FIXME
 +
 +==== [MZK] Biraffe3 experiment ====
 +
 +  * **Student:** FIXME
 +  * **Namespace in the wiki:** 
 +  * **The goal of the project:** Conducting a experiment, to gather data from 100-150 participants
 +  * **Technology:** Set of sensors (eyetracker, EDA, ECG), in-house procedure for gathering data including sets of stimuli and afective game(ShroomDoom)
 +  * **Description:** Assistance in conducting an experiment on affective computing. The aim of the experiment is to perform fundamental research to collect data for studies on the recognition of the affective states of subjects in the context of measurements from sensors with different modalities. 
 +  * **Links:** https://afcai.re/pub:biraffe:biraffe3
 +
 +==== [EAS, MM] Tool that generates thematic narratives (2) ====
 +
 +  * **Student:** Justyna Gargula, FIXME
 +  * **Namespace in the wiki:** [[..:projects:2026:FIXME:]]
 +  * **The goal of the project:** Development of a tool for generating thematic narratives based on JBC objects (social life documents) (part 2)
 +  * **Technology:** Python, RDFLib, LLM/GPT API, Streamlit, Google GenAI (Gemini API), RDFLib, Plotly, Pandas, requests, opcjonalnie: Cornac, GeoNames API / geopy, NetworkX / PyVis, spaCy, ChromaDB / FAISS, Elasticsearch (ES) 
 +  * **Description:** This project integrates metadata from social life document collections of the JBC into a knowledge graph to create semantic connections between people, places, events, and objects. Using GPT-based methods, the system generates thematic, chronological, or stylistic narratives that present historical materials in the form of timelines, maps, or continuous digital stories, supporting contextual discovery in historical and educational research.The project also develops new exploration tools (e.g., character relationship maps), interactive storytelling features, GeoNames integration, text-based queries, recommendation and personalization mechanisms, and improved UI with micro-interactions. Additionally, a continuous UX evaluation module will enable users to provide immediate in-app feedback on generated stories and timelines.  
 +  * **Links:**   https://jbc.bj.uj.edu.pl/dlibra/results?q=&action=SimpleSearchAction&type=-6&p=0&qf1=collections%3A188&qf2=Subject%3AKrak%C3%B3w%20%28Polska%20%3B%20region%29&qf3=Subject%3AII%20wojna%20%C5%9Bwiatowa%20%281939-1945%29&qf4=Subject%3Adruki%20ulotne%20z%20lat%201939-1945&qf5=Subject%3Adruki%20ulotne%2021%20w.&qf6=Subject%3Ateatr%20polski%2019%20w.&qf7=Subject%3Ateatr%2019%C2%A0w.&qf8=Subject%3ATeatr%20Polski%20%28Krak%C3%B3w%29&qf9=Subject%3ADrukarnia%20%E2%80%9ECzasu%E2%80%9D%20%28Krak%C3%B3w%29&qf10=Subject%3ATowarzystwo%20Artyst%C3%B3w%20Dramatycznych&qf11=Subject%3AMa%C5%82opolska%20%28Polska%20%3B%20wojew%C3%B3dztwo%29&qf12=Subject%3ATeatr%20%C5%81%C3%B3dzki%20%28Polska%29&qf13=Subject%3Aliteratura&qf14=Subject%3Aafisz%20muzyczny&ipp=50 
 +    * 
  
 ==== [KKT] Wikidata as a central point of cultural heritage data cloud ==== ==== [KKT] Wikidata as a central point of cultural heritage data cloud ====
  
-  * **Student:** FIXME {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}+  * **Student:** Bartosz Majkowski, Kacper Mielniczek {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}
   * **Namespace in the wiki:** [[..:projects:2026:chcloud:]]   * **Namespace in the wiki:** [[..:projects:2026:chcloud:]]
   * **The goal of the project:** Validate the usability of Wikidata as a central point of cultural heritage data cloud   * **The goal of the project:** Validate the usability of Wikidata as a central point of cultural heritage data cloud
Line 25: Line 44:
 ==== [KKT] Iconclass-based classification and recommendation ==== ==== [KKT] Iconclass-based classification and recommendation ====
  
-  * **Student:** FIXME {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}+  * **Student:** Adam Lisik, Kacper Kula, Rafał Bernacki {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}
   * **Namespace in the wiki:** [[..:projects:2026:iconclass:]]   * **Namespace in the wiki:** [[..:projects:2026:iconclass:]]
   * **The goal of the project:** Extend the existing prototype of ICONCLASS-based classification and recommendation modules   * **The goal of the project:** Extend the existing prototype of ICONCLASS-based classification and recommendation modules
Line 35: Line 54:
 ==== [KKT] Expert-guided recommendations in cultural heritage knowledge graphs ==== ==== [KKT] Expert-guided recommendations in cultural heritage knowledge graphs ====
  
-  * **Student:** FIXME {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}+  * **Student:** Piotr Wójtowicz, Jakub Dziurka {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}
   * **Namespace in the wiki:** [[..:projects:2026:graphrecs:]]   * **Namespace in the wiki:** [[..:projects:2026:graphrecs:]]
   * **The goal of the project:** Extend the existing recommendation workflow to include expert knowledge, an evaluation interface with explanations for experts, and user interface for final users   * **The goal of the project:** Extend the existing recommendation workflow to include expert knowledge, an evaluation interface with explanations for experts, and user interface for final users
Line 45: Line 64:
 ==== [KKT] Path visualizations as a XAI layer in graph-based systems ==== ==== [KKT] Path visualizations as a XAI layer in graph-based systems ====
  
-  * **Student:** FIXME {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}+  * **Student:** Witold Węglarz, Nikodem Piechulski {{:courses:xai:winner.png?30|}} {{:courses:wshop:topics:chexrish.png?60|}}
   * **Namespace in the wiki:** [[..:projects:2026:graphpaths:]]   * **Namespace in the wiki:** [[..:projects:2026:graphpaths:]]
   * **The goal of the project:** Prepare a tool that visualizes connections between two or more nodes in a graph along with their relevant context   * **The goal of the project:** Prepare a tool that visualizes connections between two or more nodes in a graph along with their relevant context
Line 52: Line 71:
   * **Links:**   * **Links:**
     * Paper with our recommender system: [[https://arxiv.org/abs/2602.19711|A Three-stage Neuro-symbolic Recommendation Pipeline for Cultural Heritage Knowledge Graphs]]     * Paper with our recommender system: [[https://arxiv.org/abs/2602.19711|A Three-stage Neuro-symbolic Recommendation Pipeline for Cultural Heritage Knowledge Graphs]]
 +
 +==== [LVM] Applying KG discovery algorithms to digital humanities KG ====  
 +
 +  * **Student:**  {{:courses:wshop:topics:chexrish.png?60|}}  
 +  * **Namespace in the wiki:** 
 +  * **The goal of the project:** Applying KG discovery algorithms to digital humanities KG  
 +  * **Technology:** RDF, Python  
 +  * **Description:** This project applies KG discovery algorithms to find interesting and non-obvious relations within digital humanities KGs, using the CIDOC-CRM ontology as a case study. It explores serendipitous discovery, path evaluation, and pattern identification. Graph-based models enable this because they facilitate algorithmic exploration of linked cultural heritage data.  
 +  * **Links:**
 +    * [[https://www.sciencedirect.com/science/article/pii/S1570826824000386|Serendipitous knowledge discovery]]
 +    * [[https://aidanhogan.com/docs/woolnet_paths_knowledge_graphs.pdf|Woolnet: finding and evaluating paths in knowledge graphs]]
 +
 +
 +==== [LVM] Applying network analysis to digital humanities KG ====  
 +
 +  * **Student:**  {{:courses:wshop:topics:chexrish.png?60|}}  
 +  * **Namespace in the wiki:** 
 +  * **The goal of the project:** Applying network analysis to digital humanities KG  
 +  * **Technology:** RDF, Python  
 +  * **Description:** This project uses network analysis methods (degree, eigenvector, PageRank centrality, community detection) to reveal patterns, central entities, and relationships in cultural heritage KGs based on CHExNET (https://zenodo.org/records/18715362). The aim is to identify structural properties and key nodes to aid interpretation and support research within cultural heritage contexts.  
 +  * **Links:**  
 +    * [[https://www.journals.uchicago.edu/doi/full/10.1086/705532|Network analysis in the humanities explained]]  
 +    * [[https://journal.dhbenelux.org/journal/issues/002/article-6-birkholz/appendix-2-wechanged-german.pdf|Example network analysis ]]  
 +
 +==== [LVM] Implementing an automatic KG shortcut generator ====  
 +
 +  * **Student:**  {{:courses:wshop:topics:chexrish.png?60|}}  
 +  * **Namespace in the wiki:**
 +  * **The goal of the project:** Implementing a tool for automatic KG shortcut generation 
 +  * **Technology:** RDF, Python, LLM
 +  * **Description:** This project automates the creation of KG “shortcuts,” which are derived relations that simplify navigation, querying, and graph algorithm usage in complex ontologies like CIDOC-CRM. Shortcuts may omit certain reifications or events, making knowledge graphs easier to traverse and analyse. The approach should be generalizable beyond CIDOC-CRM.  LLLMs can perhaps be used for this task.
 +  * **Links:**  
 +    * [[https://cidoc-crm.org/|CIDOC-CRM]]  
 +    * [[https://link.springer.com/chapter/10.1007/978-3-642-35233-1_22|Paths and shortcuts in knowledge graphs]]  
 +
 +
 +==== [LVM] Perplexity measures and LLM agent quality====  
 +
 +  * **Student:** 
 +  * **Namespace in the wiki:**
 +  * **The goal of the project:** Creating a scientifric report including short experiments on perplexity as agent evaluation metric
 +  * **Technology:** Python, LLM
 +  * **Description:** Understanding what metrics are used for evaluating LLM-based agents, experimenting with some models, evluating if adding perplexity metrics to the evaluation can increase the explanation of the evaluations, discover other metrics that are also related to "training data" that are perhaps more effective, studying the limitations of usinf perplexity metrics.
 +  * **Links:**  
 +    * [[https://aclanthology.org/2023.findings-emnlp.679/|Perplexity measure and prompt quality]]  
 +    * [[https://arxiv.org/abs/2210.05892|More about perplexity]]  
 + 
 +
 +
 +==== [SBK] Temportal Graphs i ACFX  ====
 +
 +  * **Student:** FIXME
 +  * **Namespace in the wiki:** [[..:projects:2026:tgnnx:start]]
 +  * **The goal of the project:** Celem projektu jest integracja algorytmu ACFX do generowania wyjaśnień kontrfaktyczncyh z grafowymi sieciami neuronotymi dla szergów czasowych.
 +  * **Technology:** Python
 +*   **Description:**
 +    *   Wybór problemu i danych (przykladowy zbiór i implementacja będą dane, ale możliwa zmiana na coś prostszego): prosta klasyfikacja/regresja na grafach czasowych (np. ruch/obciążenie, prosty syntetyczny graf czasowy lub mały benchmark z PyG-Temporal).
 +    *   Model bazowy: implementacja prostego TGN
 +    *   Adapter ACFX:
 +        *   zdefiniowanie celu kontrfaktu (zmiana klasy / przesunięcie wartości wyjścia),
 +        *   przestrzeń dozwolonych zmian (węzły, krawędzie, atrybuty; ograniczenia „realizmu”),
 +        *   funkcja straty kontrfaktu (fidelity + sparsity + plausibility).
 +    *   Ewaluacja: fidelity/validity kontrfaktów, koszt (liczba zmienionych cech), stabilność w czasie (czy kontrfakt „utrzymuje” efekt w kolejnych krokach).
 +    *   Demo: notebook + krótkie CLI do wygenerowania kontrfaktu dla wskazanego węzła/czasu.
 +*   **Links:**
 +    *   [[https://acfx.readthedocs.io/en/latest/|ACFX – dokumentacja]]
 +    *   [[https://pytorch-geometric-temporal.readthedocs.io/en/latest/|PyTorch Geometric Temporal]]
 +    *   [[https://pytorch-geometric.readthedocs.io/|PyTorch Geometric]]
 +
 +
 +==== [SBK] EKG -- kalsyfikacja  ====
 +
 +  * **Student:** 
 +    * GrupaA: Jakub Heczko
 +    * GrupaB:
 +    * GrupaTGNN: 
 +  * **Namespace in the wiki:** [[..:projects:2026:ecgA:start]], [[..:projects:2026:ecgB:start]], [[..:projects:2026:ecgtgnn:start]]
 +  * **The goal of the project:** Stworzenie **autoenkodera** dla szeregów **EKG** i analiza **latent‑space** (UMAP/t‑SNE) pod kątem lokalizacji jednostek chorobowych, płci i innych metadanych; w drugiej części – prosta klasyfikacja na wektorach latentnych.
 +  * **Technology:** Python
 +  *   Dane i preprocessing:
 +        *   wybór publicznego zbioru (np. **PTB‑XL**) (dostępna wersja już po preprocesingu na łame chunk równej długości)
 +    *   Model:
 +        *   **1D‑CNN/Transformer/LSTMConv autoencoder** (rekonstrukcja sygnału),
 +        *   ekstrakcja wektorów latentnych.
 +    *   Analiza latent‑space:
 +        *   wizualizacja (UMAP/t‑SNE),
 +        *   **klasyfikacja/klasteryzacja** (LR/SVM/MLP) na latentach dla: diagnoz, płci, wieku (jeśli dostępne).
 +    *   Ewaluacja:
 +        *   rekonstrukcja (MSE/MAE),
 +        *   klasyfikacja (Accuracy/F1/AUROC lub w przypad),
 +        *   inspekcja „czytelności” latentów (separowalność klas).
 +    *   Deliverables: notebooki, raport PDF, wykresy latent‑space.
 +*   **Links:**
 +    *   [[https://www.nature.com/articles/s41597-020-0495-6|Publiczny zbiór danych (opis PTB‑XL)]]
 +    *   [[https://physionet.org/content/ptb-xl/1.0.3/|PTB‑XL na PhysioNet]]
 +
 +
 +
 +
 +
 +==== [SBK] Regresja i ACFX  ====
 +
 +  * **Student:** FIXME
 +  * **Namespace in the wiki:** [[..:projects:2026:tgnnx:start]]
 +  * **The goal of the project:** Celem projektu jest dodanie funkcjonalności generowania kontrfaktów dla regresji do oprogramowania ACFX
 +  * **Technology:** Python
 +  * **Description:** 
 +    *   Specyfikacja regresyjna:
 +        *   funkcja celu dla zmiany wartości wyjścia (np. osiągnięcie **y\*** lub przesunięcie o **Δ**),
 +    *   Implementacja:
 +        *   adapter/loss pod regresję juz istniejacego kodu (w praktyce bedzie koneiczna lekka modyfikacja juz istniejacej funkcji kosztu i wsparcie dla innego rodzaju modeli )
 +    *   Ewaluacja:
 +        *   zbiory tablicowe (np. UCI – małe, łatwe do replikacji),
 +        *   metryki: validity (osiągnięcie celu), proximity, sparsity, czas obliczeń,
 +        *   porównanie z prostymi baseline’ami (gradient/sign, DiCE – jeśli dostępny).
 +    *   Demo: krótki notebook + integracja z dashboardem ACFX i przetestowanie czy aplikacja streamlit też działa z modelami regresyjnymi
 +  * **Links:**
 +    * [[ https://acfx.readthedocs.io/en/latest/|ACFX]]
 +    * [[https://acfx-dashboard.streamlit.app/| Streamplit dashboard]]
 +
 +
 +==== [SBK] Generative AI review for anomaly detection  ====
 +
 +  * **Student:** FIXME
 +  * **Namespace in the wiki:** [[..:projects:2026:tgnnx:start]]
 +  * **The goal of the project:** Celem projektu jest zintegrowanie w całość ewaluacji generowania kontrfaktó dla algorytmów detekcji anonalii
 +  * **Technology:** Python, PyTorch
 +  * **Description:** W szczególności chodzi o integracje w jeden ewaluacyjny pipeline nastepujacych algorytmów i wykonanie analizy danych na bazie tej ewalyacji które pozwoli określić
 +      -  Algorytmy: RIAD, InTra, AMI-Net,FAIR,DFMGAN,AnoStyler.
 +      -  Algorytm detekcji anomalii PatchCore, Padim, DFM, i inne z paczki anomalib
 +      -  Budujemy detektor anomalii, nastepnie dla każdego detektora budujemy kontrfakty każym algorytmem wymienionym wopisie, następnie przeprowadzamy ewaluację wyników. Kontrfakty maja działąć w dwie strony (dl kalsy normal generują abnormal, dla klasy abnormal generują normal)
 +  * **Links:**
 +    * [[https://wiki.iis.uj.edu.pl/courses:wshop:projects:2026:anomalycf:start|Zestaw gotowych implementacji (prawie wszystkich)]]
 +
 +
 +
 +
 + ==== [SBK] WinClip z Grafem Wiedzy ====
 +
 +  * **Student:** Igor Zamojski, Jakub Budzyński
 +  * **Namespace in the wiki:** [[..:projects:2026:winclipA:start]] [[..:projects:2026:winclipB:start]]
 +  * **The goal of the project:** Zbudować prosty pipeline demonstracyjny, w którym model WinCLIP (zero-/few-shot na bazie CLIP) wykrywa i segmentuje anomalie na wybranych klasach z MVTec AD i/lub VisA, a wynik modelu jest od razu IRI węzła w małym grafie wiedzy (RDF). Następnie, z poziomu UI można wykonać zapytania (SPARQL) o zalecane działania/mitigacje dla danej anomalii
 +  * **Technology:** FIXME
 +  * **Description:** 
 +    -  Wybór danych (mały wycinek): na start 2 klasy z MVTec AD (np. bottle, screw) lub z VisA (np. candle, capsules) – tak, by mieć parę typów defektów (np. scratch, contamination, missing part). 
 +      - Inference WinCLIP (zero-/few-shot): uruchomienie gotowej implementacji WinCLIP z prostą ensemble‑prompting dla stanów „normalny/anomalny + typ” (bez trenowania). Dla demonstracji wystarczy zero‑shot; ewentualnie few‑shot z 1–2 obrazami „good”. 
 +      - Mapowanie -> węzeł KG: wynik (etykieta/typ defektu) zamieniamy na konkretny IRI, np. ex:defect/visa/scratch lub ex:defect/mvtec/contamination. W RDF tworzymy minimalne klasy:
 +    <code>
 +    ex:DefectType (np. scratch, contamination),
 +    ex:Cause (np. abrasive_contact),
 +    ex:Action (np. line_stop, replace_guide_rail).
 +    </code>
 +    - Zapytania / rekomendacje: proste kwerendy SPARQL: „podaj ex:recommendedAction dla danego ex:DefectType” + wyświetlenie w UI wraz z podglądem maski.
 +    - Ewaluacja (lekka): dla wybranej klasy raportujemy i‑AUROC/p‑AUROC oraz zrzuty ekranu; celem jest działający demo‑flow, nie bicie SOTA. (WinCLIP raportuje wysokie wyniki na MVTec/VisA w warunkach zero/few-shot – nasz cel to tylko potwierdzić działanie na małej próbce). ONtologia, rekomendacje/akcje -- moga byc nieprawdziwe, chodzi tylkok o demo mozliwosci.
 +
 +  * **Links:**
 +    *   [[https://arxiv.org/|WinCLIP (poszukaj arXiv/implementacji – do uzupełnienia)]]
 +    *   [[https://www.mvtec.com/company/research/datasets/mvtec-ad|MVTec AD]]
 +    *   [[https://github.com/amazon-research/visa-dataset|VisA]]
 +    *   [[https://www.w3.org/TR/vocab-ssn/|SOSA/SSN]]
 +    *   [[https://saref.etsi.org/saref4inma/|SAREF4INMA]]
 +    *   [[https://rdflib.readthedocs.io/|RDFLib]]
 +    *   [[https://jena.apache.org/documentation/fuseki2/|Apache Jena Fuseki]]
 +    * [[https://arxiv.org/abs/2509.06461|FOCUSING BY CONTRASTIVE ATTENTION:  ENHANCING VLMS’ VISUAL REASONING]]
 + 
 +
 +
 + ==== [SBK] Przepraszam, z kim rozmawiam? ====
 +
 +  * **Student:** :!: BRAK MIESC!
 +  * **Namespace in the wiki:** [[..:projects:2026:xaifungiA:start]], [[..:projects:2026:xaifungiB:start]], [[..:projects:2026:xaifungiC:start]], [[..:projects:2026:xaifungiD:start]]
 +  * **The goal of the project:** Celem pracy jest wykorzystanie zbioru dancyh XAI-FUNGI do klasyfikacji grupy osób na bazie dialogów/akcji użytkownika. 
 +  * **Technology:** Python, text analysis, 
 +  * **Description:** Zbiór XAI-FUNGI zawiera transkrypcje wywaidów z ekspertami, studentami  informatykami i studentami studiów nieinformatycznych. Każdy transkrypt jest plikiem CSV, z wydzielonymi fragmentami w których uczestnik analizuje na głos wybrany element charaktecryzujacy model do klasyfikacji grzybów. Celem jest zbudownaie klasyfikatora, który będzie staral się określić do jakiej grupy należy dany użytkownik, bazujać na tych transkrypcjach. 
 +  * **Links:**
 +    * [[https://zenodo.org/records/15222484|XAI-FUNGI]]
 +    * :!: Robimy forka tego repozytorium i pracujemy na forku!: [[https://github.com/sbobek/xaifungi-analysis| Starting point GitHub]]
 + 
 +
 +
 + 
 + ==== [SBK] TobiiPytracker – gaze-data alignment ====
 +
 +  * **Student:**  Igor Studziński
 +  * **Namespace in the wiki:** [[..:projects:2026:pytracker:start]]
 +  * **The goal of the project:** Celem pracy jest przetestowanie funkconoalności narzędzia do mapowania wzroku (uwagi) użytkownika na różne modelaności (tekst, obraz, szeregi czasowe), oraz implementacja customowego daatsetu dla EKG, 
 +  * **Technology:** Python, Psychopy, Tobii Eyetracker
 +  * **Description:** Nowy ECGTSDataset który będzie dziedziczył po istniejąceym TimeSereisDataset, ale skupiał sie będzie na poprawnej wizuzalizacji EKG z wykorzystaniem wizualizacji mitującej  papier milimetrowy i z zachowaniem skali i odstępów niezb ednych do porpawnej analizy. Przykłady, wizualizacje, analizy wyników.
 +  * **Links:**
 +    * [[https://tobii-pytracker.readthedocs.io/en/latest/|TobiiPytracker]]
 + 
 +
 +==== [SBK] Atrybucja wpływu kontekstu t‑1 w LLM (IG/SHAP + causal patching) ====
 +
 +  * **Student:** FIXME
 +  * **Namespace in the wiki:** [[..:projects:2026:llm_ctx_attr:start]]
 +  * **The goal of the project:** Zbudować **działający pipeline** do ilościowego i wizualnego badania, **jak poprzednia tura (t‑1)** wpływa na **odpowiedź w turze (t)** w LLM. Projekt łączy **atrybucję gradientową** (Integrated Gradients/SHAP, toolkit **Inseq**) z **testami przyczynowymi** (activation/causal patching na **TransformerLens/causal‑tracer**), raportując m.in. **„udział t‑1”** w logitach odpowiedzi oraz **logit‑difference** w testach interwencyjnych.
 +  * **Technology:**
 +      *   Hugging Face Transformers (małe modele dekoderowe; inference + logprobs/score)
 +      *   **Inseq** – IG/Grad×Input dla LLM (wizualizacja atrybucji kontekst→odpowiedź)
 +      *   **TransformerLens** – hooki, cache aktywacji; causal/activation patching (best‑practices)
 +      *   **causal‑tracer** – „causal flow/patching” i heatmapy
 +  * **Description:**
 +      *   Dane (mały, kontrolowany korpus): pary *(t‑1, t)*, gdzie w *t‑1* znajduje się fakt/warunek potrzebny do odpowiedzi w *t* (np. „Hasło: ALFA” → „Podaj hasło”).
 +      *   Modele i uruchomienie: niewielki model dekoderowy (GPT‑2‑klasa / mały LLaMA) z dostępem do aktywacji/logprobs.
 +      *   Baseline zachowania (2 warianty):
 +          *   (a) `[t‑1 || t]` (pełny kontekst),
 +          *   (b) `[t]` (bez *t‑1*),
 +          *   (c ) sesyjny z **KV‑reuse** (prefill *t‑1*, potem *t*) 
 +      *   Atrybucja **IG/SHAP** (Inseq): IG dla kluczowych tokenów odpowiedzi względem tokenów wejścia (w tym *t‑1*); metryka **„udział t‑1”** = % sumarycznej atrybucji przypisanej tokenom *t‑1*; heatmapy (kontekst→odpowiedź).
 +      *   **Causal/activation patching** – test przyczynowy (faithfulness):
 +          *   „Corrupt -> Clean”: zaszum/wyzeruj kluczowe tokeny w *t‑1* (prompt „corrupt”), następnie **patch** czystych aktywacji **tylko** dla tych tokenów (per warstwa/głowa).
 +          *   Metryka: **logit‑difference** dla poprawnych tokenów odpowiedzi; silny wzrost po patchingu = **dowód przyczynowego użycia** fragmentów *t‑1*.
 +    *   Porównanie: korelacja rankingów ważności tokenów *t‑1* (IG vs patching); różnice między (a)/(b).
 +    *   Raport: metryki (**udział t‑1**, logit‑difference, zmiana logprobs, zgodność IGpatching )
 +**Links:**
 +    *   [[https://inseq.org|Inseq – feature attribution for generative LMs]]
 +    *   [[https://github.com/TransformerLensOrg/TransformerLens|TransformerLens – mechanistic interpretability / hooki]]
 +    *   [[https://pypi.org/project/causal-tracer/|causal‑tracer – causal tracing/patching]]
 +    *   [[https://developers.openai.com/cookbook/examples/using_logprobs|Logprobs – przykłady]]
 +
 +
 +==== [SBK] How synthetic data impact black-box model decision boundaries ====
 +
 +  * **Student:** 
 +  * **Namespace in the wiki:** [[..:projects:2026:decboundcomp:]]
 +  * **The goal of the project:** Badania nad różnymi metodami, które mogą być wykorzystane do opisu lub pomiaru różnic w granicy decyzyjnej klasyfikatora w kontekście danych syntetycznych
 +  * **Technology:** Python
 +  * **Description:** Mając dwa modele wytrenowane do tego samego zadania, jak wyjaśnić różnice pomiędzy nimi? Odnosi się to do problemu uchwycenia, zmierzenia i opisania Efektu Rashomona. To zadanie przenosimy teraz na dwa (lub więcej) modele wytrenowane na danych rzeczywistych oraz syntetycznych — co możemy powiedzieć o jakości danych syntetycznych, patrząc wyłącznie na własności zbioru Rashomona? Możemy zacząć od danych tabelarycznych, ale warto także spróbować na wizualnych zbiorach do detekcji anomalii (zobacz inny projekt dotyczący benchmarkowania kontrfaktycznych metod detekcji anomalii).
 +  * **Links:**
 +    * [[https://www.sciencedirect.com/science/article/pii/S1566253525003161 | RashomonEfect analysis]]
 +    * [[https://arxiv.org/abs/2504.20687|What’s Wrong with Your Synthetic Tabular Data? ]]
 +    * [[https://link.springer.com/book/10.1007/978-3-032-08327-2|Explainable Artificial Intelligence: xAI 2025 – Generative AI Meets XA]]
 +    * [[https://ieeexplore.ieee.org/document/10605530|Explainable Artificial Intelligence for Deep Synthetic Data Generation (IEEE)]]
 +
 +
 +==== [JKO] Challenge submission: AI-generated text detection  ====
 +
 +  * **Student:**  {{:courses:wshop:topics:fast.png?30|}}
 +  * **Namespace in the wiki:** [[..:projects:2026:VKchallenge:]]
 +  * **The goal of the project:** Tune and prepare existing code for submission in an open challenge
 +  * **Technology:** Python, spaCy, LightGBM, scikit-learn
 +  * **Description:** "Given a (potentially obfuscated) text, decide whether it was written by a human or an AI. ... Participants will submit their systems as Docker images through the Tira platform. It is not expected that submitted systems are actually trained on Tira, but they must be standalone and runnable on the platform without requiring contact to the outside world. The submitted software must be executable inside the container via a command line call." You'll be provided with the last year's code and data. Your primary task is to incorporate at least one of the baselines into our own code and / or adding obfuscation to the training data.
 +  * **Important dates:** May 07, 2026: software submission; May 28, 2026: participant notebook submission"
 +  * **Links:**
 +    * [[https://pan.webis.de/clef26/pan26-web/generated-content-analysis.html|Voight-Kampff Generative AI Detection 2026]]
 +    * [[https://ceur-ws.org/Vol-4038/paper_312.pdf|Our last year's submission]]
 +
 +==== [JKO] Dataset expansion for AI-generated text detection benchmarking ====
 +
 +  * **Student:**  
 +  * **Namespace in the wiki:** [[..:projects:2026:MAPLE:]]
 +  * **The goal of the project:** Expand our dataset with parallel multilingual data in various domains and analyse the dataset quality
 +  * **Technology:** FIXME
 +  * **Description:** The dataset was developed as part of a master’s thesis project aimed at evaluating and comparing the quality of multilingual language model outputs, particularly focusing on low-/medium-resource languages. The dataset design is parallel, i.e., we want to maintain a considerable overlap between languages in terms of genres / topics / domains  etc. at the level of individual texts. Currently, the dataset is based on Wikipedia summaries. The high priority goal is expanding the number of genres in a controlled way. You will be able to work on data collection, documentation, analysis, and quality assurance. The dataset will be openly available and citable at the OSF.io platform.
 +
 +  * **Links:**
 +    * [[https://osf.io/6f4nd/overview?view_only=ef64a3eead8b4a448ec8706cc0a1eda3|View-only link of the dataset]]
 +    * [[https://www.ap.uj.edu.pl/diplomas/179203/|Master thesis describing v1.0 of the dataset]]
 +
  • courses/wshop/topics/tematy2026wiosna.1772357941.txt.gz
  • Last modified: 3 months ago
  • by kkt