Ricerca | Uncategorized

[Call for Participation] SemEval 2025 Task 3 — Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

Commenta



Settembre 23, 2024



Comments (0)



By Alessandro Raganato

English version below

Sito: https://helsinki-nlp.github.io/shroom/

In breve (TL;DR)

Mu-SHROOM è uno shared task parte di SemEval 2025, mirato a promuovere la ricerca sulla rilevazione delle cosiddette “allucinazioni” nei contenuti generati da modelli di linguaggio di grandi dimensioni (LLM).

Abbiamo annotato manualmente contenuti generati in 10 lingue: arabo, cinese, finlandese, francese, hindi, inglese, italiano, spagnolo, svedese e tedesco. Il tuo compito sarà identificare con precisione le sezioni o i frammenti di testo “allucinati“, partecipando in tutte le lingue che desideri. Rimani aggiornato iscrivendoti al nostro Google group o su Slack o seguici su Twitter!

Invito completo

Siamo lieti di annunciare Mu-SHROOM, uno shared task finalizzato a migliorare i metodi per la rilevazione delle allucinazioni (visita la nostra pagina web). Invitiamo i partecipanti a rilevare i frammenti di testo che sono allucinazioni nei testi generati con LLM di ultima generazione.

Descrizione

Mu-SHROOM 2025 è basato su quanto appreso dalla prima iterazione del task, cioè SHROOM 2024.

Per questa edizione, abbiamo introdotto tre miglioramenti chiave:

1. Focus sui modelli di linguaggio di grandi dimensioni (LLM);

2. Annotazioni in 10 lingue;

3. Identificazione dei frammenti di testo “allucinati“.

Gli LLM spesso generano “allucinazioni“, ossia testi che, seppur plausibili, sono errati. Inoltre, molte delle metriche attuali privilegiano la fluidità del testo rispetto alla sua correttezza. Questo problema diventa sempre più rilevante man mano che questi modelli vengono adottati più ampiamente dal pubblico.

Mu-SHROOM mira a promuovere lo sviluppo di nuovi metodi per rilevare i contenuti errati. Questa nuova edizione si svolge in un contesto multilingue, fornendo dati prodotti da una varietà di LLM open source in 10 lingue diverse: arabo (standard moderno), cinese (mandarino), finlandese, francese, hindi, inglese, italiano, spagnolo, svedese e tedesco.

Invitiamo i gruppi di ricerca a partecipare in qualsiasi lingua tra quelle disponibili. Il compito è sviluppare sistemi in grado di identificare con precisione le allucinazioni nei contenuti generati dagli LLM. Come di consueto per SemEval, i partecipanti saranno invitati a presentare articoli di ricerca con la descrizione dei loro sistemi, con la possibilità di esporli nel workshop SemEval 2025, co-locato con una delle prossime conferenze *ACL. Gli autori degli articoli dovranno anche partecipare al processo di revisione (massimo 2 articoli per autore).

Date chiave e scadenze:

Tutte le scadenze sono fissate come “Ovunque nel Mondo” (23:59 UTC-12):

– Pubblicazione dei dati di sviluppo: 02.09.2024

– Pubblicazione dei dati di test: 01.01.2025

– Fine della fase di valutazione: 31.01.2025

– Invio degli articoli di descrizione del sistema: 28.02.2025 (da confermare)

– Notifica di accettazione: 31.03.2025 (da confermare)

– Invio della versione finale: 21.04.2025 (da confermare)

– Workshop SemEval: estate 2025 (in una conferenza *ACL)

Metriche di valutazione

I partecipanti verranno classificati secondo due metriche a livello di caratteri:

1. Intersection-over-union (IoU): confronto tra i caratteri contrassegnati come allucinati nella referenza annotata e quelli previsti dai partecipanti.

2. Correlazione tra la probabilità assegnata ai caratteri come parte di un’allucinazione e le probabilità empiriche osservate nelle annotazioni.

Le classifiche saranno realizzate separatamente per ciascuna lingua: è possibile partecipare nelle lingue che più vi interessano!

Come partecipare

Registrazione: registra il tuo team prima di inviare il tuo lavoro su https://mushroomeval.pythonanywhere.com
Invio dei risultati: tramite la nostra piattaforma, puoi inviare i tuoi risultati entro il 31 gennaio 2025.
Articolo di ricerca con la descrizione del sistema: gli articoli devono essere inviati entro il 28 febbraio 2025 (da confermare).

Rimani aggiornato

Iscriviti al nostro Google group o unisciti al nostro canale Slack per rimanere sempre informato, e non ti dimenticare di seguirci su Twitter!

Non vediamo l’ora di ricevere la tua partecipazione e contribuire insieme all’avanzamento della ricerca.

Cordiali saluti,

gli organizzatori di Mu-SHROOM

=========================================

English version

Website: https://helsinki-nlp.github.io/shroom/

TL;DR

Mu-SHROOM is a non-English-centric SemEval2025 shared task to advance the SOTA in hallucination detection for content generated with LLMs. We’ve annotated hallucinated content in 10 different languages from top -tier LLMs. Participate in as many languages as you’d like by accurately identifying spans of hallucinated content. Stay informed by joining our Google group or our Slack or follow our Twitter account!

Full Invitation
We are excited to announce the Mu-SHROOM shared task on hallucination detection (link to website). We invite participants to detect hallucination spans in the outputs of instruction-tuned LLMs in a multilingual context.

About

This shared task builds upon our previous iteration, SHROOM, with three key improvements: LLM-centered, multilingual annotations & hallucination-span prediction.

LLMs frequently produce “hallucinations,” where models generate plausible but incorrect outputs, while the existing metrics prioritize fluency over correctness. This results in an issue of growing concern as these models are increasingly adopted by the public.

With Mu-SHROOM, we want to advance the state-of-the-art in detecting hallucinated content. This new iteration of the shared task is held in a multilingual and multimodel context: we provide data produced by a variety of open-weights LLMs in 10 different languages (Arabic (modern standard), Chinese (Mandarin), English, Finnish, French, German, Hindi, Italian, Spanish, and Swedish).

Participants are invited to participate in any of the languages available and are expected to develop systems that can accurately identify and mitigate hallucinations in generated content.

As is usual with SemEval shared tasks, participants will be invited to submit system description papers, with the option to present them in poster format during the next SemEval workshop (collocated with an upcoming *ACL conference). Participants that elect to write a system description paper will be asked to review their peers’ submissions (max 2 papers per author)

Key Dates:
All deadlines are “anywhere on Earth” (23:59 UTC-12).

Dev set available by: 02.09.2024
Test set available by: 01.01.2025
Evaluation phase ends: 31.01.2025
System description papers due: 28.02.2025 (TBC)
Notification of acceptance: 31.03.2025 (TBC)
Camera-ready due: 21.04.2025 (TBC)
SemEval workshop: Summer 2025 (co-located with an ACL conference)

Evaluation Metrics:

Participants will be ranked along two (character-level) metrics:

1. intersection-over-union of characters marked as hallucinations in the gold reference vs. predicted as such

2. how well the probability assigned by the participants’ system that a character is part of a hallucination correlates with the empirical probabilities observed in our annotations.

Rankings and submissions will be done separately per language: you are welcome to focus only on the languages you are interested in!

How to Participate:

Register: Please register your team before making a submission on https://mushroomeval.pythonanywhere.com
Submit results: use our platform to submit your results before 31.01.2025
Submit your system description: system description papers should be submitted by 28.02.2025 (TBC, further details will be announced at a later date).

Want to be kept in the loop?
Join our Google group mailing list or the shared task Slack! You can also follow us on Twitter. We look forward to your participation and to the exciting research that will emerge from this task.

Best regards,Raúl Vázquez and Timothee Mickus
On behalf of all the Mu-SHROOM organizers