Matching & Scoring

Engine

apps/api/src/services/matching/engines/deterministicEngine.ts

Nutzt NormalizationService zur Vorverarbeitung.
Berechnet Ähnlichkeiten via similarity() (Damerau-Levenshtein) plus Spezialbehandlung für Autor:innen, Daten, Container-Titel, Volume/Issue und Seiten.
Aggregiert Feld-Scores (0–100) anhand der aktivierten Gewichte.

Quelle: NormalizationService.normalize:

normalize-typography – Typografie (Smart Quotes, Gedankenstriche, Ellipse).
normalize-characters – korrigiert defekte Zeichen.
normalize-urls – via normalize-url (Tracking-Parameter entfernen, Query sortieren).
normalize-identifiers – bereinigt DOI-/URL-Präfixe.
normalize-umlauts – z. B. ä → ae, ß → ss.
normalize-accents – Unicode-Dekomposition, entfernt Diakritika.
normalize-unicode – NFKC, entfernt Zero-Width-Zeichen.
normalize-punctuation – reduziert auf Buchstaben/Zahlen/Leerzeichen.
normalize-whitespace – Trim, Mehrfach-Leerzeichen entfernen.
normalize-lowercase – Kleinschreibung.

Nur aktivierte Regeln werden angewendet.

Autor:innen (match-author-initials) – Familiennamen (exakt oder ≥0,9) und Initialen per tokenizeGiven/isSubsequence.
Datum (match-structured-dates) – CSL-Daten (date-parts, raw, literal) mit Gewichtung year 0,8, month 0,15, day 0,05.
Volume/Issue (match-volume-issue-numeric) – extrahiert Zahlen und vergleicht das erste Vorkommen.
Seiten (match-page-range-overlap) – erkennt Bereiche, erweitert Kurzschreibungen („123-8“) und berechnet das Schnittmenge/Vereinigung-Verhältnis. Einzelseite vs. Bereich → 1,0, wenn enthalten.
Container-Titel (match-container-title-variants) – entfernt Akronyme in Klammern, testet Varianten, nutzt Damerau-Levenshtein.

overall = sum(fieldScore * weight) / sum(weight)

overall ≈ 0.3*100 + 0.25*92 + 0.15*85 + 0.15*70 + 0.1*100 + 0.03*0 + 0.02*50 = 83,7 → 84

Konfiguriert in settings.matching.matchingConfig.displayThresholds und umgesetzt durch getScoreColor.

settings.matching.matchingConfig.earlyTermination Standard { enabled: true, threshold: 95 }.
useVerification.performVerificationWithEarlyTermination:
1. Aktivierte Datenbanken in Prioritätsreihenfolge (settings.search.databases).
2. Nach jeder Suche Score prüfen.
3. Bei Score ≥ Threshold weitere Datenbanken überspringen.
4. Ohne Early Termination werden alle Datenbanken abgefragt und abschließend erneut gematcht.

useVerificationProgressStore verfolgt Phasen (searching, matching, done, error) pro Referenz.

TODO: Dokumentieren, wie alternative Gewichtsschemata (strict, balanced, custom) eingesetzt werden, sobald verfügbar.
TODO: Beispiele für individuelle Normalisierungsprofile (z. B. „nur Titel + DOI“) ergänzen.