Stichwortverzeichnis aus Text erstellen

mikeb69 · 11. Mai 2017, 16:45

Hallo,

Wir haben viele Dokumente in einem Ordner liegen.
Um nun das Suchen des richtigen Dokumemts dem Anwender leichter zu machen wäre eine Stichwortliste gut.

Hat jemand einen Ansatz wie ich hier an Besten vorgehen kann ?
Wie findet man die prägnantesten Wörter eines Textes ?

Gruss

mikeb69

Schamash · 11. Mai 2017, 17:09

Rein logisch würde ich Überschriften bevorzugen und dann Wörter zählen.
Wort in Überschift zählt 10
Wort in Text zählt 1

Acr0most · 11. Mai 2017, 18:43

Ich habe es einmal wie folgt umgesetzt:

Tabelle:
ID
Dokumenten-Name
Schlagwort

id und Name sind selbsterklärend.
Bei Schlagwort habe ich (ohne irgendwelche Trennzeichen) alle Wörter mit:
Überschriften-Charakter, Fett, Kursiv, Unterstrichen, <whatever-U-want>
eingetragen.

Dann brauchst du zum abgleich nur where schlagwort like '%<search>%' abfragen und erhälst die Treffermenge. (-> bei einem Stichwort, ansonsten Suchtext splitten und einzeln suchen, ggf. nur Schnittmenge anzeigen)

Bei mir hat es sich erstmal um reines HTML gehandelt, weshalb du je nach Dokumententyp schauen musst wie du Fett, Kursiv, etc. erkennst und extrahierst.
Achja und ne Blacklist an Worten ist auch Sinnvoll, weil 200x "DER/DIE/DAS" bringt kein Ergebnis.

LG Acr0most

RodFromGermany · 12. Mai 2017, 06:33

@mikeb69 Nimm nur groß geschriebene Worte.
Nimm nicht Wörter, die nur aus großen Buchstaben bestehen.
Nimm nur Wörter ab einer bestimmten Länge (musst Du testen).
Schmeiß Dubletten raus (Eisenbahn - Eisenbahnen, ...).

mikeb69 · 12. Mai 2017, 08:12

Hallo,

vielen Dank für den Input.
Auf einige der vorgeschlagenen Punkte bin ich auch selbst gekommen, interessant ist der Tipp von @RodFromGermany bezüglich der Dubletten und der groß geschriebenen Wörter.

Gruss

mikeb69

mikeb69 · 12. Mai 2017, 16:33

Hallo,

hab mal eine Klasse hierzu gebastelt.

C#-Quellcode

using System;
using System.Collections.Generic;
using System.Linq;
namespace WindowsFormsApplication3
{
public class CreateTagList
{
/// <summary>
/// Neue Instanz
/// </summary>
/// <param name="textToDecode">Text aus dem die Schlüsselworte (Tags) herausgefiltert werden sollen</param>
/// <param name="badWords">Liste von Wörtern die keine Stichworte (Tags) sein können</param>
public CreateTagList(string textToDecode, IEnumerable<string> badWords)
{
this.TextToDecode = textToDecode;
this.BadWords = badWords;
}
/// <summary>
/// Tag-Liste erstellen
/// </summary>
/// <param name="Result">Rückgabe des Ergebnisses</param>
/// <returns>Anzahl der Tags</returns>
public int FindTags(out IEnumerable<string> Result )
{
// String Splitten
string [] tempAfterSplitting = this.TextToDecode.Split(new string[] { " ", ".", ",", ";", ":", Environment.NewLine}, StringSplitOptions.RemoveEmptyEntries);
// Alle Elemente entfernen die länger als 4 sind
this.Tags = tempAfterSplitting.Where(x => x.Length > 4 && Char.IsUpper(x[0]));
// Alle doppelten Elemente entfernen
this.Tags = this.Tags.Union(this.Tags);
List<string> result = new List<string>();
if (this.BadWords != null)
{
// Liste nach 'verbotenen' Wörtern filtern
foreach (string s in this.Tags)
{
if (this.BadWords.FirstOrDefault(x => x.Equals(s, StringComparison.OrdinalIgnoreCase)) == null)
{
result.Add(s);
}
}
}
// Ähnliche Wörter ausblenden
// Ergebnis ausgeben
this.Tags = result;
// Weitere Ausgabe des Ergebnisses
Result = this.Tags;
return Result.Count();
}
/// <summary>
/// Text aus dem die Schlüsselworte (Tags) herausgefiltert werden sollen
/// </summary>
public string TextToDecode { get; private set; }
/// <summary>
/// Rückgabe des Ergebnisses
/// </summary>
public IEnumerable<string> Tags { get; private set; }
/// <summary>
/// Liste von Wörtern die keine Stichworte (Tags) sein können
/// </summary>
public IEnumerable<string> BadWords { get; private set; }
}
}

Als Text hab ich einfach einen Zeitungsartikel genommen.

Was noch fehlt ist das mit den ähnlichen Wörtern.
Hier läuft mir immer der Begriff 'Stemmer' über den Weg ?!?

Edit:
oder besser dieser Weg ?

"http://stackoverflow.com/a/26049961" schrieb:

The simplest code would involve regular expressions.

For example, this would identify some English suffixes:

'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)?$'One problem is that stemming is not as accurate as lemmatization. Lematization would require POS tagging for accuracy. For example, you don't want to add an -ing suffix to dove if it's a noun.

Another problem is that some suffixes also require prefixes. For example, you must add en- to -rich- to add a -ment suffix in en-rich-ment -- unlike a root like -govern- where you can add the suffix without any prefix.

Gruss

mikeb69

Acr0most · 12. Mai 2017, 16:56

mikeb69 schrieb:

Was noch fehlt ist das mit den gleichen Wörtern.

Idee: Vor dem result.Add(s) per result.Contains(s); überprüfen, ob das Wort bereits vorhanden ist.

LG Acr0most

mikeb69 · 12. Mai 2017, 16:59

@Acr0most

sorry - hab mich da verschrieben.

Es fehlt mir das mit den ähnlichen Wörtern - @RodFromGermany nannte diese Dubletten

[Schmeiß Dubletten raus (Eisenbahn - Eisenbahnen, ...).

Die gleichen Wörter schmeiß ich mit dem Code raus

C#-Quellcode

// Alle doppelten Elemente entfernen
this.Tags = this.Tags.Union(this.Tags);

Gruss

mikeb69

RodFromGermany · 12. Mai 2017, 17:03

@mikeb69 Dazu fällt mir die Levenshtein-Distanz ein.
25 Treffer im Forum.

mikeb69 · 12. Mai 2017, 18:05

@RodFromGermany

hab das hier gebastelt

und für den Sourcecode Austausch angemeldet.

C#-Quellcode

public class CreateTagList
{
/// <summary>
/// Neue Instanz
/// </summary>
/// <param name="textToDecode">Text aus dem die Schlüsselworte (Tags) herausgefiltert werden sollen</param>
/// <param name="badWords">Liste von Wörtern die keine Stichworte (Tags) sein können</param>
public CreateTagList(string textToDecode, IEnumerable<string> badWords)
{
this.TextToDecode = textToDecode;
this.BadWords = badWords;
}
/// <summary>
/// Tag-Liste erstellen
/// </summary>
/// <param name="Result">Rückgabe des Ergebnisses</param>
/// <returns>Anzahl der Tags</returns>
public int FindTags(out IEnumerable<string> Result )
{
// String Splitten
string [] tempAfterSplitting = this.TextToDecode.Split(new string[] { " ", ".", ",", ";", ";", Environment.NewLine}, StringSplitOptions.RemoveEmptyEntries);
// Alle Elemente entfernen die länger als 4 sind
this.Tags = tempAfterSplitting.Where(x => x.Length > 4 && Char.IsUpper(x[0]));
// Alle doppelten Elemente entfernen
this.Tags = this.Tags.Union(this.Tags);
List<string> result = new List<string>();
if (this.BadWords != null)
{
// Liste nach 'verbotenen' Wörtern filtern
foreach (string s in this.Tags)
{
if (this.BadWords.FirstOrDefault(x => x.Equals(s, StringComparison.OrdinalIgnoreCase)) == null)
{
result.Add(s);
}
}
}
// Ähnliche Wörter ausblenden
for(int i = result.Count() -1; i > 0; i--)
{
IEnumerable<string> ret = this.Tags.Where(x => x.LevenshteinDistance(result[i]) <= 2);
if (ret.Count() > 1)
{
// Wort doppelt vorhanden
result.Remove(result[i]);
}
}
// Ergebnis ausgeben
this.Tags = result;
// Weitere Ausgabe des Ergebnisses
Result = this.Tags;
return Result.Count();
}
/// <summary>
/// Text aus dem die Schlüsselworte (Tags) herausgefiltert werden sollen
/// </summary>
public string TextToDecode { get; private set; }
/// <summary>
/// Rückgabe des Ergebnisses
/// </summary>
public IEnumerable<string> Tags { get; private set; }
/// <summary>
/// Liste von Wörtern die keine Stichworte (Tags) sein können
/// </summary>
public IEnumerable<string> BadWords { get; private set; }
}
public static class Levenshtein
{
public static int LevenshteinDistance(this string source, string target)
{
if (String.IsNullOrEmpty(source))
{
if (String.IsNullOrEmpty(target)) return 0;
return target.Length;
}
if (String.IsNullOrEmpty(target)) return source.Length;
if (source.Length > target.Length)
{
var temp = target;
target = source;
source = temp;
}
var m = target.Length;
var n = source.Length;
var distance = new int[2, m + 1];
// Initialize the distance 'matrix'
for (var j = 1; j <= m; j++) distance[0, j] = j;
var currentRow = 0;
for (var i = 1; i <= n; ++i)
{
currentRow = i & 1;
distance[currentRow, 0] = i;
var previousRow = currentRow ^ 1;
for (var j = 1; j <= m; j++)
{
var cost = (target[j - 1] == source[i - 1] ? 0 : 1);
distance[currentRow, j] = Math.Min(Math.Min(
distance[previousRow, j] + 1,
distance[currentRow, j - 1] + 1),
distance[previousRow, j - 1] + cost);
}
}
return distance[currentRow, m];
}
}

Quelle für die LevenshteinDistanz:
https://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance

Hab ich was übersehen ?

Gruss

mikeb69

RodFromGermany · 12. Mai 2017, 18:32

@mikeb69 Hast Du das getestet? Ich hab einmal Deinen Quellcode, einmal einen Brief vorgegeben.
Bemerkungen:
Splitte auch an "\t", "\n" (Word hat so was).
Wenn this.BadWords == null ist, kommt kein Ergebnis raus.

Wäre es nicht besser, die Berechnungsfunktion mit solch Signatur zu versehen:

C#-Quellcode

public IEnumerable<string> FindTags()

====

C#-Quellcode

if (this.BadWords != null)
{
// ...
}
else
{
result.AddRange(this.Tags.ToArray());
}

mikeb69 · 12. Mai 2017, 20:14

@RodFromGermany

richtig.

RodFromGermany schrieb:

Jede einzelne Zeile Deines Programms, die Du nicht explizit getestet hast, ist falsch

Gruss

mikeb69

Stichwortverzeichnis aus Text erstellen

Stichwortverzeichnis aus Text erstellen

C#-Quellcode

"http://stackoverflow.com/a/26049961" schrieb:

mikeb69 schrieb:

C#-Quellcode

C#-Quellcode

C#-Quellcode

C#-Quellcode

RodFromGermany schrieb:

Ähnliche Themen

4 Benutzer haben hier geschrieben