Regex - Suche nach Gruppe, die gewisses Wort nicht enthällt

DanCooper · 26. März 2015, 11:33

Hallo miteinander

ich versuche gerade eine Regex zu basteln, die ich zum Bearbeiten von XML-Dateien benötige.
Ich will bei allen Dateien, bei über 2 <audio> Streams verfügen und noch keine Sprachangabe <language> haben, diese mit dem TextCrawler einfügen.
Dabei habe ich jetzt das Problem, dass ich nicht weiss wie ich die XMLs ausschliessen kann, die bereits ein <language> Node haben.

Hier mal die Regex, die ich mit den Modifiern "global", "single line" und "case insensitive" nutze und entsprechend gruppiert habe, wie ich sie später brauche:

Quellcode

(<streamdetails>)(?<STREAM1ANFANG>.*?<audio>.*?)(?<STREAM1ENDE><\/audio>.*?)(?<STREAM2ANFANG><audio>.*?)(?<STREAM2ENDE><\/audio>.*?)(?<VIDEOundREST><video>.*?<\/streamdetails>)

Hier ein XML, das noch keine Sprachangabe hat:

XML-Quellcode

<fileinfo>
<streamdetails>
<audio>
<bitrate>192</bitrate>
<channels>2</channels>
<codec>AAC</codec>
</audio>
<audio>
<bitrate>128</bitrate>
<channels>6</channels>
<codec>dolbydigital</codec>
</audio>
<video>
<aspect>1.839</aspect>
<bitrate>2016</bitrate>
<codec>avc1</codec>
<durationinseconds>142</durationinseconds>
<height>696</height>
<scantype>Progressive</scantype>
<width>1280</width>
</video>
</streamdetails>
</fileinfo>

So sollte die XML danach aussehen:

XML-Quellcode

<fileinfo>
<streamdetails>
<audio>
<bitrate>192</bitrate>
<channels>2</channels>
<codec>AAC</codec>
<language>ger</language>
</audio>
<audio>
<bitrate>128</bitrate>
<channels>6</channels>
<codec>dolbydigital</codec>
<language>eng</language>
</audio>
<video>
<aspect>1.839</aspect>
<bitrate>2016</bitrate>
<codec>avc1</codec>
<durationinseconds>142</durationinseconds>
<height>696</height>
<scantype>Progressive</scantype>
<width>1280</width>
</video>
</streamdetails>
</fileinfo>

Nun sollten die Regex natürlich nicht matchen, wenn schon eine Node <language> bei einem der beiden <audio> Streams vorhanden ist.
Wie muss ich jetzt die Regex anpassen, damit sie nicht matcht wenn <language> bereits vorkommt?

Ich benutze zum testen übrigens die Website regex101.com/

ErfinderDesRades · 26. März 2015, 12:00

dafür würde ich nicht unsicheres Regex verwenden, sondern XDocument
gugge Xml verarbeiten mit Intellisense (Schema und XDocument)

DanCooper · 26. März 2015, 12:24

Das Problem ist, ich arbeite hier nicht mit VS sondern mit TextCrawler, hab also nur Regex zur Verfügung. Grund ist, dass nicht ich das benötige sondern jemand, der sonst nix anderes hat.

Ich verstehe einfach nicht, wie ich ganze Wörter angeben kann, die bei vorkommen ein Match verhindern.
Einfaches Beispiel wäre z.B:

Quellcode

ich bin lieber zuhause als unterwegs
ich bin im Sommer häufig unterwegs
ich bin nicht gern zuhause im Keller unterwegs
ich bin gerne draussen unterwegs

Ich möchte hier gerne folgendes Ergebnis jeweils als Gruppe:

muss mit ich beginnen und beim ersten Vorkommen von unterwegs stoppen
darf das Wort zuhause nicht enthalten

Es dürfte also nur 2 und 4 als Match angezeigt werden.

Ich hab da schon diverses versucht wie z.B. \Bzuhause oder [^(zuhause)], komme aber auf keinen grünen Zweig.

ErfinderDesRades · 26. März 2015, 12:35

Manches lässt sich allein mit Regex nicht lösen.

Ein studierter Progger von enormer Kompetenz hat mal gesagt "Regex ist in der Chomsky-Klassifizierung eine Sprache 2. Ordnung. Deshalb kann Regex nicht zählen."

Zählen wäre aber für dein Vorhaben unabdingbar.

na, vlt. auch doch - ich probier mal mit meim Regextester

DanCooper · 26. März 2015, 13:06

Regex

Quellcode

((ich bin )(?!zuhause).*?unterwegs)

Ich kriegs bei diesem Beispiel wenigstens annähernd hin, wobei mit (ich bin ) die Abfolge fix festgelegt habe:

ich bin zuhause als unterwegs
ich bin draussen häufig als unterwegs
ich bin zuhause im Keller als unterwegs
ich bin gerne zuhause im Keller als unterwegs
ich bin gerne draussen als unterwegs

1 und 2 werden nicht gematcht, die 4 aber trotzdem.

ErfinderDesRades · 26. März 2015, 13:24

Lösung für Problem aus post#3: ich.*?(?<!zuhause .*)unterwegs

Aber ob dir das für dein Xml hilft...

DanCooper · 26. März 2015, 13:40

ErfinderDesRades schrieb:

Lösung für Problem aus post#3: ich.*?(?<!zuhause .*)unterwegs

Aber ob dir das für dein Xml hilft...

Damit kriege ich den Fehler

Lookbehinds need to be zero-width, thus quantifiers are not allowed

Der Stern passt ihm da nicht.
Welche Software nutzt du um Regex zu testen? Ich nutze immer regex101.com/

ErfinderDesRades · 26. März 2015, 13:42

Regextester - OpenSource

Und der Regex funzt ziemlich sicher, denn mein Tester führt den doch aus.

DanCooper · 26. März 2015, 14:07

Ok, dann werd ich hier wohl aufgeben und eine andere Lösung suchen.
Danke für die Hilfe.

Link · 26. März 2015, 18:49

Hi,

wieso, wo ist das Problem, die Matches mit ner zweiten Zeile Code zu prüfen?
Aber vorab um Missverständnisse zu vermeiden, du sagtest

muss mit ich beginnen und beim ersten Vorkommen von unterwegs stoppen

WAS muss mit "ich" beginnen? Die Zeile? Oder der String?

Ansonsten: frag zuerst ab ob es mit "ich" beginnt und mit "unterwegs" endet - soweit waren wir ja schon. Könnte mit ^ich\b.*?\bunterwegs klappen. Die Funde kannst du dir in ein Array laden. Dieses Array gehst du inner Schleife durch, und nur wenn das Muster \bzuhause\b nicht gefunden wird, ist die Bedingung true. Und wenn die true ist, dann mach eben was auch immer du damit machen willst.

Link :thumbup:

DanCooper · 26. März 2015, 18:58

Link schrieb:

Hi,

wieso, wo ist das Problem, die Matches mit ner zweiten Zeile Code zu prüfen?
Aber vorab um Missverständnisse zu vermeiden, du sagtest

muss mit ich beginnen und beim ersten Vorkommen von unterwegs stoppen

WAS muss mit "ich" beginnen? Die Zeile? Oder der String?

Ansonsten: frag zuerst ab ob es mit "ich" beginnt und mit "unterwegs" endet - soweit waren wir ja schon. Könnte mit ^ich\b.*?\bunterwegs klappen. Die Funde kannst du dir in ein Array laden. Dieses Array gehst du inner Schleife durch, und nur wenn das Muster \bzuhause\b nicht gefunden wird, ist die Bedingung true. Und wenn die true ist, dann mach eben was auch immer du damit machen willst.

Link

Wie in Post 3 geschrieben hab ich kein VB für diesen Fall zur verfügung, sondern muss mit einer einzigen Regex zurecht kommen. Ansonsten wäre das alles natürlich kein Problem. Aber ich will nicht extra eine Anwendung dafür schreiben.

Link · 26. März 2015, 19:03

Hi,

ah ok. Überlesen.
Naja gut je nachdem wie flexibel du mit deinen Anforderungen bist (beginnt mit "ich" und stoppt beim ersten Vorkommen von "unterwegs") könnte man die Bedingungen ja ein Stück lockern. Denn wenn du sicher bist dass der Satz nach dem "ich" auf jeden Fall immer ein "bin" dranstehen hat, ist es natürlich absolut einfach: ich bin (?!(zuhause)).*? unterwegs. Wenn du Sätze hast, bei denen nach "ich" nicht "bin" kommt oder nach bin noch ein "gern", klappt das natürlich so nicht mehr. Aber vielleicht löst das dein Problem ja bereits.
//Edit: naja hab grad noch bissl rumprobiert, allzu optimal isses so auch nicht

Link

Link · 26. März 2015, 21:57

Hi,

habe nun denk ich eine Lösung dafür

Der Pattern hier ich (?!.*?(zuhause)).*?unterwegs sollte das gewünschte tun.

Im regex101.com klappt's:

Du kannst mehrere Wörter angeben die nicht vorkommen sollen. Mit dem Pattern ich (?!.*?(zuhause|im)).*?unterwegs würde zum Beispiel nur die letzte Zeile gefunden werden, weil da "zuhause" und "im" nicht drin vorkommen

Weitere Infos (wen's interessiert):

Spoiler anzeigen

Link

Eierlein · 26. März 2015, 22:33

Mit dem Pattern ich (?!.*?(zuhause|im)).*?unterwegs würde zum Beispiel nur die letzte Zeile gefunden werden

Auch mit TextCrawler getestet?

Falls es dir entgangen ist, nicht alle Regexe können was ein .net Regex kann.

Link · 26. März 2015, 23:09

Auch mit TextCrawler getestet?

Falls es dir entgangen ist, nicht alle Regexe können was ein .net Regex kann.

Nein. Aber warum testest du es nicht bitte mit TextCrawler und postest dazu, ob es funktioniert? Dann hättest du auch was sinnvolles beigetragen

Naja lass sein ich mach es gern. Ich editiere meinen Post dann und schreib dazu ob's klappt.

//EDIT: Getestet mit TextCrawler: funktioniert

Link

DanCooper · 27. März 2015, 12:52

Link schrieb:

Hi,

habe nun denk ich eine Lösung dafür Der Pattern hier ich (?!.*?(zuhause)).*?unterwegs sollte das gewünschte tun.

Im regex101.com klappt's:
vb-paradise.de/index.php/Attac…4744b6170f737800527e679c3

Du kannst mehrere Wörter angeben die nicht vorkommen sollen. Mit dem Pattern ich (?!.*?(zuhause|im)).*?unterwegs würde zum Beispiel nur die letzte Zeile gefunden werden, weil da "zuhause" und "im" nicht drin vorkommen

Weitere Infos (wen's interessiert):

Spoiler anzeigen

//EDIT: Was da passiert ist übrigens folgendes:
- Suche nach "ich"
- Suche alles (also ".") bis zum ersten Vorkommen von "zuhause" und negiere dann durch den negativen lookaround. Quasi "suche solange bis dieses und jenes nicht vorkommt". Aber nicht nur "vielleicht nicht" sondern "ganz sicher nicht". Es darf gar nicht vorkommen.
- Suche weiter nach allen Zeichen (ob welche kommen oder nicht) bis "unterwegs" vorkommt.

Hierzu mögliche weitere Überlegungen:
- schreibe im lookaround anstatt "zuhause" vielleicht "zuhause?", sodass u.U. auch nur "zuhaus" matcht.
- schreibe vor "unterwegs" noch ein "\b" oder ein Leerzeichen um eine Wortgrenze zu erzwingen
- Verwende auf jeden Fall die Modifier "g" für global und "i" für ignore-case. Bei Bedarf noch "s" für singleline.

Link

Wow, sehr gut, danke!

Jetzt muss ich das nur noch irgendwie in meine ursprüngliche Regex aus Post 1 einbauen

Denke aber, das sollte gehen.

EDIT:

so, ich habs nun für meine Anfangsfrage die richtige Regex erstellt:

Quellcode

(<streamdetails>)(?<STREAM1ANFANG>\s*?<audio>(?!.*?(language)).*?)(?<STREAM1ENDE><\/audio>)(?<STREAM2ANFANG>\s*?<audio>(?!.*?(language)).*?)(?<STREAM2ENDE><\/audio>)\s*?(?<VIDEOundREST><video>.*?<\/streamdetails>)

Damit werden jetzt nur die NFOs erkannt, die über zwei Audiospuren verfügen, bei denen keine der beiden Spuren ein <language> Node besitzt.
Danke an Link für die Lösung :thumbsup:

(wo finde ich eigentlich den Bedanken oder Nützlich Button?)

Regex - Suche nach Gruppe, die gewisses Wort nicht enthällt

Regex - Suche nach Gruppe, die gewisses Wort nicht enthällt

Quellcode

XML-Quellcode

XML-Quellcode

Quellcode

Quellcode

ErfinderDesRades schrieb:

Link schrieb:

Yeah :)

Link schrieb:

Quellcode

Ähnliche Themen

4 Benutzer haben hier geschrieben