Sortierung verbessern/beschleuningen?

Takafusa · 17. Juni 2021, 15:48

Hey,

ich habe einen vector<string> mit CD-Namen, diesen sortiere ich alphabetisch und wenn eine Nummer am Ende ist, wird das auch numerisch sortiert. Dauert mir aber ein wenig lange, schon auf Windows, es soll später auf einem Raspi laufen, da wirds noch länger dauern, schon allein weil von Micro-SD gelesen wird.

Beispiel Ergebnis der Sortierung
ACD_1
aCD_2
ACD_2
ACD_12
BCD_1
BCD_12
bCD_2
usw. ....

So sortiere ich das:

C-Quellcode

bool IsCharLess(char c1, char c2)
{
return tolower(static_cast<unsigned char>(c1)) < tolower(static_cast<unsigned char>(c2));
}
bool Comparer(const string& s1, const string& s2)
{
smatch m1, m2;
regex r("\\d+$");
if (regex_search(s1, m1, r) && regex_search(s2, m2, r))
{
string a(m1.prefix());
string b(m2.prefix());
if (a.compare(b) == 0)
{
return stoi(m1.str()) < stoi(m2.str());
}
}
return lexicographical_compare(s1.begin(), s1.end(), s2.begin(), s2.end(), IsCharLess);
}

C-Quellcode

vector<string> albums = vector<string>();
//albums füllen;
sort(albums.begin(), albums.end(), Comparer);

Ohne Sortierung dauert der Vorgang(Daten aus dem Dateisystem hohlen) < 1 Sekunde, mit sortierung mehr als 10, die Sortierung ist also der Flaschenhals. Kann man die Sortierung irgendwie schneller hinkriegen?

RodFromGermany · 17. Juni 2021, 16:06

@Takafusa Ich denke mal, lexicographical_compare() dauert sehr lange.
Den Algorithmus würde ich in VB.NET oder C# optimieren, da geht das Optimieren schneller.

Takafusa · 17. Juni 2021, 16:48

Leider kann ich nicht so einfach auf Net.Core umsteigen. Ich habe mir mit SDL2 eine Control-Biliothek in C++ erschaffen(bzw. bin noch dran, werde irgendwie nie fertig) läuft wunderbar auf Windows und Linux, das alles zu portieren würde mir zu lange dauern, arbeite schon sicher 1 jahr oder mehr an meinem "Kleinen-Framework".

Jemand hat mir empfohlen sqlite zu implementieren um so nicht immer neu alles einzulesen(beim Programmstart), die Daten dann sortiert aus der DB hohlen. Wollte ich zwar nicht, weil ich noch keine Ahnung hab von DBs mit C++, aber es scheint es wäre angebracht mich mal mit sqlite unter C++ zu beschäftigen, mit Java habe ich vor langer Zeit mal damit gearbeitet. Da war Eclipse noch die Android IDE.

RodFromGermany · 17. Juni 2021, 17:12

@Takafusa Du sollst nicht umsteigen, sondern den Algorithmus in einer anderen Sprache entwickeln und optimieren.
Danach überträgst Du den Algorithmus nach C++.

Takafusa · 17. Juni 2021, 17:21

Achso hast du das gemeint. Ich habe noch ein paar Tests gemacht, Regex ist hier der Falschenhals, hab das auskommentiert so das der returnwert von lexicographical_compare direkt zurückgeht. Kaum ein merkbarer Unterschied mit und ohne Sortierung.

RodFromGermany · 17. Juni 2021, 17:28

Takafusa schrieb:

Regex ist hier der Falschenhals

Oha.
Lässt sich das evtl. umgehen?

Takafusa · 17. Juni 2021, 17:34

Ich überlege gerade wie ich das umbaue. Ich denke ich werde die beiden strings von hinten nach vorne parsen, sollte am Ende beider strings eine Nummer sein und beide strings ohne diese Nummern identisch sein, beide Zahlen durch stoi jagen und vergleichen welche Nummer kleiner ist. Ich probier das mal.

RodFromGermany · 17. Juni 2021, 17:51

@Takafusa Wie sieht denn so ein String aus?

Takafusa · 17. Juni 2021, 18:03

Also die Strings sind Ordnernamen von Musik-CD-Ordnern, bestehend aus Artist und Albumname getrennt mit einem - . (siehe Anhang)

Edit: @RodFromGermany
Ich hab jetzt einen Prototypen fertig, geht deutlich flotter. Noch verschönern dann geht das wohl, bin aber für andere Vorschläge oder verbesserungen offen.
Dirty Prototype:

C-Quellcode

bool IsCharLess(char c1, char c2)
{
return tolower(static_cast<unsigned char>(c1)) < tolower(static_cast<unsigned char>(c2));
}
bool Comparer(const string& s1, const string& s2)
{
string str1, str2;
bool s1EndsWithNumber = false;
bool s2EndsWithNumber = false;
for (int i = s1.length() - 1; i > -1; i--)
{
const unsigned char c = s1[i];
if (isdigit(c))
{
str1 += c;
}
else
{
break;
}
}
if (str1.length() > 0)
{
s1EndsWithNumber = true;
reverse(str1.begin(), str1.end());
}
for (int i = s2.length() - 1; i > -1; i--)
{
const unsigned char c = s2[i];
if (isdigit(c))
{
str2 += c;
}
else
{
break;
}
}
if (str2.length() > 0)
{
s2EndsWithNumber = true;
reverse(str2.begin(), str2.end());
}
if (s1EndsWithNumber && s2EndsWithNumber)
{
string s1a = s1.substr(0, s1.length() - str1.length());
string s2a = s2.substr(0, s2.length() - str2.length());
if (s1a.compare(s2a) == 0)
{
return stoi(str1) < stoi(str2);
}
}
return lexicographical_compare(s1.begin(), s1.end(), s2.begin(), s2.end(), IsCharLess);
}

RodFromGermany · 17. Juni 2021, 18:23

Takafusa schrieb:

C-Quellcode

if (isdigit(c))

Drehe die if-Logik um und nimm das else raus.
Wenn die Namen alle so aussehen, arbeite mit Split und nimm dann die Teile unter die Lupe.
Somit wäre Regex überflüssig.

Takafusa · 17. Juni 2021, 18:30

Es kann aber muss keine Nummer am Ende sein. Der numerische vergleich soll nur wenn Nummern am Ende sind stattfinden, daher teste ich ob die strings ohne diese Nummern also "Artist - Albenname [entfernte nummer]" gleich sind.

Bedingungen angepasst, ist ein wenig besser jetzt. Alles viel schneller, die Sortierung stimmt auch.

C-Quellcode

bool Comparer(const string& s1, const string& s2)
{
string str1, str2;
unsigned char c;
for (int i = s1.length() - 1; i > -1; i--)
{
c = s1[i];
if (!isdigit(c))
{
break;
}
str1 += c;
}
for (int i = s2.length() - 1; i > -1; i--)
{
c = s2[i];
if (!isdigit(c))
{
break;
}
str2 += c;
}
if (str1.length() > 0 && str2.length() > 0)
{
reverse(str2.begin(), str2.end());
reverse(str1.begin(), str1.end());
string s1a = s1.substr(0, s1.length() - str1.length());
string s2a = s2.substr(0, s2.length() - str2.length());
if (s1a.compare(s2a) == 0)
{
return stoi(str1) < stoi(str2);
}
}
return lexicographical_compare(s1.begin(), s1.end(), s2.begin(), s2.end(), IsCharLess);
}

@RodFromGermany Danke für den Stups in die richtige Richtung, wäre heute sicher nicht auf die Idee gekommen regex rauszuwerfen. Nach deinem Tipp, einen Algo selbst zu erstellen, kam ich erstmal auf die Idee den Regex-Teil auszukommentieren, sonst hätte ich heute nicht mehr geschnallt das dies der Flaschenhals war.

Konnte mich also wieder mal davor drücken, DBs mit C++ in Angriff zu nehmen.

Elanda · 18. Juni 2021, 13:21

Also so wie ich es verstanden habe ist alles was du möchtest es lexikalisch zu sortieren?

C-Quellcode

bool compare(const std::string &left, const std::string &right)
{
using CharPtr = std::string::const_pointer;
CharPtr lch = left .data();
CharPtr rch = right.data();
for (;;)
{
if (*lch == '\0' || *rch == '\0')
{
return *lch < *rch;
}
if (*lch != *rch)
{
return *lch < *rch;
}
(void) ++lch;
(void) ++rch;
}
}

Das Glück ist das auch nummerische Werte in der ASCII-Tabelle enthalten sind, daher kann man direkt nach diesem Wert gehen.
Ich hoffe mal ich hab da jetzt keinen Schnitzer reingeworfen, ich hab das nämlich am Smartphone geschrieben und getestet. (da geht schnell mal einiges Panflöten)

Hier is' halt so dass das ASCII-compliant ist, wenn andere Enkodierungen verwendet werden, ist das natürlich ein wenig anders!

Es gibt auch noch eine STL variante, die so trivial wie auch effizient ist:

C-Quellcode

std::sort(vec.begin(), vec.end(), [](const std::string &str1, const std::string &str2) { return str1 < str2; });

Das Glück hier ist das std::string einen größer-kleiner operator anbietet der dies für dich übernimmt.
Ich würde warscheinlich diesen Wählen, da meiner zu ungetestet ist.

Und hier auch noch ein Benchmark zwischen deinem, meinem und dem STL-Algorithmus:
quick-bench.com/q/auKpfOpUnDU0qjaaAuMuOs_XHMQ

Edit: hab erst gar nicht gemerkt dass du nicht nur lexikalisch sondern auch numerisch sortierst, das geht mit meinem und dem STL algorithmus natürlich nicht!
Das hier hat aber 4 Tests bestanden:

C-Quellcode

inline constexpr char numZero = '0';
inline constexpr char numNine = '9';
bool isNumeric(char val)
{
return val >= numZero && val <= numNine;
}
int getNumVal(char val)
{
return val - numZero;
}
bool compare(const std::string &left, const std::string &right)
{
using CharPtr = std::string::const_pointer;
CharPtr lch = left .data();
CharPtr rch = right.data();
for (;;)
{
if (*lch == '\0' || *rch == '\0')
{
return *lch < *rch;
}
if (isNumeric(*lch) && isNumeric(*rch))
{
int number_1 = 0;
int number_2 = 0;
if (*lch == '0' && *rch != '0')
{
while (*lch == '0')
{
if (*(++lch) == '\0')
{
return true;
}
}
}
else if (*lch != '0' && *rch == '0')
{
while (*rch == '0')
{
if (*(++rch) == '\0')
{
return false;
}
}
}
for (;;)
{
if (isNumeric(*lch) != isNumeric(*rch))
{
return !isNumeric(*lch);
}
if (!isNumeric(*lch) && !isNumeric(*rch))
{
if (number_1 != number_2)
{
return (number_1 < number_2);
}
break;
}
number_1 = (number_1 * 10 + getNumVal(*lch));
number_2 = (number_2 * 10 + getNumVal(*rch));
(void) ++lch;
(void) ++rch;
}
continue;
}
if (*lch != *rch)
{
return *lch < *rch;
}
(void) ++lch;
(void) ++rch;
}
}

Neuer benchmark:
quick-bench.com/q/yd43QDdR2OmYFFJBiVgIkTZBLKE

Takafusa · 18. Juni 2021, 15:16

Hey Elanda,

das sieht soweit sehr überzeugend aus. Ich werde heute Abend mal schauen ob die Sortierung passt, gegebenenfalls anpassen und übernehmen. Ich denke das lexicographical_compare bei mir noch bremst, merkt man aber kaum, ein Paar Tausend Ordner(ohne inhalte) sind in < 1.5 - 2 Sekunden eingelesen. Die Inhalte werden beim erst selektieren eines Albums in der GUI eingelesen.

Ich danke Dir

Takafusa · 19. Juni 2021, 10:08

@Elanda Der Code ist wirklich schnell, die Sortierung passt nicht ganz. Weil kleingeschrieben Char erst nach dem großen Z in der Ausgabe sind. Werde einfach wenn char >= 97 && char <= 122, 32 abziehen.

RodFromGermany · 19. Juni 2021, 10:47

Takafusa schrieb:

Werde einfach wenn char >= 97 && char <= 122, 32 abziehen.

Da musst Du nix testen, sondern Du machst ein bitweises Not: & ~32 und feddich.

Sortierung verbessern/beschleuningen?

Sortierung verbessern/beschleuningen?

C-Quellcode

C-Quellcode

Takafusa schrieb:

C-Quellcode

Takafusa schrieb:

C-Quellcode

C-Quellcode

C-Quellcode

C-Quellcode

C-Quellcode

Takafusa schrieb:

Ähnliche Themen

3 Benutzer haben hier geschrieben