Ich brauchte für ein Projekt eine Volltextsuche, die in meiner CouchDB größere Mengen Text schnell und effizient durchsuchen kann. Mit einfachen Mitteln kann man in CouchDB nur nach Key und Value Werten suchen und auch der Einsatz von Wildcards (also * oder %, je nach Programmiersprache) ist stark eingeschränkt.
Nach einigen Recherchen habe ich mich dann für Solr entschieden, einen Docker Container dafür aufgesetzt und die Datenbank bzw. die Abfragen in mein Projekt integriert. Ich habe dazu einfach den zu durchsuchenden Text an CouchDB als auch an Solr gesendet. In Solr speicherte ich dann zusätzliche die _id
des CouchDB Dokuments. Damit konnte ich in Solr per Volltext suchen und über die in Solr gespeicherte _id
das Dokument in der CouchDB finden. Funktioniert hat das gut.
Diese Methode, zwei NoSQL Datenbanken gleichzeitig zu nutzen, ist nicht unüblich und Solr ist unfassbar schnell und bietet nette zusätzliche Funktionen, wie z.B. Text-Highlighting. Trotzdem war ich irgendwie unglücklich mit diesem Ansatz und hatte Angst im Bezug auf Skalierbarkeit und Verwaltbarkeit. Immerhin hätte ich mich um die Administration von zwei Datenbanken kümmern müssen.
mit Mango Query wird es einfacher
Ich weiß nicht, warum ich bei meinen Recherchen nicht darauf gestoßen bin, denn CouchDB kann mithilfe von Mango Query auch Volltextsuchen ausführen. Die CouchDB Dokumentation ist teilweise sehr verwirrend.
Mango Query basiert ebenfalls auf der Apache Lucene Bibliothek, bietet aber nicht den hohen Funktionsumfang von Solr. Für mein Projekt war das aber nicht wichtig. Wichtiger war, dass ich dadurch einen Docker Container einsparen konnte und die Komplexität senken konnte.
Standardmäßig ist Mango Query sogar schon aktiviert und ihr könnt direkt mit dem Suchen loslegen. Im folgenden Beispiel gehe ich davon aus, dass es schon Dokumente in der CouchDB gibt.
const fetchData = async () => {
try {
const response = await fetch('http://localhost:5984/mydatabase/_find', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
},
body: JSON.stringify({
selector: {
'SUCHFELD': { $eq: 'hello' },
},
fields: ['FELD1', 'FELD2'],
limit: 10,
}),
});
if (!response.ok) {
throw new Error('An error occurred while fetching data.');
}
const data = await response.json();
console.log(data.docs);
} catch (error) {
console.error(error);
}
};
fetchData();
- Kaufmann, Michael (Autor)
Letzte Aktualisierung am 18.09.2024 / Affiliate Links / Bilder von der Amazon Product Advertising API
Wir haben hier eine “klassische” fetch Abfrage, wie ich sie ständig in meinen React Projekten benutze. Die wichtigen Stellen im Beispiel sind:
- der
POST
geht auf die URLhttp://localhost:5984/mydatabase/_find
wobeimydatabase
natürlich ein Platzhalter für eure Datenbank ist - im
body
übergeben wir einen JSON-String - innerhalb von
selector
des JSON-Strings definieren wir das zu durchsuchende Feld (im Beispiel SUCHFELD) - wir wollen alle Dokumente finden, die im SUCHFELD den Text hello enthalten.
$eq
steht für equal, also “gleich” - innerhalb von
fields
legen wir fest, welche Felder der gefundenen Dokumente zurückgegeben werden sollen, also z.B._id
oder_rev
des Dokuments. Gebt ihr hier nichts an, wird das gesamte Dokument zurückgegeben - innerhalb von
limit
legen wir fest, wie viele Dokumente maximal zurückgegeben werden
Wildcards und weitere Optionen
Im vorangegangenen Beispiel haben wir nach dem exakten Begriff hello gesucht. Die Abfrage findet den Text helloWorld nicht, obwohl dort das Wort hello enthalten ist. Auch ganze Sätze werden nicht nach dem Wort hello durchsucht. Ein Dokument mit dem SUCHEFLD: “welcome and hello my friends” wird nicht gefunden.
Hierfür benötigt ihr nicht den Operator $eq
, hierfür benötigt ihr $regex
. Das entspricht am ehesten dem aus relationalen SQL-Datenbanken bekannten wehere SUCHFELD like '%hello%'
Und schon wieder ein wichtiger und entscheidender Hinweis: die Suche ist case sensitive, unterscheidet also Groß- und Kleinschreibung. hello entspricht nicht Hello und wird dementsprechend nicht gefunden. Aber auch hierfür gibt es eine Lösung: stellt dem Suchbegriff einfach ein (?i)
voran. Der JSON-String aus dem Beispiel könnte also wie folgt aussehen und würde dann hello oder Helo oder HeLO finden.
{
'selector': {
'SUCHFELD': {
'$regex': '(?i)helo'
}
}
}
Spannende Optionen die ihr im JSON-String benutzen könnt sind sort
, um die Ergebnisse in einer bestimmten Reihenfolge zu erhalten, und bookmark
, wenn Ihr die Ergebnisse auf mehreren Seiten darstellen wollt.
- Größe: ca. 7 ‘x5’ (203 x 148 cm x, 203,2 x 147,3 cm)
- Material: Plüsch, 70% Schwamm, 10% Vlies Stoff 20%
Letzte Aktualisierung am 18.09.2024 / Affiliate Links / Bilder von der Amazon Product Advertising API
Die Option bookmark
ist etwas umfangreicher. Ihr bekommt bei jeder Abfrage einen bookmark
zurück, der widerspiegelt, bis zu welchem Datensatz Ihr gesucht habe.
Beispiel: Wenn eure Suche 20 Dokumente zurückgibt und ihr ein limit
von 10 Dokumenten setzt, könntet ihr eine erneute Suche mit einem limit
von 10 und dem bookmark
aus der ersten Abfrage durchführen, um die nächsten 10 Dokumente zu erhalten.
Weitere Optionen, auf die ich hier nicht eingegangen bin, findet ihr in der offiziellen Dokumentation unter:
https://docs.couchdb.org/en/stable/api/database/find.html
Mango Query per Weboberfläche
Eine schöne Möglichkeit zum experimentieren bietet die Weboberfläche von CouchDB – Project Fauxton. Hier könnt ihr den JSON-String erstmal ausprobieren, erweitern und verbessern bevor ihr ihn in euer Projekt übernehmt