Bibliometrische Analyse

Hallo KNIME Community,

ich möchte gerne eine bibliometrische Patentanalyse mit KNIME machen.

Hierzu habe ich bisher Patentdaten im XLS Format (Spalte B - Veröffentlichung; Spalte K - Abstract). Nun möchte ich den Text in der Spalte K nach Schlagwörtern durchsuchen, bei Match soll dies mit der jeweiligen Jahreszahl aus Spalte B verknüft werden. Zusammengeführt in einer neuen Tabelle.

 

Wie muss ich den Workspace hierfür aufbauen?

Für nützliche Informationen und Hilfestellung bin ich dankbar!

 

Beste Grüße

Sebastian

Wie soll das gewünschte Output aussehen ? Gibt es nur einen Treffer pro Schlagwort oder mehrere ? Falls mehrere, wie soll dies dargestellt werden ?

Ich möchte gerne nach Schlagworten suchen, anschließend soll für jedes Schlagwort ein Trend abgebildet werden, wo ersichtlich wird in welchen Jahren wie oft Patente zu diesem Schlagwort angemeldet wurden.
 

​- Den Text mit String to Document umwandeln, dann in eine Bag of Words;

- die "Term" Kolonne mit term to string umwandeln und dann diesen String mit Joiner mit der kompletten Liste der Schlagwörter mergen ;

- Mit Groupby für Schlagwort und Jahr, die Anzahl der Patente berechnen;

P.S.: Am besten bearbeitet man den Text noch vor String To Document mit der String Manipulation (z.B. text sowie Schlagwörter auf lower case setzen). Es kann sein, dass man den text noch mehr bereinigen muss, hängt halt eben von der Sauberkeit der Daten ab ...

Also die Daten liegen wie folgt vor:

Patentdaten:

 

Sowie die Schlagworte:

jeweils in unterschiedlichen Exceldateien.

 

Nun möchte ich die Schlagwörter jeweils im Abstract (der Patentliste) durchsuchen lassen.

Anschließend soll dann z.B. eine Tabelle entstehen:

  1995 1996 1997 1998 1999
Glasses 1 5 4 3 2

Wo die jeweiligen Treffer auf das Jahr bezogen wurde.

 

Wie könnte man da vorgehen?

evtl so?

 

 

Vielen Dank für die Hilfe !

Ohje ich bin damit überfordert.

Anbei die Links zu den Daten:

https://www.dropbox.com/s/dfoeus4mkzsst7k/Apple%201995-1998.xlsx?dl=0

https://www.dropbox.com/s/8n3fw2jsl28slfk/Schlagw%C3%B6rter.xlsx?dl=0

https://www.dropbox.com/s/yfyy2b415jzigoa/Bibliometrische%20Analyse.zip?dl=0

Wäre super wenn man mir hier unter die Arme greifen könnte.
 

Vielen Dank !!!

 

 

Ohje ich bin damit überfordert.

Wäre toll wen mir jemand unter die Arme greifen könnte.

 

https://www.dropbox.com/s/yfyy2b415jzigoa/Bibliometrische%20Analyse.zip?dl=0

https://www.dropbox.com/s/dfoeus4mkzsst7k/Apple%201995-1998.xlsx?dl=0

https://www.dropbox.com/s/8n3fw2jsl28slfk/Schlagw%C3%B6rter.xlsx?dl=0

 

Vielen Dank!!!!

Folgende Anpassungsvorschläge:

- die laufende Nummer als Source angeben (und anticken) im Strings to Document Node (vorher mit in ein String umwandeln z.B. mit String To Number) ;

- vor Bag of Words den Column Splitter benutzen: Document sollte auf der rechten Seite stehen, alles andere auf der linken;

- Joiner muss konfiguriert werden: Joiner Settings -> Add Row -> Wort Variabel in beiden Tafeln auswählen (Term as string in der obigen, und Suche in der unteren);

- dann mit Document Data Extractor die Source extrahieren;

- mit Joiner die anfangs gespaltene Tafel wieder hinzufügen (RowID ist jeweils Source und laufende Nummer) - nun hat man wieder das Jahr in der Tafel;

- schlussendlich Pivot (anstelle von Groupby): Groups = Term as string; Pivots: Jahr, Manual Aggregation: Document Count;

Das Jahr muss man vorher aus dem Datum extrahieren.

Siehe Workflowbeispiel in meinem vorigen Post.

Vielen Dank für die Hilfe!!!!

Ich habe nun das Blatt angepasst: Jedoch ist im unteren Ast nun die laufende Nummer verschwunden.

 

https://www.dropbox.com/s/z7f6p0a2b005ifv/test%20patente.zip?dl=0

https://www.dropbox.com/s/z7f6p0a2b005ifv/test%20patente.zip?dl=0

 

 

Vielleicht liegt das am String To Document node sowie des vorherigen Number To String node. Die laufende Nummer sollte als Source im String To Document definiert werden. Allerdings muss sich diese Nummer dafür im String Format befinden.

Vielen Dank, es funktioniert !!!!!

Ich hab eine Erweiterung im Sinn bzw. eine neue Vorgehensweise:

Wie muss ich den Workflow aufbauen, wenn ich in den Patenten eine Häufigkeitssuche der Worte machen möchte?

Z.B. Das Wort "The" kommt x mal in allen Patenten vor, usw.
Es soll aber nicht anhand einer vordefinierten Liste gesucht werden (wie vorher), sondern selbsständig die häufigsten Wörter auflisten.

Ziel ist eine Häufigkeitsverteilung.

Folgendes Buch hilft zum Aufbauen von Basiswissen im Bereich Text Mining:

http://data-science-for-biz.com/DSB/Home.html

Tipp: die TF Node.

P.S: Folgender Post ist ebenfalls interessant:

https://tech.knime.org/forum/knime-textprocessing/text-processing-creating-a-filtering-knime-workflow

P.S.S.: Text Mining ist mittlerweil ein Bereich für sich und braucht leider ein bisschen Basiswissen. Die obige Buchempfehlung ist losgelöst von mathematischen Demonstrationen, bietet die perfekte Einleitung in das Jargon und die existierenden Analysemöglichkeiten und behandelt Data Mining im allgemeinen. Natürlich gibt es auch noch andere Bücher ...  

DANKESCHÖN !!!!

Vielen Dank für die umfassende Hilfe - es funktioniert! :-)