Extracting data time from Russian text and c onverting to number

@hmfa @mwiegand

I am trying to change the named months (in Russian) into their corresponding numbers but it is not clear how I extract the date from the JSON data given that Knime does NOT recognize the date (e.g. 1 февраля 2018) automatically. I include also a sample of the data attached to this post and a visual rendering of it below. TIA!

VSKOto0424.json (3.3 MB)

[‘января’: 1,
‘февраля’: 2,
‘марта’: 3,
‘апреля’: 4,
‘мая’: 5,
‘июня’: 6,
‘июля’: 7,
‘августа’: 8,
‘сентября’: 9,
‘октября’: 10,
‘ноября’: 11,
‘декабря’: 12]
Data_Processing.knwf (82.7 KB)

{
“name”: “Конкурс кандидатов на лучший казачий кадетский корпус”,
“url”: “Конкурс кандидатов на лучший казачий кадетский корпус | Всероссийское казачье общество”,
“article”: “В Ставрополе возле Вечного огня состоялась торжественная церемония открытия второго тура смотра-конкурса на звание «Лучший казачий кадетский корпус».\nВ мероприятии приняли участие десять команд из Краснодарского края, Новосибирской, Волгоградской, Ростовской, Самарской и Брянской областей, которые по итогам первого тура стали лучшими кадетскими корпусами.\nВ первом этапе приняли участие 12 регионов страны, заявки были поданы от 22 общеобразовательных организаций со специальным наименованием «казачий кадетский корпус».\nГлавная цель конкурса — военно — патриотическое воспитание молодежи, развитие исторических, культурных и духовных традиций российского казачества.\nПобедитель будет награжден переходящим знаменем президента Российской Федерации. Команды-призеры получат денежные премии.\n23 апреля 2024 в 18:32\nВажные события\nВсероссийское казачье общество и Центр «ВОИН» заключили соглашение о сотрудничестве\nЛучшим казачьим кадетским корпусом стал Новороссийский”,
“date”: “23 апреля 2024 в 18:32”
},

Hi @drrarnold22

I adjusted a little your workflow.

See if this is what you need.

Data_Processing_new.knwf (86.6 KB)

Regards
Hugo

Thanks, that worked!

Hi @drrarnold22,

pretty similar to the solution from @hmfa here is mine but using XPath, that has some advantages over processing JSON, and a back test if the Cyrillic non-ascii characters cause some issue. Thankfully, they don’t.

Best
Mike

1 Like

Thanks! A friend and I worked it out last night using XPath and XML (he finds JSON Path “annoying,” apparently). He also used snowball stemmer to lemmatize the Russian (which I didn’t think it could do)

I want to produce some topic models and other NLP- which it seems I can also do through Knime- but I will open different topics for that. I also need to write a facial recognition workflow- but again, new topic.

Thanks for your help.

Rich