Disk and RAM configuration

nadiroun · October 23, 2020, 12:49pm

Bonjour,

Mais dans mon cas, j’ai un referentielde produit avec 3 000 000 millions de produit,
je ne peut pas limiter les produit a vendre !!!

mon objectif et de creer un moteur de similarité pour trouver le produit le plus similaire a la discription du client, impossible de supprimer un terme qui apparait uniquement dans 1% des doc car si un produit est vraiment unique je dois le vendre de toute façon !!!

bref, cela c’est très technique , nous demandons simplement de nous dire c quoi la taille maximal de RAM et DISC pour pouvoir produir une vectorisation de 3 000 000 de document et 6000 terme c’est vraiment simple comme question

Alice_Krebs · October 28, 2020, 12:50pm

Hi @nadiroun

I am not very proficient in French, so I used Google Translator. Unfortunately that still didn’t help me to understand your issue.
It is theoretically possible to estimate RAM and hard drive usage (I assume that’s what you meant with DISC?!) for processes, but that depends on many different factors. So I am afraid the answer is not simple, sorry! Check this link, maybe that can help you: https://www.knime.com/blog/optimizing-knime-workflows-for-performance

Geo · October 31, 2020, 11:11pm

Yes, the above user asks about RAM and disk space issues given a product description catalogue containing 3 million entries. The objective appears to be a similarity search: new products or incoming customer requests being compared to the catalogue.

IMO the answer mainly depends on the similarity search method implementation (preprocessing, document representation, distance calculation, etc.) and is indeed not just a question of computer performance.

system · June 2, 2023, 9:41pm

This topic was automatically closed 90 days after the last reply. New replies are no longer allowed.