Encontrar duplicados mediante expresión regular

Buen día
Me gustaría saber si hay una manera de usar el nodo “Duplicate row filter” con expresiones regulares o aluna alternativa y recibir un resultado de la siguiente manera.

Supongamos que tengo esta tabla
image

Lo que deseo es ver si un registro se repite en una parte de otro, en este caso los verdes contienen “123”

La respuesta deseada seria esta
image

De antemano muchas gracias.

Hi @sergio980316 ,

No sé hablar español…
espero que la autotraducción haya proporcionado los textos correctos :slight_smile:

Input:
grafik
Output:
grafik

Workflow:
KNIME_project2.knwf (23.5 KB)

1 Like

Hi @sergio980316,

Still cannot read/write spanisch… hopefully auto-translate is somewhat understandable :slight_smile:

Todavía no puedo leer/escribir en español… espero que la traducción automática sea algo comprensible :slight_smile:

¿Puede explicar cuándo un caso se considera duplicado?
¿Qué parte del texto es decisiva?
¿Si más de tres caracteres del texto son iguales? ¿O cuál es la lógica?

2 Likes

Antes que nada pido una disculpa, ya que la ultima respuesta que deje no era correcta, así que la he eliminado.
La lógica es la siguiente:
image

Tomar el valor de la primera fila completo (ABC12), entonces paso a siguiente fila (FABC129) y si encuentra dicho valor en algún lugar de la segunda entonces esta incluido y se marca como duplicado y así sucesivamente con todas las filas, hasta llegar a la fila 8 (AABC120). Luego, seria tomar la segunda fila y hacer lo mismo con todas.

Hi @sergio980316,

Gracias por la explicación. ¡Eso me ayudó!
Creo que serían posibles múltiples soluciones.
Aquí una usando el motor de reglas.

Input:
grafik

Output:
grafik

creación de reglas con manipulación de cadenas
grafik

aplicar reglas calculadas como

KNIME_project2.knwf (21.5 KB)

esta solución también encontraría una coincidencia en las filas anteriores - si no coincide con ninguna otra fila (no estoy seguro de si esto tiene que ser excluido o no)

Por ejemplo, la fila 1 contiene ABBB1 y la fila 7 contiene B1…
marcaría la fila 1 como duplicada y la fila 7 como escogida

también una sugerencia para futuras preguntas.
Si creas tu pregunta en inglés, recibirás ayuda mucho más rápido :slight_smile:
Creo que el foro en inglés es mucho más activo

2 Likes

Wow! esto es perfecto, muchísimas gracias :smiley:
Y lo tendré en cuenta para usar el foro en ingles la próxima vez

2 Likes

This topic was automatically closed 7 days after the last reply. New replies are no longer allowed.