Clensing Text Using Regex

Hallo,

I have text like this,

Jakarta - Pengusaha menilai skema gaji per jam dapat memberi banyak dampak positif bagi para buruh. Wakil Ketua Umum Asosiasi Pengusaha Indonesia (Apindo) mengatakan buruh yang diupah per jam justru dapat menikmati penghasilan lebih besar daripada bergantung terhadap upah minimum provinsi (UMP) yang selama ini berlaku.“Justru skema seperti ini menawarkan win-win solution bagi semua pihak, pekerja bisa punya penghasilan lebih gede dari UMP,” ujar Wakil Ketua Apindo Suryadi Sasmita kepada detikcom di Jakarta, Senin (30/12/2019).Ia mencontohkan bagaimana penerapan skema gaji per jam ini berlaku di negara maju. #div-gpt-ad-1572509250005-0 iframe{ border: 0px; vertical-align: bottom; position: fixed !important; z-index: 1 !important; left: 0px; top: 0; right: 0; margin: auto; } googletag.cmd.push(function() { googletag.display(‘div-gpt-ad-1572509250005-0’); }); “Saya beberapa kali tinggal di luar negeri, di sana cleaning service-nya digaji mahal sekali, untuk 1 jam saja itu bisa mencapai US$15 atau setara Rp 210.000 (kurs Rp 14.000), bayangkan saja kalau pekerja ini kerja sampai 8 jam per harinya, UMP ya kalah jauh, lebih gede gaji per jam lah,” sambungnya. Selain itu, pekerja diberi keleluasaan untuk bekerja di lebih banyak perusahaan dengan upah beragam dan waktu yang ditentukan secara mandiri oleh pelakunya. “Pekerja bisa punya banyak waktu untuk melakukan hal apapun yang mereka mau, misal, malam hari dia merasa ingin menambah pendapatan lebih, dia bisa kerja malam hari di perusahaan lain, atau siangnya ada kegiatan lain, bisa memilih untuk tidak kerja dulu, sebenarnya konsep ini benar-benar menguntungkan bagi para pekerja,” imbuhnya. Di sisi lain, pekerja jasa profesional seperti praktisi hukum, guru, hingga dokter yang selama ini digaji kecil malah bakal sangat diuntungkan oleh skema tersebut. “Praktisi hukum yang mampu mencapai keinginan kliennya tentu dibayar berdasarkan keahliannya, begitu juga dokter yang misalnya bekerja hanya di waktu pagi saja atau malam saja, tentu digaji sesuai jam kerjanya dan kompetisinya, itu bisa besar sekali, tidak mungkin disamaratakan dengan yang lain,” tambahnya. Ia pun yakin sebuah perusahaan akan mengedepankan kesepakatan yang adil terhadap setiap pekerja berdasarkan kompetisi dan kualitasnya.“UMP selama ini kan, semua profesi digaji sama rata, mau dia lulusan SD, SMP, SMA, D3, bahkan S1, itu sebenarnya tidak adil, kalau dengan gaji per jam, semua digaji berdasarkan kompetisinya, jadi yang ingin kita ciptakan di sini adalah keinginan daya saing yang tinggi di masyarakat itu tumbuh,” tuturnya. Menurutnya, skema ini justru dapat mendorong masyarakat untuk berlomba-lomba mengejar pendidikan yang tinggi, sehingga lama kelamaan, kesenjangan sosial di masyarakat terkikis dengan sendirinya, sehingga semakin berkualitasnya Sumber Daya Manusia (SDM) di Indonesia akan memberi pengaruh signifikan terhadap iklim investasi di dalam negeri. “Jadi semua orang nanti maunya sekolah yang tinggi biar pendapatannya juga naik,” imbuhnya. Gaji per jam pun dinilai lebih fleksibel. Penjelasan hal itu bisa dibaca pada halaman berikutnyaSelanjutnya Halaman12upah per jamgaji per jampengusahaapindoburuhkspi

I want to clear the text with bold. I try using regex but all text are gone.

thank you.

Hi,
which regex did you try? Doesn’t #.*\}\); work?
Kind regards,
Alexander

3 Likes

Hallo Mr.@AlexanderFillbrunn,

There are no change, the text are lost at all.

image.

I attached the data that should be clean as I explained above. I just learn about regex so I don’t really understood about regex.

Raw Data.xlsx (52.8 KB)

Hey @Nanda_Rukmana ,

You can try the String Replacer node configured as such:

it works well for me when I tested it. There are probably other Regex methods to get to your result, this was just one that worked well.

Best wishes!

2 Likes

Hi @Nanda_Rukmana,

The regex pattern suggested by @AlexanderFillbrunn works perfectly fine on your example data set.

You have to use it like this in the String Manipulation node:

regexReplace($Content$, "#.*\\}\\);", "")

But please be careful: Although this approach solves your issue here, I do not recommend it since many other issues are likely to arise. For example, if your text has a # character before the undesired section of the text, then everything starting from the first # will be removed. If your text has any }); character sequence after the undesired section, everything to that point will be removed. Using this particular pattern, if your text has 2 or more sections with the undesired string, then everything starting from the first one to the end of the last one will be removed.

I suggest you follow a better approach to get the content from the source if possible.

Another approach could be checking for alphabetic density in the text and remove sections where it becomes sparse.

However, regarding your current data set, you are good to go for now.

:blush:

5 Likes

Hi @TardisPilot,

Although your regex also works here, I really discourage using it. This pattern will malfunction if a single semicolon appears in the rest of the text which seems very likely to me.

:blush:

1 Like

Hi @armingrudd

I agree with you and totally understand.

If that pattern is a constant in the dataset, which it might be, then the regex will work fine and he can always run further QA checks for the presence of that web code if checking for alphabetic density is too complex. :+1:

2 Likes

This topic was automatically closed 7 days after the last reply. New replies are no longer allowed.