һөҗҗәттики охшаш қурларни өчүрүш(1)
сиздә бир текист һөҗҗити бар дәйли, бирақ охшаш қур бар болуп бу охшаш қурлардин пәқәт бирни сақлап қилиш шундақла әслидики һөҗҗәттики қурларниң орнини өзгәртмәсликкә еһтияҗ чүшкәндә қандақ қилиш керәк?
әгәр қурниң тәртипидә өзгуруш болсиму болду десиңиз буни sort
вә uniq
буйриқи билән әмәлгә ашурғили болиду.
мәсилән төвндики буйруқ билән:
cat text_hojjiti | sort | uniq
әгәр қур тәртипи өзгәрсиму болиду десиңиз шундақла һүҗҗәтниң чоң кичиклики бәк чоң болмиса юқириқи буйруқ яки охшап кетидиған усулда бир тәрәп қилғили болиду . һөҗҗәтниң чоң кичиклики бир қанчә гигабит болса юқириқи усулда коп вақит кетиду шундақла компийотриңизниң сәплемисигә болған тәләпму юқири болиду .
һөҗҗәттики һәрқайси қурниң тәртипини сақлиған һалда охшаш қурларни чиқириветиш учун қандақ қилиш керәк?
буниң үчүн
awk
ни ишлитип әмәлгә ашурғили болиду.йәни төвәндикидәк: awk '!visited[$0]++' text_hojjiti > yegi_text_hojjiti
бу усул билән бир қәдәр чоң һөҗҗәттики қайтиланған қурларниму тезликтә бир тәрп қилиғили болиду. мән бу арқилиқ 50 гегабитлиқ һөҗҗәтни 20 минут ичидә бир тәрәп қилдим. әлвәттә бу сизиниң мулазимитириңизниң сәплимиси, шундақила сизидики һөҗҗәтниң қурулмиси билән мунасивәтлик.
юқарқини әмәлгә ашурушниң йәнә бир хил усили болса cat, sort вә cut ларни ишилитиш усули , бу усул тоғрисида кийики язмида тохтилимиз.
қалдурдиған сөз барму?