awk-gsub: 全局字符串替换

概述

`gsub` 是 Global Substitution 的缩写，它是在 `awk` 脚本中将所有匹配特定正则表达式的部分替换为指定字符串的函数。与只替换第一个匹配项的 `sub` 函数不同，`gsub` 会替换所有匹配项。

gsub(正则表达式, 替换字符串, [目标字符串])

`gsub` 函数返回一个整数，表示替换发生的次数。此返回值可在条件语句等场景中发挥作用。

使用 `gsub` 函数进行各种字符串替换的示例。

将文件中的所有 'old' 替换为 'new'

echo 'This is an old file with old data.' > data.txt
awk '{gsub(/old/, "new"); print}' data.txt

将 data.txt 文件中所有出现的 'old' 单词替换为 'new'。并打印修改后的内容。

将空格替换为连字符

echo 'Hello World from Awk' | awk '{gsub(/ /, "-"); print}'

将输入字符串中的所有空格替换为连字符 (-)。

仅在特定字段内进行替换

echo 'field1 field2 apple' | awk '{gsub(/a/, "X", $3); print}'

仅在第三个字段 ($3) 内将 'a' 替换为 'X'。（例如：'apple banana cat' -> 'apple banana cXt'）

不区分大小写替换

echo 'Apple is an apple.' | awk 'BEGIN {IGNORECASE=1} {gsub(/apple/, "orange"); print}'

将 `IGNORECASE` 变量设置为 1，不区分大小写地将 'apple' 替换为 'orange'。

仅移除数字

echo 'Product ID: 12345 ABC' | awk '{gsub(/[0-9]/, ""); print}'

从字符串中移除所有数字。

使用 `gsub` 函数时的有用提示和需要注意的事项。

`gsub` 替换所有匹配项，而 `sub` 函数仅替换第一个匹配项。请根据需要选择合适的函数。

在正则表达式中，要将 `.` `*` `+` `?` `[` `]` `(` `)` `|` `^` `$` `\` 等特殊字符作为字面量使用时，需要用 `\` 进行转义。例如，要匹配实际的点 (.)，应使用 `\.`。

如果省略 `target_string`，则默认替换操作将应用于当前记录的整个内容 ($0)。如果只想应用于特定字段，则必须使用 `gsub(regex, replacement, $N)` 的形式指定字段。

在替换字符串中，反斜杠 (`\`) 可能具有特殊含义。例如，`\&` 表示匹配到的整个字符串。要使用字面意义的反斜杠，需要将其转义为 `\\`。