7-46 新浪微博热门话题 (30分) (字符串解析)

Mar 30, 2020 | 数据结构与算法 | 阅读 | 1.1k 字 | 4 分钟

条评论

PTA数据结构与算法题目集(中文)： 7-46 新浪微博热门话题 (30分)

新浪微博可以在发言中嵌入“话题”，即将发言中的话题文字写在一对“#”之间，就可以生成话题链接，点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表，并将最热门的话题放在醒目的位置推荐大家关注。

本题目要求实现一个简化的热门话题推荐功能，从大量英文（因为中文分词处理比较麻烦）微博中解析出话题，找出被最多条微博提到的话题。

输入格式:

输入说明：输入首先给出一个正整数N（≤10⁵），随后N行，每行给出一条英文微博，其长度不超过140个字符。任何包含在一对最近的#中的内容均被认为是一个话题，输入保证#成对出现。

输出格式:

第一行输出被最多条微博提到的话题，第二行输出其被提到的微博条数。如果这样的话题不唯一，则输出按字母序最小的话题，并在第三行输出And k more ...，其中k是另外几条热门话题的条数。输入保证至少存在一条话题。

注意：两条话题被认为是相同的，如果在去掉所有非英文字母和数字的符号、并忽略大小写区别后，它们是相同的字符串；同时它们有完全相同的分词。输出时除首字母大写外，只保留小写英文字母和数字，并用一个空格分隔原文中的单词。

输入样例:

4
This is a #test of topic#.
Another #Test of topic.#
This is a #Hot# #Hot# topic
Another #hot!# #Hot# topic

输出样例:

1
2
3

Hot
2
And 1 more ...

题意：输入的每一行代表一条微博，其中一对#包裹的部分表示这条微博参与的“话题”（一条微博可以参与多个话题）。要求找出参与数最多的话题。话题由英文数字和其他非中文字符组成，两条话题去除非英文和数字的部分若相等则表示这两则话题相等。
分析：这题是数据结构与算法题目集（中文）上通过率最低的题，通常字符串处理的题目是有些麻烦的，把思路理清也不会太难。主要分为以下几步骤：
1. 将一条微博中 # 包裹的topic解析出来
2. 将取出的topic解析成两个字符串，一个是只包含的字母和数字并全转为小写，另一个则将所有单词用一个空格拼接且让首字母大写（即题目要求的输出格式）
3. 设置名为 cnt 的无序map用于记录每个话题出现的次数，在一条微博中重复出现的话题也只当出现一次，因此需要用 exist 来记录是否出现过，若未出现过 cnt 才加1
4. 为了方便排序，声明结构体用于保存答案

#include <bits/stdc++.h>
using namespace std;
struct node {
    int cnt;
    string topic;
};
bool cmp(node &a, node &b) {
    return a.cnt != b.cnt ? a.cnt > b.cnt : a.topic < b.topic;
}
string parse(string s, string &outputTopic) {
    string ans, it;
    for (int i = 0; i < s.length(); i++) {
        if (isalnum(s[i])) it += s[i];
        if (!isalnum(s[i]) || i == s.length() - 1) {
            if (it != "") {
                for (int j = 0; j < it.length(); j++) {
                    ans += tolower(it[j]);
                    outputTopic += tolower(it[j]);
                }
                outputTopic += ' ';
                it = "";
            }
        }
    }
    outputTopic[0] = toupper(outputTopic[0]);
    outputTopic.erase(outputTopic.end() - 1);
    return ans;
}
int main() {
    int n, k = 0;
    string s;
    scanf("%d", &n);
    unordered_map<string, int> cnt;
    getchar();
    for (int i = 0; i < n; i++) {
        getline(cin, s);
        unordered_map<string, bool> exist;
        bool flag = false;
        int start = 0;
        for (int i = 0; i < s.length(); i++) {
            if (s[i] == '#') {
                if (flag) {
                    string originalTopic = s.substr(start, i - start), outputTopic;
                    string lowerTopic = parse(originalTopic, outputTopic);
                    if (!exist[lowerTopic]) {
                        exist[lowerTopic] = true;
                        cnt[outputTopic]++;
                    }
                    flag = false;
                    continue;
                }
                start = i + 1;
                flag = true;
            }
        }
    }
    vector<node> ans;
    for (auto it : cnt) ans.push_back({it.second, it.first});
    sort(ans.begin(), ans.end(), cmp);
    printf("%s\n%d\n", ans[0].topic.c_str(), ans[0].cnt);
    for (int i = 1; i < ans.size(); i++) {
        if (ans[i].cnt != ans[0].cnt) break;
        k++;
    }
    if (k != 0) printf("And %d more ...", k);
    return 0;
}

本文作者：Char Jin
本文链接：https://blog.charjin.top/2020/03/30/pta-ds-7-46/
版权声明：本博客所有文章除特别声明外，均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处！

字符串解析