源起

快要 400 篇博文了(实际这是第397篇),看到 《我的博客都写了些什么》《这18年土木坛子博主在关注什么领域和话题?》 里总结了博客话题,感觉很好玩,尤其是把几百篇博文的标题生成纯文本文档喂给AI,让其提炼出最主要的关键词,非常高效,于是我也想分析一番。

总结

先看看ChatGPT对我的分析,我感觉还是挺准确的~

旅行:春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活:亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育:香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技:Deepseek、AI工具、智能家居等技术应用。
健康:健身、减肥、体能训练、运动会等。
文化:博物馆参观、书展、音乐会等文化活动。
金融:香港换证、签证、国际驾照等跨境金融事务。
体育:马拉松、铁人三项、足球赛事等运动活动。
职业:职业规划、职场经验、数据工程师等。
美食:餐饮体验、特色美食、旅行中的美食分享等。
科技工具:人工智能(AI)应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页,里面有全部的标题,可以借助这个网页的源码,拿到全部的标题。

我使用了 kimi, 提示词 写段js代码,在浏览器的控制台里运行,输出文章列表 json, 包含 日期,标题, 网页的 html格式如下: + 部分网页源码,因为上下文长度有限制,没能贴上全部的网页源码,不过结构都是一样的,足够AI找到规律了。

输出的结构大概如下,是个 json 格式,另外有些小问题,比如 link 的 url 没有解码,会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10:东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9:江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码,使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));

这里遇到个误区,我按照日常数据处理的思路,要求输出 json 格式,然后再把 json 喂给大模型,发现有很大的干扰。其实 json 是适合代码处理的格式,而让大模型分析数据,直接喂纯文本更好。

修改后的提示词大如下 修改 js, 直接输出标题,一行一个,一次性输出

参考代码如下:

// 获取页面中所有文章的标题
const titles = document.querySelectorAll('article.post-content a');

// 提取所有标题文本,并将它们组成一个数组
const titleList = Array.from(titles, (titleElement) => titleElement.textContent.trim());

// 输出所有标题,用换行符分隔
console.log(titleList.join('\n'));

参考输出如下:

蛇年春节自驾d10:东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式
蛇年春节自驾d9:江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆
蛇年春节自驾d8:茂名-开平-江门 挥春作业 粤西堵车 开平碉楼 迎财神
蛇年春节自驾d7:茂名 中国第一摊 茂名博物馆 亚朵酒店
蛇年春节自驾d6:南宁-茂名 发财树 青秀山 路途亲子游戏
蛇年春节自驾d5:南宁过大年 醒狮贺岁 三街两巷 特色美食 骑行穿城 琅西夜市 打铁花
蛇年春节自驾d4:钦州-南宁 钦州老街,万丽年夜饭
新春好!我用deepseek写祝福,顺便送你三款红包封面
。。。

于是我就拿到了所有的标题,可以开始分析了

AI分析

分析这里原文每个提示词,我试了 Kimi(效果不佳), gemini(效果一般),最后还是 GPT-4o 给出了比较好的返回,提示词也优化了一下,一开始直接让提示关键词,输出格式完全不是我想要的,后来给出原文里的参考格式,才拿到想要的输出。

参考提示词:

下面是博文的标题,请按照下面的格式,提炼出最主要的关键词。

参考格式:
旅行:记录公路旅行 、海岸线游览和国家公园游记。
Bitcoin:多次提到关于BTC的投资、价值、使用及加密货币相关经验。
博客:涉及博客写作原则、广告技巧、优化访问速度等。
互联网:讨论互联网内容、免费服务、网络安全等。
金融:涉及去中心化金融、货币贬值、财富管理等。
科技:包括如何建立网站、云存储、硬件钱包等。
生活:谈论旅游安全、餐饮体验、家庭生活等。
教育:涉及中文学校、比利时的教育经验等。
健康:涉及医疗保障、免费医疗、体检等。
文化:包括书籍读后感、诗词、各国文化比较等。

原始标题:
。。。

ChatGPT输出结果:

旅行:春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活:亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育:香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技:Deepseek、AI工具、智能家居等技术应用。
健康:健身、减肥、体能训练、运动会等。
文化:博物馆参观、书展、音乐会等文化活动。
金融:香港换证、签证、国际驾照等跨境金融事务。
体育:马拉松、铁人三项、足球赛事等运动活动。
职业:职业规划、职场经验、数据工程师等。
美食:餐饮体验、特色美食、旅行中的美食分享等。
科技工具:人工智能(AI)应用、智能设备、软件工具等。

Gemini输出结果:

旅行: 蛇年春节自驾游记,涉及东莞、深圳、香港、江门、顺德、茂名、开平、钦州、南宁、阳江、海陵岛等多个城市和地区。
香港: 多篇博文记录了在香港的生活点滴,包括备战HK100、HK50等赛事,以及参观展览、亲子活动、美食体验等。
亲子: 多次提到与宝宝在香港和深圳的亲子活动,如参观博物馆、参加嘉年华、体验农场等。
科技: 涉及使用Deepseek AI工具、搭建Copilot-gpt4-service、使用BeanCount记账软件等。
生活: 记录了在香港的租房、搬家、购物、就医等生活琐事,以及与朋友聚餐、参加社区活动等。
教育: 提及宝宝在香港幼儿园的面试经历,以及对香港教育体系的观察和思考。
健康: 记录了宝宝在香港的就医经历,以及对香港医疗体系的观察和思考。
文化: 参观博物馆、美术馆、历史建筑等,以及对各地文化的观察和思考。
其他: 涉及新年计划、个人总结、读书笔记、技术分享等。

你觉得哪个更符合对我的印象呢?