我的400篇博客都写了些什么

源起

快要 400 篇博文了(实际这是第397篇)，看到《我的博客都写了些什么》和《这18年土木坛子博主在关注什么领域和话题？》里总结了博客话题，感觉很好玩，尤其是把几百篇博文的标题生成纯文本文档喂给AI，让其提炼出最主要的关键词，非常高效，于是我也想分析一番。

总结

先看看ChatGPT对我的分析，我感觉还是挺准确的~

旅行：春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活：亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育：香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技：Deepseek、AI工具、智能家居等技术应用。
健康：健身、减肥、体能训练、运动会等。
文化：博物馆参观、书展、音乐会等文化活动。
金融：香港换证、签证、国际驾照等跨境金融事务。
体育：马拉松、铁人三项、足球赛事等运动活动。
职业：职业规划、职场经验、数据工程师等。
美食：餐饮体验、特色美食、旅行中的美食分享等。
科技工具：人工智能（AI）应用、智能设备、软件工具等。

数据获取

下面介绍我是怎么分析的。

lmmsoft.github.io/archives 这是我的博文列表页，里面有全部的标题，可以借助这个网页的源码，拿到全部的标题。

我使用了 kimi，提示词 写段js代码，在浏览器的控制台里运行，输出文章列表 json, 包含日期，标题，网页的 html格式如下： + 部分网页源码，因为上下文长度有限制，没能贴上全部的网页源码，不过结构都是一样的，足够AI找到规律了。

输出的结构大概如下，是个 json 格式，另外有些小问题，比如 link 的 url 没有解码，会有 %E6%88 这样可读性查的字符。

[
  {
    "date": "2025-02-03",
    "title": "蛇年春节自驾d10：东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式",
    "link": "/snake_spring_d10_dongguan_to_hongkong/"
  },
  {
    "date": "2025-02-02",
    "title": "蛇年春节自驾d9：江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆",
    "link": "/snake_spring_d9_jiangmen_to_dongguan/"
  }
]

参考代码如下

// 获取页面中所有文章的日期和标题
const articles = document.querySelectorAll('article.post-content time');
const articleList = [];

articles.forEach((timeElement) => {
  const date = timeElement.textContent.trim(); // 获取日期
  const titleElement = timeElement.nextElementSibling; // 获取标题元素
  const title = titleElement.textContent.trim(); // 获取标题
  const link = titleElement.getAttribute('href'); // 获取链接

  // 对链接进行解码，使其更具可读性
  const readableLink = decodeURIComponent(link);

  articleList.push({
    date: date,
    title: title,
    link: readableLink
  });
});

// 输出 JSON 格式的文章列表
console.log(JSON.stringify(articleList, null, 2));

这里遇到个误区，我按照日常数据处理的思路，要求输出 json 格式，然后再把 json 喂给大模型，发现有很大的干扰。其实 json 是适合代码处理的格式，而让大模型分析数据，直接喂纯文本更好。

修改后的提示词大如下 修改 js, 直接输出标题，一行一个，一次性输出

参考代码如下：

// 获取页面中所有文章的标题
const titles = document.querySelectorAll('article.post-content a');

// 提取所有标题文本，并将它们组成一个数组
const titleList = Array.from(titles, (titleElement) => titleElement.textContent.trim());

// 输出所有标题，用换行符分隔
console.log(titleList.join('\n'));

参考输出如下：

蛇年春节自驾d10：东莞-深圳-香港 deepseek教我如何收拾行李箱 福田取逗留签 回港新方式
蛇年春节自驾d9：江门-顺德-东莞 中国侨都华侨华人博物馆 东莞迎宾馆
蛇年春节自驾d8：茂名-开平-江门 挥春作业 粤西堵车 开平碉楼 迎财神
蛇年春节自驾d7：茂名 中国第一摊 茂名博物馆 亚朵酒店
蛇年春节自驾d6：南宁-茂名 发财树 青秀山 路途亲子游戏
蛇年春节自驾d5：南宁过大年 醒狮贺岁 三街两巷 特色美食 骑行穿城 琅西夜市 打铁花
蛇年春节自驾d4：钦州-南宁 钦州老街，万丽年夜饭
新春好！我用deepseek写祝福，顺便送你三款红包封面
。。。

于是我就拿到了所有的标题，可以开始分析了

AI分析

分析这里原文每个提示词，我试了 Kimi（效果不佳）, gemini（效果一般），最后还是 GPT-4o 给出了比较好的返回，提示词也优化了一下，一开始直接让提示关键词，输出格式完全不是我想要的，后来给出原文里的参考格式，才拿到想要的输出。

参考提示词：

下面是博文的标题，请按照下面的格式，提炼出最主要的关键词。

参考格式：
旅行：记录公路旅行 、海岸线游览和国家公园游记。
Bitcoin：多次提到关于BTC的投资、价值、使用及加密货币相关经验。
博客：涉及博客写作原则、广告技巧、优化访问速度等。
互联网：讨论互联网内容、免费服务、网络安全等。
金融：涉及去中心化金融、货币贬值、财富管理等。
科技：包括如何建立网站、云存储、硬件钱包等。
生活：谈论旅游安全、餐饮体验、家庭生活等。
教育：涉及中文学校、比利时的教育经验等。
健康：涉及医疗保障、免费医疗、体检等。
文化：包括书籍读后感、诗词、各国文化比较等。

原始标题：
。。。

ChatGPT输出结果：

旅行：春节自驾游、东莞、深圳、香港等地的旅游经验与攻略。
生活：亲子活动、家庭生活、购物、文化体验、香港日常生活等。
教育：香港幼儿园面试经验、儿童教育、家庭教育规划等。
科技：Deepseek、AI工具、智能家居等技术应用。
健康：健身、减肥、体能训练、运动会等。
文化：博物馆参观、书展、音乐会等文化活动。
金融：香港换证、签证、国际驾照等跨境金融事务。
体育：马拉松、铁人三项、足球赛事等运动活动。
职业：职业规划、职场经验、数据工程师等。
美食：餐饮体验、特色美食、旅行中的美食分享等。
科技工具：人工智能（AI）应用、智能设备、软件工具等。

Gemini输出结果：

旅行: 蛇年春节自驾游记，涉及东莞、深圳、香港、江门、顺德、茂名、开平、钦州、南宁、阳江、海陵岛等多个城市和地区。
香港: 多篇博文记录了在香港的生活点滴，包括备战HK100、HK50等赛事，以及参观展览、亲子活动、美食体验等。
亲子: 多次提到与宝宝在香港和深圳的亲子活动，如参观博物馆、参加嘉年华、体验农场等。
科技: 涉及使用Deepseek AI工具、搭建Copilot-gpt4-service、使用BeanCount记账软件等。
生活: 记录了在香港的租房、搬家、购物、就医等生活琐事，以及与朋友聚餐、参加社区活动等。
教育: 提及宝宝在香港幼儿园的面试经历，以及对香港教育体系的观察和思考。
健康: 记录了宝宝在香港的就医经历，以及对香港医疗体系的观察和思考。
文化: 参观博物馆、美术馆、历史建筑等，以及对各地文化的观察和思考。
其他: 涉及新年计划、个人总结、读书笔记、技术分享等。

你觉得哪个更符合对我的印象呢？

明明如月成长笔记

Mingming's blog

我的400篇博客都写了些什么

源起

总结

数据获取

AI分析

本文总阅读量次

关于我

良师益友

近期文章

分类目录

标签

存档

版权声明

文章导航