最新消息:20210917 已从crifan.com换到crifan.org

【未解决】重新爬取少儿趣配音数据并记录部分的分类层级和是否是动画片

爬取 crifan 293浏览 0评论
折腾:
【未解决】补全少儿xxx数据逻辑:添加分类标签和标记是否是动画片
期间,对于下面视频:
从视频广场进入后:
(1)
  • 动画明星
  • 精选教材
  • 启蒙专区
    • 自然拼读
    • 字母启蒙
对于每一个最底层的视频
加上 前几级别的分类属性
(2)
  • 视频分类
    • 动漫世界
      • 全部
循环处理
每一个 course
去mongodb中判断:
  • 系统已有
    • 更新标识为 isCartoon 表示是动画片
  • 系统没有
    • 新增存入 mongodb
以及
对于course中有mp4地址 = 每个mp4视频
再去:
  • 下载
  • 处理:去水印,上传到oss,存到mongodb
上述所有course,都重新抓,存到mongodb:
  • media.cqpycourse = child xxx course
  • media.cqpyshow = child xxx show
先去调试:
如何获取 动画明星 全部分类:
# https://childapi30.xxx.com/album/albumBag?sign=1cd5fc66b4ae83d74bcfe37558d80048&timestamp=1567151761&uid=0&auth_token=0&start=0&rows=30&block_id=1
# https://childapi30.xxx.com/album/albumBag?sign=aeb109701200b6e9250c60da98ba9d37&timestamp=1567151796&uid=0&auth_token=0&start=30&rows=30&block_id=1
#
# https://childapi30.xxx.com/album/albumBag?sign=f1537eb49895561190e6b3443f84a9e7&timestamp=1567152193&uid=0&auth_token=0&start=0&rows=30&block_id=1
# https://childapi30.xxx.com/album/albumBag?sign=51d434f03e5c27bfb89142519c517b8b&timestamp=1567152195&uid=0&auth_token=0&start=30&rows=30&block_id=1
# https://childapi30.xxx.com/album/albumBag?sign=8eea56a82af3d00f86be54a65336e52a&timestamp=1567152196&uid=0&auth_token=0&start=60&rows=30&block_id=1
然后通过postman是可以获取信息的:
header:
App-Version: 6.1.3
但是有个问题:
这个sign的值,经过测试:
看起来是和其他参数:
  • timestamp
  • uid
  • auth_token
  • start
  • rows
  • block_id
是绑定的
-》sign签名值是通过其他参数,用一定算法,生成的。
-》参数不对,会报错:
{
    "status": 401,
    "msg": "认证错误"
}
而sign的具体算法,此处不知道,就没法模拟去爬取
且 还很快就过期了:
调试期间,几分钟后,sign就过期了:
{
    "status": 401,
    "msg": "认证过期"
}
所以现在是:
必须想办法找到sign的计算逻辑才行
感觉又和之前一样了:要想办法破解app,拿到源码,才可能知道sign计算逻辑。
所以只能去:
【已解决】破解安卓应用少儿xxx的源码以便于找到sign签名和auth_token的算法计算逻辑
后续已经解决了。
但是此处的事情,就不需要了。
因为已经合并到后续的任务中了:
【未解决】重爬少儿xxx的所有视频

转载请注明:在路上 » 【未解决】重新爬取少儿趣配音数据并记录部分的分类层级和是否是动画片

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
95 queries in 0.205 seconds, using 23.48MB memory