Foxtable(狐表)用户栏目专家坐堂 → 高效随机抽取少量和大量记录的方法


  共有4327人关注过本帖树形打印复制链接

主题:高效随机抽取少量和大量记录的方法

帅哥哟,离线,有人找我吗?
狐狸爸爸
  1楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
高效随机抽取少量和大量记录的方法  发帖心情 Post By:2015/5/14 16:54:00 [显示全部帖子]

随机抽取少量记录

 

如果要从数据表中随机抽取一定数量的记录,例如从员工表随机抽取5个员工,可以参考下面的代码:

Dim ids As String
Dim
lst As new List(of String)
Dim
cnt As Integer = DataTables("员工").DataRows.Count
Do

    Dim Id As Integer = rand.Next(0,cnt)
    id = DataTables("员工").DataRows(id)("_Identify")
    If lst.Contains(id) =False Then
        lst.Add(id)
    End If
    ids = ids & id &
","

Loop
While lst.count < 5   '5是要抽取的行数
Tables
("员工").Filter = "[_Identify] In (" & ids.Trim(",") & ")"

 

上面的代码适合随机抽取少量的记录。

 

随机抽取大量记录

 

如果随机抽取的记录较多,可以考虑增加一个逻辑列,假定逻辑列的名称为“选择”,可以参考下面的代码:

 

Dim lst As new List(of Integer)
Dim
cnt As Integer = DataTables("订单").DataRows.Count
Tables
("订单").StopRedraw()
DataTables
("订单").ReplaceFor("选择",False)
Do

    Dim idx As Integer = rand.Next(0,cnt)
    If lst.Contains(idx) =False Then
        lst.Add(idx)
        DataTables(
"
订单").DataRows(idx)("选择") = True
    End
If

Loop
While lst.count < 100   '100是要抽取的行数
Tables
("订单").Filter = "[选择] = True"
Tables
("订单").ResumeRedraw()

 

上面的代码从订单表中随机抽取100个订单。
建议逻辑列“选择”采用表达式列,不要给其设置表达式即可,因为:没有设置表达式的表达式列,可以通过代码设置此列的值。


 回到顶部
帅哥哟,离线,有人找我吗?
狐狸爸爸
  2楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
  发帖心情 Post By:2015/5/14 17:10:00 [显示全部帖子]

嗯,一楼抽取大量记录的代码不太恰当,下面的代码应该高效很多,因为无需用集合来检索:

 

Dim cnt As Integer = DataTables("订单").DataRows.Count

Dim nds As Integer = 100 '要抽取的记录数

Tables("订单").StopRedraw()

DataTables("订单").ReplaceFor("选择",False)

Do

    Dim idx As Integer = rand.Next(0,cnt)

    Dim dr As DataRow = DataTables("订单").DataRows(idx)

    If dr("选择") = False Then

        dr("选择") = True

        nds = nds - 1

    End If

Loop While nds > 0

Tables("订单").Filter = "[选择] = True"

Tables("订单").ResumeRedraw()

[此贴子已经被作者于2015/5/14 17:13:55编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
狐狸爸爸
  3楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
  发帖心情 Post By:2015/5/14 17:37:00 [显示全部帖子]

如果抽取数接近与总的记录数,那么3楼的代码也不太合适,虽然可以逆排除,但毕竟要多写代码。
所以还是洗牌的方法比较好,性能稳定:
 
Dim cnt As Integer = DataTables("订单").DataRows.Count
Dim ids(cnt - 1) As Integer
For i As Integer = 0 To cnt -1
    ids(i) = i
Next
For i As Integer = 0 To cnt \ 2 '洗牌
    Dim id1 As Integer = rand.Next(0,cnt)
    Dim id2 As Integer = rand.Next(0,cnt)
    Dim vid As Integer = ids(id1)
    ids(id1) = ids(id2)
    ids(id2) = vid
Next
Tables("订单").StopRedraw()
DataTables("订单").ReplaceFor("选择",False)
For i As Integer =  1 To 100 '100为要抽取的行数
    DataTables("订单").DataRows(ids(i-1))("选择") = True
Next
Tables("订单").Filter = "[选择] = True"
Tables("订单").ResumeRedraw()
[此贴子已经被作者于2015/5/14 17:37:58编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
狐狸爸爸
  4楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
  发帖心情 Post By:2015/5/15 8:59:00 [显示全部帖子]

这才是机会均等洗牌法:

 

Dim cnt As Integer = DataTables("订单").DataRows.Count
Dim ids1 As New List(of Integer)
Dim ids2 As New List(of Integer)
For i As Integer = 0 To cnt -1
    ids1.add(i)
Next
For i As Integer = 0 To cnt - 1
    ids2.Add(ids1(rand.Next(0,ids1.count)))
Next
Tables("订单").StopRedraw()
DataTables("订单").ReplaceFor("选择",False)
For i As Integer = 0 To 100 - 1 '100为要抽取的行数
    DataTables("订单").DataRows(ids2(i))("选择") = True
Next
Tables("订单").Filter = "[选择] = True"
Tables("订单").ResumeRedraw()

 

 

[此贴子已经被作者于2015/5/15 10:40:41编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
狐狸爸爸
  5楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
  发帖心情 Post By:2015/5/15 10:29:00 [显示全部帖子]

以下是引用jspta在2015/5/15 9:02:00的发言:
rand这个随机函数一点都不随机,中间值出现概率远大于两头

 

专门测试了一下,不存在这个问题:

 

Dim cnt(9) As Integer
For i As Integer = 1 To 100000
    Dim n As Integer = rand.Next(0,100000) \ 10000
    cnt(n) = cnt(n) + 1
Next
For i As Integer = 0 To 9
    output.show(i & ":" & cnt(i))
Next

[此贴子已经被作者于2015/5/15 10:37:13编辑过]

 回到顶部
帅哥哟,离线,有人找我吗?
狐狸爸爸
  6楼 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信
等级:管理员 帖子:47448 积分:251060 威望:0 精华:91 注册:2008/6/17 17:14:00
  发帖心情 Post By:2015/5/15 14:00:00 [显示全部帖子]

概率这东西,当然需要一定的量,才有说服力的。

 

当然你改为1000个,也会发现其实是没有规律的,也是匀分的:

 

Dim cnt(9) As Integer
For i As Integer = 1 To 1000
    Dim n As Integer = rand.Next(0,1000) \ 100
    cnt(n) = cnt(n) + 1
Next
For i As Integer = 0 To 9
    output.show(i & ":" & cnt(i))
Next


 回到顶部